案例分析問題在面試中很常見,試想,你在面試德勤,面試官問你,你該如何衡量Instagram里面stories這個(gè)功能的成功,你會(huì)怎么回答?
如果你的回答是,A/B測(cè)試可以很好地衡量這個(gè)功能的成功,但是面試官進(jìn)一步說,但是公司現(xiàn)在沒有做這個(gè)A/B測(cè)試的能力,想一個(gè)替代方案,你又會(huì)怎么回答?
很多人會(huì)愣住,不知道如何回答。那么這邊文章將會(huì)給“愣住”的你們提供思路和解決辦法。
案例分析問題現(xiàn)在已然是數(shù)據(jù)科學(xué)和產(chǎn)品開發(fā)面試的重要組成部分,很多公司認(rèn)為案例分析面試很能夠看出候選人的敏銳度。面試旨在模擬公司當(dāng)前的產(chǎn)品,測(cè)試候選人的反應(yīng),解決問題的能力,有效處理障礙的能力,等等。一般案例分析問題有3種類型:
1)產(chǎn)品相關(guān)
2)建模相關(guān)
3)業(yè)務(wù)相關(guān)
接下來讓我們來從問題入手,看看如何解決一些比較tricky的案例分析問題。
但是要注意的是,這類問題沒有標(biāo)準(zhǔn)答案,重在于考察你是否能夠做出現(xiàn)實(shí)的假設(shè)并根據(jù)這些假設(shè)提出解決方案。本文的主要目的是提供回答這類問題的一些要點(diǎn)。
問題一:
試想你正在運(yùn)行一個(gè)電商網(wǎng)站,你有數(shù)以百萬可銷售的的產(chǎn)品,所以想要消除同一產(chǎn)品被命名為不同名稱而歸屬不同的類別的情況。
例如,有兩個(gè)產(chǎn)品名稱分別為iPhone X和Apple iPhone 10,但其實(shí)他們是同一產(chǎn)品;再比如亞馬遜會(huì)以不同的名稱出售相同的N-95口罩:Covid-19口罩和N-95口罩兩個(gè)名稱。
你的任務(wù)是將所有相同產(chǎn)品的不同名稱重命名為一個(gè)通用名稱。但首先你需要找出存在這種情況的所有產(chǎn)品。你會(huì)如何解決這個(gè)問題?
解決方法:
我們可以通過兩種方式解決這個(gè)問題。
我們可以通過從每個(gè)圖像中提取顆粒狀特征并在這些特征上進(jìn)行聚類來使用所有產(chǎn)品的給定圖像。顆粒度一詞很重要,因?yàn)槲覀儽仨殞?duì)特定產(chǎn)品的不同版本進(jìn)行分類,他們之間會(huì)有細(xì)微的差異。因此,提取低級(jí)別特征將很重要。因?yàn)?,假設(shè)我們從每個(gè)圖像中僅提取了高級(jí)功能并執(zhí)行了聚類。我們的算法會(huì)將所有iPhone聚類到一個(gè)群集中,將所有三星手機(jī)聚類到一個(gè)群集中,等等。但是我們希望每個(gè)模型都有一個(gè)專屬的群集,比如iPhone X有一個(gè)群集,而其他的iPhone模型也有他們的群集。因?yàn)閕PhoneX和iPhone 11的圖像之間的差異很小,所以必須提取顆粒度特征以提高群集算法的性能。
上述解決方案看起來很有說服力,但這時(shí)面試官反問:如果某些產(chǎn)品根本沒有圖像怎么辦?
我們還可以對(duì)每種產(chǎn)品的描述進(jìn)行聚類并對(duì)它們進(jìn)行分類。我們可以首先對(duì)描述進(jìn)行數(shù)據(jù)清理,然后在NLP中使用TF-IDF或任何其他熟悉的方法,進(jìn)行聚類。
問題二:
你正在為一個(gè)網(wǎng)站工作,并且你手中有一個(gè)大型數(shù)據(jù)庫,其中每一行代表一個(gè)頁面視圖。而我們的網(wǎng)站有多個(gè)頁面。(可以參考Facebook,它有登錄頁面,主頁,個(gè)人資料頁面等。)你將如何區(qū)分網(wǎng)絡(luò)爬蟲和真實(shí)用戶?
解決方法:
基本上,網(wǎng)絡(luò)爬蟲的目的是從網(wǎng)站上提取數(shù)據(jù),網(wǎng)絡(luò)爬蟲肯定會(huì)有很多頁面瀏覽量,并且每個(gè)頁面瀏覽的時(shí)間都很短,因?yàn)榫W(wǎng)絡(luò)爬蟲可以非??焖俚靥崛⌒畔?。
另一方面,真正的用戶訪問相對(duì)較少的頁面,并在每個(gè)頁面上花費(fèi)更多的時(shí)間。除了以上兩個(gè)假設(shè)外,我們可以做的另一個(gè)假設(shè)是,我們可以通過跟蹤IP地址或其他設(shè)備簽名來跟蹤每個(gè)唯一訪問者。
現(xiàn)在,我們可以使用SQL或任何其他查詢語言找到每個(gè)訪問者的訪問頁面總數(shù)、頁面總瀏覽時(shí)間、平均頁面瀏覽時(shí)間。
然后,我們可以在上述指標(biāo)上使用聚類算法,將網(wǎng)絡(luò)爬蟲和真實(shí)用戶分為兩個(gè)集群。
問題三:
假設(shè)你是LinkedIn團(tuán)隊(duì)的數(shù)據(jù)科學(xué)家。你有一個(gè)新聞提要排序算法(我們都知道,當(dāng)每個(gè)用戶登錄時(shí),他們會(huì)看到一個(gè)包含各種文章的新聞提要,這些文章使用排序算法進(jìn)行排序)。你將通過什么樣的方式來判斷新聞排名算法是否成功應(yīng)用呢?
解決方法:
第一步是提出我們認(rèn)為可以評(píng)估該算法有效性的指標(biāo)。一個(gè)基準(zhǔn)指標(biāo)是點(diǎn)擊率(點(diǎn)擊特定鏈接的用戶與瀏覽該鏈接的總用戶數(shù)量的比率)。但是,有一些更好的指標(biāo)(如轉(zhuǎn)發(fā)和評(píng)論)也可以用來評(píng)估新聞內(nèi)容的吸引力。
由于上述解決方案似乎很模糊,面試官或許會(huì)問一些更加深入的問題:
如果上述某些指標(biāo)上升而另一些指標(biāo)下降怎么辦?你將如何處理?你認(rèn)為哪個(gè)指標(biāo)更重要?
在這時(shí)最重要的是LinkedIn團(tuán)隊(duì)對(duì)這個(gè)算法分析的角度。如果他們?cè)噲D從業(yè)務(wù)的角度評(píng)估算法(如LinkedIn通過廣告來賺錢),那么點(diǎn)擊率將是一個(gè)更重要的指標(biāo),但如果評(píng)價(jià)是純粹從用戶體驗(yàn)的角度來看,用戶評(píng)價(jià)將是一個(gè)重要的指標(biāo)。
現(xiàn)在我們來看一個(gè)模擬面試中的例題:
你如何衡量Instagram Stories的成功?
我們都知道,Instagram Stories允許用戶在24小時(shí)內(nèi)與他人分享照片和視頻。朋友們可以看到這些故事,回復(fù)和分享這些故事。這個(gè)特性試圖實(shí)現(xiàn)兩個(gè)目標(biāo)。
1. 留存率:有多少用戶會(huì)再次使用這個(gè)功能。
2. 參與度:確保用戶更多地使用此功能。
這兩個(gè)目標(biāo)通過以下幾個(gè)指標(biāo)來衡量:
1. 平均每個(gè)用戶會(huì)發(fā)幾個(gè)Instagram Stories(每天或每周)
2. 平均每個(gè)顧客會(huì)看幾個(gè)Instagram Stories(每天或每周)
除了上述兩個(gè)指標(biāo)外,另一個(gè)衡量這個(gè)功能成功與否的關(guān)鍵指標(biāo)是發(fā)布多個(gè)故事的用戶比例,可能存在這樣的情況,人們可能只發(fā)布了一個(gè)故事來嘗試這個(gè)功能,但沒有人會(huì)重用它。
結(jié)論
回答案例、研究問題不僅需要技術(shù)知識(shí),還需要對(duì)業(yè)務(wù)需求有深刻的理解。創(chuàng)造高效,適合企業(yè)需求的產(chǎn)品始終是市場(chǎng)的主導(dǎo)。通過商業(yè)洞察來解決現(xiàn)實(shí)生活中的問題至關(guān)重要。