應用商店中有成千上萬的游戲應用,每個月還有數(shù)以千計的新移動游戲發(fā)布,App Annie如何在高精細度結(jié)構(gòu)下,準確、高效、可擴展地覆蓋全球市場上絕大多數(shù)游戲應用?在本文中,我們將帶您了解我們游戲分類自動化產(chǎn)品——Game IQ——背后的數(shù)據(jù)科學秘密。
Game IQ采用了哪些數(shù)據(jù)科學技術(shù)?
1 收集功能:從文本到指標
我們的機器學習模型從向模型輸入數(shù)據(jù)的功能開始,因此模型的最終表現(xiàn)在很大程度上取決于輸入功能的質(zhì)量。那么游戲的哪些信息能夠幫助我們將游戲劃分到設(shè)定的類別中呢?
我們深入挖掘了每款游戲的大量數(shù)據(jù)和功能,最終,我們選擇使用以下三種類型的功能:
·文本功能:應用相關(guān)的文本信息
·指標功能:關(guān)于市場估算和應用使用行為的App Annie數(shù)據(jù)
·親和度功能:跨應用親和度
每一種功能都體現(xiàn)了游戲的不同方面。文本功能包含有關(guān)應用內(nèi)容和游戲玩法的詳細信息;指標功能攜帶量化信號,在更高層次上劃分應用;應用的親和度讓我們能夠發(fā)現(xiàn)類似的應用集群。
2 利用混合模型提供準確性
因為文本、指標和親和度功能的格式非常不同,所以我們選擇為這三種類型的功能分別構(gòu)建一個單獨的模型。我們首先人工分類數(shù)千個游戲作為一個訓練數(shù)據(jù)集。其次,在這個數(shù)據(jù)集上分別訓練這三個獨立的模型,并可以獨立生成一款游戲在每個類別中的概率。然后,將這些概率輸入到另一個經(jīng)過訓練的模型中,以輸出最終的分類結(jié)果。在數(shù)據(jù)科學中,這是一種稱為模型融合的集成學習方法,通常通過結(jié)合一組強大但多樣的模型來提高模型的預測精度。
3 置信度:通過人為干預避免錯誤
與所有機器學習模型一樣,我們的模型不可避免地會在某些情況下出現(xiàn)失誤。通常,當輸入模型中的游戲功能信息不全,無法借此準確判斷游戲類別時,就會出現(xiàn)這種情況。為此,我們開發(fā)了一種獨有的方法來計算每個類別預測的置信度,這樣我們就知道模型是否有把握做出正確的預測。對于那些置信度低于臨界值的預測,我們會將預測發(fā)送到人工分類平臺進行進一步審核。這種靈活的人機閉環(huán)設(shè)置進一步保證了我們分類的質(zhì)量。
數(shù)據(jù)科學如何將Game IQ打造成更好的產(chǎn)品?
除了創(chuàng)建一個高效和可擴展的分類解決方案外,數(shù)據(jù)科學模型還有一個額外的好處,那就是減少了主觀性的回旋空間。利用數(shù)據(jù),我們能夠盡可能以抽象的方式代替主觀判斷,否則許多應用都會被模糊地歸類。
Moon Active的《金幣大師》便是其中一款令我們感到為難的應用?!督饚糯髱煛肥且豢罘浅3晒Φ挠螒?,它集成了許多不同的硬核游戲循環(huán),從建造和攻擊村莊到基于概率的老虎機機制都包含其中。
《金幣大師》的應用截屏和游戲循環(huán)
可以預見,如果只看應用截屏、閱讀應用描述和玩游戲,很難對這種混合類型的建造游戲進行分類。然而,數(shù)據(jù)似乎提供了更為清晰的線索:
在比較收入與活躍用戶數(shù)比率以及收入與下載量比率之間的關(guān)系時,《金幣大師》呈現(xiàn)了常見于博彩類應用的市場表現(xiàn)特征。通過將市場估算整合到分類模型中,我們獲得了一個獨特的優(yōu)勢,即能夠盡可能減少主觀判斷需要。
數(shù)據(jù)科學將如何繼續(xù)改善Game IQ?
我們將持續(xù)改進數(shù)據(jù)科學模型。客戶關(guān)于游戲分類的反饋對我們來說是非常有價值的!您的反饋將作為數(shù)據(jù)的補充,輸入到我們的模型中,以此不斷提高預測的可靠性和準確性。