Adjust|機器學習是對抗作弊的解藥？：CTO 談移動作弊理論 III

來源： Adjust

作者：Paul Müller

時間：2021-01-21

機器學習是我們對抗移動廣告作弊的解藥？

可以肯定的是，機器學習對于我們處理作弊的方式有很大的影響。隨著其不斷地被開發(fā)應(yīng)用，機器學習開發(fā)在業(yè)界取得了巨大進展。然而，機器學習并非萬無一失的解決方案，就技術(shù)層面而言，仍存在著許多未臻完善的缺點。

我們目前仍然處于機器學習使用的早期階段。因此，放手讓它打擊作弊是不負責任的行為，并可能導(dǎo)致意想不到的后果。

在接下來的移動作弊理論系列III中，我們將探討機器學習，了解該技術(shù)適用于市場的侷限性，以及該如何善用它目前的架構(gòu)，使其確實達成我們的核心目的。如果您尚未閱讀此理論系列，請點擊此處從第1部分開始閱讀，您也跳過第1部分，在第2部分了解作弊檢測和預(yù)防作弊之間的差異。

區(qū)隔理論與實際應(yīng)用

從目前的情況來看，機器學習存在根本上的理論問題，隨后我們將通過類比進行說明。假設(shè)您想要從河中汲水喝，水受到不同來源的嚴重污染，種種跡象顯示有問題發(fā)生。因此，您決定先確認水是否安全，然后考慮去除所有潛在污染物的方法。這意味著，您不僅需要明白污染物究竟看起來如何，還需要想出過濾所有污染物的對策。

在克服困難之后，您打造出一臺先進的機器。它自學如何檢測潛在的問題跡象，還會提示您它發(fā)現(xiàn)了哪種污染物。

實踐表明，您的機器能夠準確分辨出它發(fā)現(xiàn)的污染物類型，尤其是隨著時間推移，檢測的次數(shù)越多，其準確率也越高。但是，這是否意味著它能檢測出每一種類型的污染物？同時，是否可以用它來阻止污染，并過濾出安全的飲用水？

機器學習存在的隱憂

如果我們嘗試將機器學習取代具體的方法來過濾偽造行為，諸多問題可能會隨之而生。由于我們必須從真實用戶的組合數(shù)據(jù)集中過濾出虛假用戶，在過濾的過程中，會產(chǎn)生大量不明確的邊緣案例（edge cases)。

此外，作弊者可以“培養(yǎng)”來自真實設(shè)備的數(shù)據(jù)，偽造合法的用戶行為，其中包括SDK發(fā)送的任何歸因。有些作弊者會犯錯（例如創(chuàng)建容易被發(fā)現(xiàn)的虛假用戶交互)，每一次被發(fā)現(xiàn)他們便學到一些新東西。因此，他們下一次的作弊嘗試可能會更加復(fù)雜。

我們舉個例子來說明機器學習目前所面臨的困難。比方說，作弊者使用已知用戶的真實設(shè)備信息（例如操作系統(tǒng)版本、IDFA和區(qū)域設(shè)置）來實施作弊，問題是，在這種設(shè)備上就從未被下載的應(yīng)用進行偽造安裝，會導(dǎo)致機器學習算法在提取過去的數(shù)據(jù)點時，難以正確地為作弊手法作分類。其原因在于，歷史數(shù)據(jù)表明用戶是真實的，如此一來，又怎么使算法認為這是作弊呢？

此外，肇因于這些濫用真實設(shè)備數(shù)據(jù)的拙劣偽造行為，日后真正的用戶活動可能反而被歸類為作弊。本質(zhì)上而言，機器學習不知道哪個數(shù)據(jù)點是真實的，哪個數(shù)據(jù)點又是偽造的，繼而造成神經(jīng)網(wǎng)絡(luò)訓練的困難。我們已經(jīng)看到，作弊者用“完美”的數(shù)據(jù)偽造了幾乎所有的請求，其中包括客戶自身的測量系統(tǒng)。這使得機器學習即便在進行長期跟蹤之后，也很難辨識偽造用戶。

簡而言之，當面對不熟悉的新場景時，機器學習無法有效發(fā)揮作用。在下一部分我們將解釋，為何機器學習在實際應(yīng)用中，還不足以作為一個可靠的測量和過濾系統(tǒng)。

在轉(zhuǎn)化中迷失的數(shù)據(jù)

要作為拒絕假量的判斷基礎(chǔ)，神經(jīng)網(wǎng)絡(luò)需要在安裝時便決定何時要為大多數(shù)的營銷活動付款，然而此時它對用戶知之甚少。

為了解決這一問題，同時確定用戶的合法性，機器學習會嘗試在更大的數(shù)據(jù)集內(nèi)檢測更復(fù)雜的規(guī)律模式，包括那些看來混沌不明的特征。

這個時候，如果嘗試弄清楚整個專用神經(jīng)網(wǎng)絡(luò)的決策過程，您可能被搞得焦頭爛額。機器學習會創(chuàng)建出極其復(fù)雜的規(guī)則集，以奇怪的組合方式識別看似不相關(guān)的標識符。

有些供應(yīng)商銷售的反作弊工具十分依賴機器學習作為拒絕的基礎(chǔ)，如果受到質(zhì)疑，這些供應(yīng)商可能會決定將他們的決策隱藏在黑箱(black box)內(nèi)。也就是說，永遠不解釋他們在做什么。

這可能成為未來防作弊工具的一大隱憂。

為什么說黑箱不是一個好主意？

黑箱真的有那么糟糕嗎？讓我們舉個例子來說明原因。

假設(shè)有個渠道正在就近期營銷活動中被拒絕的歸因與客戶調(diào)解糾紛。渠道沒有可以復(fù)制或解釋拒絕的數(shù)據(jù)，因此不得不依據(jù)客戶的表述，而客戶又依賴于監(jiān)控作弊的歸因服務(wù)。雖然小部分爭議流量對于渠道來說可能不成問題，但在達到一定的臨界值之后，它會變成一個大問題。

一旦供應(yīng)商失去解釋拒絕歸因的能力（或者不想解釋），客戶會提出意見性的主張。我們可以就意見作爭辯或提出異議，然而如果沿著這個方向發(fā)展，最終會演變成這樣的景況：渠道試圖把每個過濾器描述成另一種可忽略的意見。

對于有效過濾的構(gòu)成要素，我們已經(jīng)清楚地表達了我們的觀點。我們想要創(chuàng)建一個合乎邏輯且透明的系統(tǒng)，以回避意見性的爭端，也就是說，我們嘗試以合乎事實的方式主張我們的拒絕。

正因如此，盡管我們認為機器學習是種優(yōu)秀的檢測手段，但我們不應(yīng)該用它進行拒絕，至少現(xiàn)在還不能。在目前的狀態(tài)下，邊緣案例會被忽略，且決策背后的邏輯最終可能會因意見而被拒絕，進而引發(fā)缺乏透明度的問題。我們應(yīng)該要做的，是認真研究、在正確的基礎(chǔ)上構(gòu)建過濾器，從而在不拒絕合法來源安裝的情況下阻止作弊。

現(xiàn)在讓我們回頭思考上文有關(guān)機器學習的類比，您肯定知道污染是存在的。但這并不意味著用這項邏輯來過濾水源的時機已經(jīng)成熟。最好的辦法是什么？通過研究調(diào)查和適當?shù)倪^濾，您可以追溯上游，找到污染來源，并從根本源頭杜絕污染。

立即登錄，閱讀全文

Adjust 移動廣告

上一篇：Adjust 進一步擴充渠道資源，助您實現(xiàn)全方位精細化運營

版權(quán)說明：

本文內(nèi)容來自于Adjust，本站不擁有所有權(quán)，不承擔相關(guān)法律責任。文章內(nèi)容系作者個人觀點，不代表快出海對觀點贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章