LinkedIn以機(jī)器學(xué)習(xí)偵測(cè)不適當(dāng)?shù)膫€(gè)人文件內(nèi)容

來(lái)源：十輪網(wǎng)

作者：十輪網(wǎng)編輯

時(shí)間：2020-07-13

LinkedIn披露自家處理猥褻與非法服務(wù)廣告等，不當(dāng)個(gè)人文件內(nèi)容的方法。官方提到，他們一直在開(kāi)發(fā)各種安全系統(tǒng)，阻止假賬號(hào)、防止濫用以及避免用戶受虛假個(gè)人數(shù)據(jù)欺騙，他們以自動(dòng)系統(tǒng)偵測(cè)并打擊違反服務(wù)條款的行為，而不當(dāng)個(gè)人文件內(nèi)容便是其中一部分。

jie_tu_2020-01-20_xia_wu_7.00.42.jpg

LinkedIn起初使用黑名單方法，創(chuàng)建一組違反服務(wù)條款的單詞和短語(yǔ)，當(dāng)系統(tǒng)發(fā)現(xiàn)賬戶的個(gè)人文件，含有其中任何一個(gè)不適當(dāng)?shù)膯卧~和短語(yǔ)時(shí)，便將賬戶標(biāo)記為欺詐賬號(hào)，并從LinkedIn中移除。

但這個(gè)方法有一些缺點(diǎn)，首先是不可擴(kuò)展性，因?yàn)檫@個(gè)方法需要手動(dòng)調(diào)整黑名單列表，評(píng)估阻擋詞句需要非常的小心，且許多單詞適當(dāng)與不適當(dāng)?shù)挠梅?，跟上下文有關(guān)，LinkedIn表示，像是外送茶（Escort）這個(gè)詞常用在賣淫上，但是也可用作醫(yī)療護(hù)送（Medical Escort）。

另外，黑名單方法的可維護(hù)性不好，要名單關(guān)注整體的性能很簡(jiǎn)單，但是根據(jù)列表關(guān)注每個(gè)詞就不是一件容易的事，需要大量的時(shí)間確保系統(tǒng)的穩(wěn)定性。LinkedIn需要非常確定賬戶的不合法性，才能刪除賬號(hào)，但由于以上原因，像是上下文影響字義的情況，管理員需要花費(fèi)許多心力判斷，因而限制了LinkedIn可以處理的賬戶數(shù)量。

為了提高偵測(cè)效率，LinkedIn決定使用機(jī)器學(xué)習(xí)方法，模型使用卷積神經(jīng)網(wǎng)絡(luò)（CNN），LinkedIn提到，CNN可以簡(jiǎn)單地處理像是Escort這種要依據(jù)上下文判斷字義的案例。訓(xùn)練的數(shù)據(jù)集分為適當(dāng)與不適當(dāng)，不適當(dāng)數(shù)據(jù)集大部分的數(shù)據(jù)來(lái)源，是以黑名單方法捕捉的，一小部分則是成員回應(yīng)并經(jīng)過(guò)人工審核。適當(dāng)?shù)臄?shù)據(jù)集則直接從6.6億個(gè)會(huì)員中抽樣。

但由于數(shù)據(jù)集中不良的樣本太少，可能會(huì)使訓(xùn)練產(chǎn)生偏見(jiàn)，LinkedIn提到，適當(dāng)數(shù)據(jù)集中的合法數(shù)據(jù)，有一大部分是因?yàn)槭芎诿麊蔚南拗疲?dāng)沒(méi)有仔細(xì)調(diào)整訓(xùn)練數(shù)據(jù)集，則模型可能會(huì)模仿過(guò)去黑名單系統(tǒng)的行為。

以Escort作為例子，不適當(dāng)使用Escort的個(gè)人文件數(shù)量，只是6.6億個(gè)會(huì)員基礎(chǔ)中的一小部分，當(dāng)Escort適當(dāng)使用的案例被降采樣，而不適當(dāng)使用Escort的案例采樣數(shù)量不變，則會(huì)使訓(xùn)練數(shù)據(jù)集看起來(lái)，像是Escort不當(dāng)使用的案例比適當(dāng)使用的案例還要多，但是以實(shí)際全球會(huì)員個(gè)人文件來(lái)看，情況恰巧相反。針對(duì)這個(gè)問(wèn)題，LinkedIn表示，他們找出各種產(chǎn)生偽陽(yáng)性的問(wèn)題詞匯，并搜索正常使用這些詞匯的會(huì)員文件，經(jīng)手動(dòng)標(biāo)示放進(jìn)適當(dāng)數(shù)據(jù)集中。

目前這個(gè)模型被用來(lái)偵測(cè)平臺(tái)上濫用賬戶，除了評(píng)估新賬戶之外，也會(huì)用來(lái)識(shí)別不適當(dāng)內(nèi)容的舊賬戶，LinkedIn提到，他們會(huì)擴(kuò)展訓(xùn)練數(shù)據(jù)集，來(lái)擴(kuò)張可識(shí)別的內(nèi)容范圍。

上一篇：玲瓏輪胎與騰訊云合作再升級(jí) 傾力打造全球首個(gè)輪胎行業(yè)工業(yè)互聯(lián)網(wǎng)平臺(tái)

原文鏈接：點(diǎn)擊前往 >

版權(quán)說(shuō)明：本文內(nèi)容來(lái)自于十輪網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章