LinkedIn披露自家處理猥褻與非法服務(wù)廣告等,不當(dāng)個人文件內(nèi)容的方法。官方提到,他們一直在開發(fā)各種安全系統(tǒng),阻止假賬號、防止濫用以及避免用戶受虛假個人數(shù)據(jù)欺騙,他們以自動系統(tǒng)偵測并打擊違反服務(wù)條款的行為,而不當(dāng)個人文件內(nèi)容便是其中一部分。
LinkedIn起初使用黑名單方法,創(chuàng)建一組違反服務(wù)條款的單詞和短語,當(dāng)系統(tǒng)發(fā)現(xiàn)賬戶的個人文件,含有其中任何一個不適當(dāng)?shù)膯卧~和短語時(shí),便將賬戶標(biāo)記為欺詐賬號,并從LinkedIn中移除。
但這個方法有一些缺點(diǎn),首先是不可擴(kuò)展性,因?yàn)檫@個方法需要手動調(diào)整黑名單列表,評估阻擋詞句需要非常的小心,且許多單詞適當(dāng)與不適當(dāng)?shù)挠梅ǎ舷挛挠嘘P(guān),LinkedIn表示,像是外送茶(Escort)這個詞常用在賣淫上,但是也可用作醫(yī)療護(hù)送(Medical Escort)。
另外,黑名單方法的可維護(hù)性不好,要名單關(guān)注整體的性能很簡單,但是根據(jù)列表關(guān)注每個詞就不是一件容易的事,需要大量的時(shí)間確保系統(tǒng)的穩(wěn)定性。LinkedIn需要非常確定賬戶的不合法性,才能刪除賬號,但由于以上原因,像是上下文影響字義的情況,管理員需要花費(fèi)許多心力判斷,因而限制了LinkedIn可以處理的賬戶數(shù)量。
為了提高偵測效率,LinkedIn決定使用機(jī)器學(xué)習(xí)方法,模型使用卷積神經(jīng)網(wǎng)絡(luò)(CNN),LinkedIn提到,CNN可以簡單地處理像是Escort這種要依據(jù)上下文判斷字義的案例。訓(xùn)練的數(shù)據(jù)集分為適當(dāng)與不適當(dāng),不適當(dāng)數(shù)據(jù)集大部分的數(shù)據(jù)來源,是以黑名單方法捕捉的,一小部分則是成員回應(yīng)并經(jīng)過人工審核。適當(dāng)?shù)臄?shù)據(jù)集則直接從6.6億個會員中抽樣。
但由于數(shù)據(jù)集中不良的樣本太少,可能會使訓(xùn)練產(chǎn)生偏見,LinkedIn提到,適當(dāng)數(shù)據(jù)集中的合法數(shù)據(jù),有一大部分是因?yàn)槭芎诿麊蔚南拗?,?dāng)沒有仔細(xì)調(diào)整訓(xùn)練數(shù)據(jù)集,則模型可能會模仿過去黑名單系統(tǒng)的行為。
以Escort作為例子,不適當(dāng)使用Escort的個人文件數(shù)量,只是6.6億個會員基礎(chǔ)中的一小部分,當(dāng)Escort適當(dāng)使用的案例被降采樣,而不適當(dāng)使用Escort的案例采樣數(shù)量不變,則會使訓(xùn)練數(shù)據(jù)集看起來,像是Escort不當(dāng)使用的案例比適當(dāng)使用的案例還要多,但是以實(shí)際全球會員個人文件來看,情況恰巧相反。針對這個問題,LinkedIn表示,他們找出各種產(chǎn)生偽陽性的問題詞匯,并搜索正常使用這些詞匯的會員文件,經(jīng)手動標(biāo)示放進(jìn)適當(dāng)數(shù)據(jù)集中。
目前這個模型被用來偵測平臺上濫用賬戶,除了評估新賬戶之外,也會用來識別不適當(dāng)內(nèi)容的舊賬戶,LinkedIn提到,他們會擴(kuò)展訓(xùn)練數(shù)據(jù)集,來擴(kuò)張可識別的內(nèi)容范圍。