新式算法依據(jù)谷歌Twitter數(shù)據(jù)可提前三周預(yù)測(cè)新冠疫情爆發(fā)

來源:新浪財(cái)經(jīng)
作者:騰訊科技
時(shí)間:2020-07-08
3163
新式算法能在病例數(shù)開始增加前14天或更長(zhǎng)時(shí)間內(nèi)顯示出危險(xiǎn)跡象。該系統(tǒng)使用Twitter、谷歌搜索和智能手機(jī)移動(dòng)數(shù)據(jù)等數(shù)據(jù)流進(jìn)行實(shí)時(shí)監(jiān)控。

該算法能在病例數(shù)開始增加前14天或更長(zhǎng)時(shí)間內(nèi)顯示出危險(xiǎn)跡象。該系統(tǒng)使用Twitter、谷歌搜索和智能手機(jī)移動(dòng)數(shù)據(jù)等數(shù)據(jù)流進(jìn)行實(shí)時(shí)監(jiān)控。

a0a1-iwasyeh8591868.jpg

哈佛大學(xué)研究員毛里西奧·桑蒂拉納

騰訊科技訊 7月7日,據(jù)外媒報(bào)道,在當(dāng)前新冠疫情在全球肆虐之時(shí),判斷當(dāng)?shù)亟?jīng)濟(jì)何時(shí)收緊或放松已成為世界上最重要的猜謎游戲,每位政策決策者都在依靠自己的直覺和相關(guān)基準(zhǔn)。例如,當(dāng)醫(yī)院容納能力達(dá)到70%時(shí),這就是個(gè)危險(xiǎn)信號(hào),新冠病毒感染病例和死亡人數(shù)上升也是如此。

但是,正如佛羅里達(dá)、加利福尼亞和德克薩斯等州州長(zhǎng)最近幾天所了解到的那樣,這樣的基準(zhǔn)導(dǎo)致了警報(bào)系統(tǒng)的表現(xiàn)相當(dāng)差勁。一旦新冠病毒在人群中找到突破口,它就會(huì)在醫(yī)院、檢測(cè)診所和其他地方再次被發(fā)現(xiàn)之前,在衛(wèi)生官員采取行動(dòng)之前,迅速傳播和繁殖。現(xiàn)在,一個(gè)由多國(guó)科學(xué)家組成的團(tuán)隊(duì)開發(fā)出了新的算法模型,可以在疫情發(fā)生前兩到三周預(yù)測(cè)疫情,幫助衛(wèi)生官員及時(shí)采取有效的控制措施。

在最新發(fā)布的論文中,由哈佛大學(xué)研究員毛里西奧·桑迪蘭納(Mauricio Santillana)和尼科爾·科根(Nicole Kogan)領(lǐng)導(dǎo)的團(tuán)隊(duì)展示了這種算法,該算法能在病例數(shù)開始增加前14天或更長(zhǎng)時(shí)間內(nèi)顯示出危險(xiǎn)跡象。該系統(tǒng)使用Twitter、谷歌搜索和智能手機(jī)移動(dòng)數(shù)據(jù)等數(shù)據(jù)流進(jìn)行實(shí)時(shí)監(jiān)控。桑迪拉納博士是波士頓兒童醫(yī)院機(jī)器智能實(shí)驗(yàn)室主任,也是哈佛大學(xué)兒科學(xué)和流行病學(xué)助理教授。

研究人員寫道,該算法就像“冷卻或加熱系統(tǒng)中的恒溫器,可以引導(dǎo)公共衛(wèi)生機(jī)構(gòu)采取間歇性收緊或放松等干預(yù)措施”,以此保證更平穩(wěn)、更安全的重新開放。桑迪蘭納博士稱:“在大多數(shù)傳染病建模中,你會(huì)根據(jù)預(yù)先的假設(shè)來預(yù)測(cè)不同的場(chǎng)景。我們?cè)谶@里所做的是觀察,而不是假設(shè)。不同之處在于,我們的方法會(huì)對(duì)行為的即時(shí)變化做出反應(yīng),而且我們可以將這些變化納入模型之中。”

桑迪蘭納等人的論文尚未接受同行評(píng)議,但外部專家表示,它證明了實(shí)時(shí)數(shù)據(jù)(比如社交媒體)在改進(jìn)現(xiàn)有模型方面的價(jià)值不斷上升。

德克薩斯大學(xué)奧斯汀分校生物學(xué)家和統(tǒng)計(jì)學(xué)家勞倫·安克爾·邁耶斯(Lauren Ancel Meyers)說,該研究表明,“新一代的替代數(shù)據(jù)來源可能提供新冠疫情感染病例上升的早期信號(hào),特別是如果確診病例數(shù)因?qū)で笾委熀瞳@得檢測(cè)結(jié)果的延誤而滯后的情況?!笔褂脤?shí)時(shí)數(shù)據(jù)分析來衡量疾病進(jìn)展的方法至少可以追溯到2008年,當(dāng)時(shí)谷歌工程師們開始通過追蹤“感覺疲憊”、“關(guān)節(jié)疼痛”、“達(dá)菲劑量”等詞的搜索趨勢(shì)來估計(jì)流感患者的就診次數(shù)。

但眾所周知,谷歌流感趨勢(shì)算法表現(xiàn)不佳。例如,后來的評(píng)估發(fā)現(xiàn),由于數(shù)據(jù)限制和媒體關(guān)注等外部因素的影響,它不斷高估了就診次數(shù),這些因素可能會(huì)推高與實(shí)際疾病無關(guān)的搜索量。從那時(shí)起,研究人員對(duì)這種方法進(jìn)行了多次調(diào)整,將谷歌搜索與其他類型的數(shù)據(jù)結(jié)合起來。卡內(nèi)基梅隆大學(xué)、倫敦大學(xué)學(xué)院和德克薩斯大學(xué)等大學(xué)的團(tuán)隊(duì)都有結(jié)合了某些實(shí)時(shí)數(shù)據(jù)分析的模型。

弗吉尼亞大學(xué)的計(jì)算機(jī)科學(xué)家馬德哈維·馬拉瑟(Madhav Marathe)說:“我們知道,只有單獨(dú)的數(shù)據(jù)流是沒用的。這篇新論文的貢獻(xiàn)在于,他擁有種類繁多的數(shù)據(jù)流?!?/span>

在這篇新論文中,除了谷歌之外,該團(tuán)隊(duì)還分析了來自四個(gè)來源的實(shí)時(shí)數(shù)據(jù):與疫情相關(guān)的Twitter帖子和帶有地理位置的標(biāo)簽、醫(yī)生在名為UpToDate的醫(yī)生平臺(tái)上的搜索、來自智能手機(jī)的匿名移動(dòng)數(shù)據(jù)以及上傳到應(yīng)用程序上的Kinsa智能溫度計(jì)讀數(shù)。研究人員將這些數(shù)據(jù)流與東北大學(xué)開發(fā)的復(fù)雜預(yù)測(cè)模型相結(jié)合,該模型基于人們?cè)谏鐓^(qū)中的移動(dòng)和互動(dòng)方式而開發(fā)。

桑迪蘭納團(tuán)隊(duì)通過觀察數(shù)據(jù)流中的趨勢(shì)與每個(gè)州3月和4月份病例數(shù)量和死亡人數(shù)之間的關(guān)系,測(cè)試了趨勢(shì)的預(yù)測(cè)價(jià)值。例如,在紐約,與疫情相關(guān)的Twitter帖子的急劇上升趨勢(shì)在3月中旬病例數(shù)量爆炸前一周多就開始了,而相關(guān)的谷歌搜索和Kinsa讀數(shù)在幾天前也開始飆升。該研究小組結(jié)合了所有數(shù)據(jù)源,實(shí)際上根據(jù)每個(gè)數(shù)據(jù)源與即將到來的病例增加相關(guān)性有多強(qiáng)來對(duì)每個(gè)數(shù)據(jù)源進(jìn)行加權(quán)。研究人員發(fā)現(xiàn),這種“協(xié)調(diào)”算法平均可提前21提案預(yù)測(cè)疫情爆發(fā)。

展望未來,該模型預(yù)測(cè),如果不采取進(jìn)一步措施,內(nèi)布拉斯加州和新罕布什爾州的感染病例可能會(huì)在未來幾周內(nèi)增加,盡管病例數(shù)量目前持平。桑迪蘭納博士說:“我認(rèn)為,考慮到疫情在不斷變化,保守地說,我們可以至少提前一周或更長(zhǎng)時(shí)間發(fā)出警告。”他的合著者包括來自馬里蘭大學(xué)、斯坦福大學(xué)、薩爾茨堡大學(xué)以及東北大學(xué)的科學(xué)家。

桑迪蘭納博士補(bǔ)充說:“我們并不認(rèn)為這些數(shù)據(jù)取代了傳統(tǒng)的監(jiān)測(cè),而是證實(shí)了這一點(diǎn)。這類信息可以讓決策者更早做出決定:‘我們不要再等一周了,現(xiàn)在就行動(dòng)吧!’”

專家表示,盡管大數(shù)據(jù)分析有很大吸引力,但它無法比其他傳統(tǒng)模型更好地預(yù)測(cè)大眾行為的突然變化。沒有任何算法可以預(yù)測(cè)黑人男子喬治·弗洛伊德(George Floyd)在警察暴力執(zhí)法過程中遇害后引發(fā)的全國(guó)性抗議活動(dòng)。盡管抗議者采取了預(yù)防措施,但大規(guī)模集會(huì)可能已經(jīng)播下了新的疫情爆發(fā)種子。

社交媒體和搜索引擎也會(huì)隨著時(shí)間的推移變得不那么敏感。隨著人們對(duì)病原體越熟悉,他們就越不會(huì)用選定的關(guān)鍵詞進(jìn)行搜索。像疾病控制預(yù)防中心這樣的公共衛(wèi)生機(jī)構(gòu)也會(huì)使用來自社交媒體和其他來源的實(shí)時(shí)數(shù)據(jù),但它們并沒有將這樣的算法作為預(yù)測(cè)的核心。喬治敦大學(xué)生物學(xué)家什韋塔·班薩爾(Shwata Bansal)說:“這對(duì)我們來說是極其有價(jià)值的數(shù)據(jù),但我不想談這方面的預(yù)測(cè)業(yè)務(wù),因?yàn)榭赡茉斐傻膫ο喈?dāng)嚴(yán)重。隨著時(shí)間的推移,我們需要看到這樣的模型得到驗(yàn)證。”

大多數(shù)專家表示,考慮到新冠病毒疫情的持續(xù)性和反復(fù)性,以及目前公共衛(wèi)生基礎(chǔ)設(shè)施的不足,這種情況似乎很可能發(fā)生。這是一個(gè)迫切的需求,也不缺乏數(shù)據(jù)。桑迪蘭納博士說:“我們看到的是我們認(rèn)為最好的可用數(shù)據(jù)流,我們現(xiàn)在渴望看到亞馬遜或Netflix的數(shù)據(jù)能給我們帶來什么?!?/span>

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
版權(quán)說明:本文內(nèi)容來自于新浪財(cái)經(jīng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家