新式算法依據(jù)谷歌Twitter數(shù)據(jù)可提前三周預測新冠疫情爆發(fā)

來源:新浪財經(jīng)
作者:騰訊科技
時間:2020-07-08
3266
新式算法能在病例數(shù)開始增加前14天或更長時間內(nèi)顯示出危險跡象。該系統(tǒng)使用Twitter、谷歌搜索和智能手機移動數(shù)據(jù)等數(shù)據(jù)流進行實時監(jiān)控。

該算法能在病例數(shù)開始增加前14天或更長時間內(nèi)顯示出危險跡象。該系統(tǒng)使用Twitter、谷歌搜索和智能手機移動數(shù)據(jù)等數(shù)據(jù)流進行實時監(jiān)控。

a0a1-iwasyeh8591868.jpg

哈佛大學研究員毛里西奧·桑蒂拉納

騰訊科技訊 7月7日,據(jù)外媒報道,在當前新冠疫情在全球肆虐之時,判斷當?shù)亟?jīng)濟何時收緊或放松已成為世界上最重要的猜謎游戲,每位政策決策者都在依靠自己的直覺和相關基準。例如,當醫(yī)院容納能力達到70%時,這就是個危險信號,新冠病毒感染病例和死亡人數(shù)上升也是如此。

但是,正如佛羅里達、加利福尼亞和德克薩斯等州州長最近幾天所了解到的那樣,這樣的基準導致了警報系統(tǒng)的表現(xiàn)相當差勁。一旦新冠病毒在人群中找到突破口,它就會在醫(yī)院、檢測診所和其他地方再次被發(fā)現(xiàn)之前,在衛(wèi)生官員采取行動之前,迅速傳播和繁殖。現(xiàn)在,一個由多國科學家組成的團隊開發(fā)出了新的算法模型,可以在疫情發(fā)生前兩到三周預測疫情,幫助衛(wèi)生官員及時采取有效的控制措施。

在最新發(fā)布的論文中,由哈佛大學研究員毛里西奧·桑迪蘭納(Mauricio Santillana)和尼科爾·科根(Nicole Kogan)領導的團隊展示了這種算法,該算法能在病例數(shù)開始增加前14天或更長時間內(nèi)顯示出危險跡象。該系統(tǒng)使用Twitter、谷歌搜索和智能手機移動數(shù)據(jù)等數(shù)據(jù)流進行實時監(jiān)控。桑迪拉納博士是波士頓兒童醫(yī)院機器智能實驗室主任,也是哈佛大學兒科學和流行病學助理教授。

研究人員寫道,該算法就像“冷卻或加熱系統(tǒng)中的恒溫器,可以引導公共衛(wèi)生機構(gòu)采取間歇性收緊或放松等干預措施”,以此保證更平穩(wěn)、更安全的重新開放。桑迪蘭納博士稱:“在大多數(shù)傳染病建模中,你會根據(jù)預先的假設來預測不同的場景。我們在這里所做的是觀察,而不是假設。不同之處在于,我們的方法會對行為的即時變化做出反應,而且我們可以將這些變化納入模型之中?!?/span>

桑迪蘭納等人的論文尚未接受同行評議,但外部專家表示,它證明了實時數(shù)據(jù)(比如社交媒體)在改進現(xiàn)有模型方面的價值不斷上升。

德克薩斯大學奧斯汀分校生物學家和統(tǒng)計學家勞倫·安克爾·邁耶斯(Lauren Ancel Meyers)說,該研究表明,“新一代的替代數(shù)據(jù)來源可能提供新冠疫情感染病例上升的早期信號,特別是如果確診病例數(shù)因?qū)で笾委熀瞳@得檢測結(jié)果的延誤而滯后的情況?!笔褂脤崟r數(shù)據(jù)分析來衡量疾病進展的方法至少可以追溯到2008年,當時谷歌工程師們開始通過追蹤“感覺疲憊”、“關節(jié)疼痛”、“達菲劑量”等詞的搜索趨勢來估計流感患者的就診次數(shù)。

但眾所周知,谷歌流感趨勢算法表現(xiàn)不佳。例如,后來的評估發(fā)現(xiàn),由于數(shù)據(jù)限制和媒體關注等外部因素的影響,它不斷高估了就診次數(shù),這些因素可能會推高與實際疾病無關的搜索量。從那時起,研究人員對這種方法進行了多次調(diào)整,將谷歌搜索與其他類型的數(shù)據(jù)結(jié)合起來??▋?nèi)基梅隆大學、倫敦大學學院和德克薩斯大學等大學的團隊都有結(jié)合了某些實時數(shù)據(jù)分析的模型。

弗吉尼亞大學的計算機科學家馬德哈維·馬拉瑟(Madhav Marathe)說:“我們知道,只有單獨的數(shù)據(jù)流是沒用的。這篇新論文的貢獻在于,他擁有種類繁多的數(shù)據(jù)流?!?/span>

在這篇新論文中,除了谷歌之外,該團隊還分析了來自四個來源的實時數(shù)據(jù):與疫情相關的Twitter帖子和帶有地理位置的標簽、醫(yī)生在名為UpToDate的醫(yī)生平臺上的搜索、來自智能手機的匿名移動數(shù)據(jù)以及上傳到應用程序上的Kinsa智能溫度計讀數(shù)。研究人員將這些數(shù)據(jù)流與東北大學開發(fā)的復雜預測模型相結(jié)合,該模型基于人們在社區(qū)中的移動和互動方式而開發(fā)。

桑迪蘭納團隊通過觀察數(shù)據(jù)流中的趨勢與每個州3月和4月份病例數(shù)量和死亡人數(shù)之間的關系,測試了趨勢的預測價值。例如,在紐約,與疫情相關的Twitter帖子的急劇上升趨勢在3月中旬病例數(shù)量爆炸前一周多就開始了,而相關的谷歌搜索和Kinsa讀數(shù)在幾天前也開始飆升。該研究小組結(jié)合了所有數(shù)據(jù)源,實際上根據(jù)每個數(shù)據(jù)源與即將到來的病例增加相關性有多強來對每個數(shù)據(jù)源進行加權(quán)。研究人員發(fā)現(xiàn),這種“協(xié)調(diào)”算法平均可提前21提案預測疫情爆發(fā)。

展望未來,該模型預測,如果不采取進一步措施,內(nèi)布拉斯加州和新罕布什爾州的感染病例可能會在未來幾周內(nèi)增加,盡管病例數(shù)量目前持平。桑迪蘭納博士說:“我認為,考慮到疫情在不斷變化,保守地說,我們可以至少提前一周或更長時間發(fā)出警告?!彼暮现甙▉碜择R里蘭大學、斯坦福大學、薩爾茨堡大學以及東北大學的科學家。

桑迪蘭納博士補充說:“我們并不認為這些數(shù)據(jù)取代了傳統(tǒng)的監(jiān)測,而是證實了這一點。這類信息可以讓決策者更早做出決定:‘我們不要再等一周了,現(xiàn)在就行動吧!’”

專家表示,盡管大數(shù)據(jù)分析有很大吸引力,但它無法比其他傳統(tǒng)模型更好地預測大眾行為的突然變化。沒有任何算法可以預測黑人男子喬治·弗洛伊德(George Floyd)在警察暴力執(zhí)法過程中遇害后引發(fā)的全國性抗議活動。盡管抗議者采取了預防措施,但大規(guī)模集會可能已經(jīng)播下了新的疫情爆發(fā)種子。

社交媒體和搜索引擎也會隨著時間的推移變得不那么敏感。隨著人們對病原體越熟悉,他們就越不會用選定的關鍵詞進行搜索。像疾病控制預防中心這樣的公共衛(wèi)生機構(gòu)也會使用來自社交媒體和其他來源的實時數(shù)據(jù),但它們并沒有將這樣的算法作為預測的核心。喬治敦大學生物學家什韋塔·班薩爾(Shwata Bansal)說:“這對我們來說是極其有價值的數(shù)據(jù),但我不想談這方面的預測業(yè)務,因為可能造成的傷害相當嚴重。隨著時間的推移,我們需要看到這樣的模型得到驗證?!?/span>

大多數(shù)專家表示,考慮到新冠病毒疫情的持續(xù)性和反復性,以及目前公共衛(wèi)生基礎設施的不足,這種情況似乎很可能發(fā)生。這是一個迫切的需求,也不缺乏數(shù)據(jù)。桑迪蘭納博士說:“我們看到的是我們認為最好的可用數(shù)據(jù)流,我們現(xiàn)在渴望看到亞馬遜或Netflix的數(shù)據(jù)能給我們帶來什么。”

立即登錄,閱讀全文
原文鏈接:點擊前往 >
版權(quán)說明:本文內(nèi)容來自于新浪財經(jīng),本站不擁有所有權(quán),不承擔相關法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務商推薦
更多
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家