
清華大學(xué)用大數(shù)據(jù)分析了9000條微博謠言,還在研究自動(dòng)辟謠
社交媒體上的謠言總是讓人猝不及防,有些甚至能在短時(shí)間造成不小的危害。比如,幾天前,微信怎么也不會(huì)想到,因?yàn)橐粋€(gè)年終回顧的HTML5頁(yè)面被提前泄露,帶來(lái)大量用戶點(diǎn)擊導(dǎo)致服務(wù)器癱瘓,然后引發(fā)了盜號(hào)的謠言。最后的結(jié)果是,短短的幾個(gè)小時(shí)內(nèi),數(shù)百萬(wàn)人從微信提現(xiàn),解綁銀行卡。
社交媒體上都流傳著哪些謠言?這些謠言都是誰(shuí)發(fā)布的?為什么會(huì)有人相信并主動(dòng)參與傳播這些謠言?社交網(wǎng)絡(luò)上的信息是海量的,這些問(wèn)題似乎很難回答。不過(guò)最近,清華大學(xué)智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室的研究人員借用了自然語(yǔ)言處理的幫助,對(duì)新浪微博上的謠言大數(shù)據(jù)進(jìn)行了全面的分析,試圖找出答案。
2012年5月,新浪微博設(shè)立了舉報(bào)處理大廳,謠言占了不良信息中的一大部分。研究人員利用微博舉報(bào)大廳公布的實(shí)時(shí)數(shù)據(jù)收集謠言信息。
他們收集了從2011年8月到2015年5月期間出現(xiàn)的9079條謠言,用函數(shù)模型對(duì)這些數(shù)據(jù)進(jìn)行了預(yù)處理,發(fā)現(xiàn)了一些有趣的現(xiàn)象。
大部分微博謠言會(huì)在其發(fā)布的一個(gè)周內(nèi)被舉報(bào)并辟謠
第一,大多數(shù)微博謠言的影響力都比較小, 轉(zhuǎn)發(fā)和評(píng)論數(shù)在500次以下的微博占到整體的84%。只有極少量的微博謠言具有極廣的傳播范圍和強(qiáng)大的影響力 。
第二,謠言通常要傳播一段時(shí)間后,才有可能遭到舉報(bào);同時(shí), 由于傳播速度快,大部分微博謠言會(huì)在其發(fā)布的一個(gè)周內(nèi)被舉報(bào)并辟謠 (88.9%)。
第三,大量舉報(bào)謠言的用戶, 所舉報(bào)的謠言往往與自己相關(guān). 例如, 微博用戶 “美汁源飲料” 舉報(bào)了 大量關(guān)于 “美汁源果粒橙” 飲料含有農(nóng)藥的謠言, 張家界紀(jì)委書(shū)記汪業(yè)元舉報(bào)了大量關(guān)于 “汪業(yè)元發(fā)表 ‘對(duì)網(wǎng)絡(luò)暴民殺無(wú)赦’ 的言論” 的謠言。
第四,大量發(fā)布謠言的用戶,往往帶有網(wǎng)絡(luò)水軍的性質(zhì),例如,有微博用戶僅在幾分鐘的時(shí)間里發(fā)布了幾十條微博, 其中大部分是謠言, 之后該用戶就再未發(fā)過(guò)微博。
常識(shí)類謠言經(jīng)常反復(fù)出現(xiàn)轉(zhuǎn)發(fā)高峰
研究人員還根據(jù)謠言內(nèi)容將其分成了5個(gè)分類:政治類謠言,例如釣魚(yú)島海域中日兩國(guó)爆發(fā)海戰(zhàn);
經(jīng)濟(jì)類謠言,例如三星賠償蘋(píng)果幾十車硬幣;
欺詐類謠言,例如“四川藏區(qū)兒童需要御寒冬衣”,然后留下了一個(gè)虛假的聯(lián)系電話;
社會(huì)生活類謠言,社會(huì)各界人物的花邊新聞,例如六小齡童去世;
常識(shí)類謠言,例如阿司匹林能治療心臟病。
這些謠言中,大部分屬于社會(huì)生活類和政治類謠言 (約占70%)。而結(jié)合微博謠言發(fā)布、傳播、高峰和消亡的過(guò)程還可以發(fā)現(xiàn),不同的謠言出線轉(zhuǎn)發(fā)峰值的情況也各部相同。
70%的謠言話題只有一個(gè)較大轉(zhuǎn)發(fā)峰值,也就是說(shuō),被辟謠后,它們就會(huì)逐漸消亡。
另外,謠言的內(nèi)容也和其轉(zhuǎn)發(fā)峰值有關(guān)系:例如,常識(shí)類謠言由于受眾廣,辟謠難度較大,往往會(huì)反復(fù)被人們提及,出現(xiàn)多次爆發(fā),約70%的常識(shí)類謠言通常有多個(gè)轉(zhuǎn)發(fā)峰值。而關(guān)于名人或知名機(jī)構(gòu)的謠言,由于關(guān)注人數(shù)眾多,辟謠難度較小,因此發(fā)布之初就會(huì)出現(xiàn)較大轉(zhuǎn)發(fā)峰值,但很快會(huì)被辟謠,約60%的此類謠言會(huì)在一個(gè)周內(nèi)消亡。
人們?yōu)槭裁聪嘈胖{言
人們?yōu)槭裁磿?huì)相信這些謠言呢?研究人員分析后將原因歸結(jié)為兩類:(1)知識(shí)受限,即缺乏專業(yè)知識(shí)而導(dǎo)致誤信或無(wú)法辨認(rèn)的謠言。例如,阿司匹林可以治療急性心臟??;(2)時(shí)空受限謠言,即由于地域和時(shí)間限制無(wú)法辨認(rèn)的謠言。例如, 有謠言稱“杭州上城區(qū)一婦女喝了3罐可樂(lè),兩天后離開(kāi)了這個(gè)世界。驗(yàn)尸結(jié)果是她死于細(xì)螺旋體病, 發(fā)病原因是直接用嘴對(duì)可樂(lè)罐飲用”。
自動(dòng)辟謠框架
在對(duì)謠言進(jìn)行分析之后,研究人員還試圖建立一個(gè)自動(dòng)辟謠機(jī)制。當(dāng)然,在目前的技術(shù)條件下,自然語(yǔ)言處理技術(shù)還無(wú)法根據(jù)微博內(nèi)容自動(dòng)判斷其是否為謠言。所以,研究人員的思路通過(guò)語(yǔ)義分析,自動(dòng)根據(jù)謠言主題對(duì)其進(jìn)行分類,然后發(fā)現(xiàn)最有可能判定該謠言的專家,推薦專家對(duì)疑似謠言進(jìn)行鑒別。
研究人員的框架主要包括3個(gè)階段的工作:
1. 謠言發(fā)布早期,通過(guò)用戶舉報(bào)和對(duì)可疑用戶的監(jiān)控建立疑似謠言的集合。一方面,將疑似謠言和謠言庫(kù)中進(jìn)行比對(duì);另一方面, 對(duì)于在謠言庫(kù)中沒(méi)有匹配內(nèi)容的謠言,通過(guò)查詢?cè)擃I(lǐng)域的專家?guī)欤扑]若干專家對(duì)該疑似謠言進(jìn)行鑒別。
2. 謠言發(fā)布中期,通過(guò)自然語(yǔ)言處理技術(shù)分析疑似謠言的評(píng)論信息,通過(guò)社會(huì)網(wǎng)絡(luò)分析技術(shù)分析疑似謠言的傳播模式,判定該信息是否為謠言。
3. 謠言發(fā)布后期,對(duì)于判定為謠言的信息, 將其加入謠言庫(kù);對(duì)信息發(fā)布人進(jìn)行可信性分析,確定其信用等級(jí),將信用等級(jí)低于一定閾值的用戶加入可疑用戶庫(kù),在一段時(shí)間內(nèi)對(duì)其發(fā)布的微博內(nèi)容進(jìn)行監(jiān)控;對(duì)信息舉報(bào)人和評(píng)論人進(jìn)行專家發(fā)現(xiàn),充實(shí)和更新該信息相關(guān)的知識(shí)領(lǐng)域的專家?guī)臁?
當(dāng)然,目前這一切還處于理論研究階段,而建立可以用戶庫(kù)也需要以網(wǎng)站更嚴(yán)格地執(zhí)行實(shí)名制為前提。用大數(shù)據(jù)、人工智能去對(duì)付謠言,前提是需要很多人交出更多的隱私,你愿意嗎?
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03