
清華大學(xué)用大數(shù)據(jù)分析了9000條微博謠言,還在研究自動辟謠
社交媒體上的謠言總是讓人猝不及防,有些甚至能在短時間造成不小的危害。比如,幾天前,微信怎么也不會想到,因為一個年終回顧的HTML5頁面被提前泄露,帶來大量用戶點擊導(dǎo)致服務(wù)器癱瘓,然后引發(fā)了盜號的謠言。最后的結(jié)果是,短短的幾個小時內(nèi),數(shù)百萬人從微信提現(xiàn),解綁銀行卡。
社交媒體上都流傳著哪些謠言?這些謠言都是誰發(fā)布的?為什么會有人相信并主動參與傳播這些謠言?社交網(wǎng)絡(luò)上的信息是海量的,這些問題似乎很難回答。不過最近,清華大學(xué)智能技術(shù)與系統(tǒng)國家重點實驗室的研究人員借用了自然語言處理的幫助,對新浪微博上的謠言大數(shù)據(jù)進行了全面的分析,試圖找出答案。
2012年5月,新浪微博設(shè)立了舉報處理大廳,謠言占了不良信息中的一大部分。研究人員利用微博舉報大廳公布的實時數(shù)據(jù)收集謠言信息。
他們收集了從2011年8月到2015年5月期間出現(xiàn)的9079條謠言,用函數(shù)模型對這些數(shù)據(jù)進行了預(yù)處理,發(fā)現(xiàn)了一些有趣的現(xiàn)象。
大部分微博謠言會在其發(fā)布的一個周內(nèi)被舉報并辟謠
第一,大多數(shù)微博謠言的影響力都比較小, 轉(zhuǎn)發(fā)和評論數(shù)在500次以下的微博占到整體的84%。只有極少量的微博謠言具有極廣的傳播范圍和強大的影響力 。
第二,謠言通常要傳播一段時間后,才有可能遭到舉報;同時, 由于傳播速度快,大部分微博謠言會在其發(fā)布的一個周內(nèi)被舉報并辟謠 (88.9%)。
第三,大量舉報謠言的用戶, 所舉報的謠言往往與自己相關(guān). 例如, 微博用戶 “美汁源飲料” 舉報了 大量關(guān)于 “美汁源果粒橙” 飲料含有農(nóng)藥的謠言, 張家界紀委書記汪業(yè)元舉報了大量關(guān)于 “汪業(yè)元發(fā)表 ‘對網(wǎng)絡(luò)暴民殺無赦’ 的言論” 的謠言。
第四,大量發(fā)布謠言的用戶,往往帶有網(wǎng)絡(luò)水軍的性質(zhì),例如,有微博用戶僅在幾分鐘的時間里發(fā)布了幾十條微博, 其中大部分是謠言, 之后該用戶就再未發(fā)過微博。
常識類謠言經(jīng)常反復(fù)出現(xiàn)轉(zhuǎn)發(fā)高峰
研究人員還根據(jù)謠言內(nèi)容將其分成了5個分類:政治類謠言,例如釣魚島海域中日兩國爆發(fā)海戰(zhàn);
經(jīng)濟類謠言,例如三星賠償蘋果幾十車硬幣;
欺詐類謠言,例如“四川藏區(qū)兒童需要御寒冬衣”,然后留下了一個虛假的聯(lián)系電話;
社會生活類謠言,社會各界人物的花邊新聞,例如六小齡童去世;
常識類謠言,例如阿司匹林能治療心臟病。
這些謠言中,大部分屬于社會生活類和政治類謠言 (約占70%)。而結(jié)合微博謠言發(fā)布、傳播、高峰和消亡的過程還可以發(fā)現(xiàn),不同的謠言出線轉(zhuǎn)發(fā)峰值的情況也各部相同。
70%的謠言話題只有一個較大轉(zhuǎn)發(fā)峰值,也就是說,被辟謠后,它們就會逐漸消亡。
另外,謠言的內(nèi)容也和其轉(zhuǎn)發(fā)峰值有關(guān)系:例如,常識類謠言由于受眾廣,辟謠難度較大,往往會反復(fù)被人們提及,出現(xiàn)多次爆發(fā),約70%的常識類謠言通常有多個轉(zhuǎn)發(fā)峰值。而關(guān)于名人或知名機構(gòu)的謠言,由于關(guān)注人數(shù)眾多,辟謠難度較小,因此發(fā)布之初就會出現(xiàn)較大轉(zhuǎn)發(fā)峰值,但很快會被辟謠,約60%的此類謠言會在一個周內(nèi)消亡。
人們?yōu)槭裁聪嘈胖{言
人們?yōu)槭裁磿嘈胚@些謠言呢?研究人員分析后將原因歸結(jié)為兩類:(1)知識受限,即缺乏專業(yè)知識而導(dǎo)致誤信或無法辨認的謠言。例如,阿司匹林可以治療急性心臟??;(2)時空受限謠言,即由于地域和時間限制無法辨認的謠言。例如, 有謠言稱“杭州上城區(qū)一婦女喝了3罐可樂,兩天后離開了這個世界。驗尸結(jié)果是她死于細螺旋體病, 發(fā)病原因是直接用嘴對可樂罐飲用”。
自動辟謠框架
在對謠言進行分析之后,研究人員還試圖建立一個自動辟謠機制。當然,在目前的技術(shù)條件下,自然語言處理技術(shù)還無法根據(jù)微博內(nèi)容自動判斷其是否為謠言。所以,研究人員的思路通過語義分析,自動根據(jù)謠言主題對其進行分類,然后發(fā)現(xiàn)最有可能判定該謠言的專家,推薦專家對疑似謠言進行鑒別。
研究人員的框架主要包括3個階段的工作:
1. 謠言發(fā)布早期,通過用戶舉報和對可疑用戶的監(jiān)控建立疑似謠言的集合。一方面,將疑似謠言和謠言庫中進行比對;另一方面, 對于在謠言庫中沒有匹配內(nèi)容的謠言,通過查詢該領(lǐng)域的專家?guī)?,推薦若干專家對該疑似謠言進行鑒別。
2. 謠言發(fā)布中期,通過自然語言處理技術(shù)分析疑似謠言的評論信息,通過社會網(wǎng)絡(luò)分析技術(shù)分析疑似謠言的傳播模式,判定該信息是否為謠言。
3. 謠言發(fā)布后期,對于判定為謠言的信息, 將其加入謠言庫;對信息發(fā)布人進行可信性分析,確定其信用等級,將信用等級低于一定閾值的用戶加入可疑用戶庫,在一段時間內(nèi)對其發(fā)布的微博內(nèi)容進行監(jiān)控;對信息舉報人和評論人進行專家發(fā)現(xiàn),充實和更新該信息相關(guān)的知識領(lǐng)域的專家?guī)臁?
當然,目前這一切還處于理論研究階段,而建立可以用戶庫也需要以網(wǎng)站更嚴格地執(zhí)行實名制為前提。用大數(shù)據(jù)、人工智能去對付謠言,前提是需要很多人交出更多的隱私,你愿意嗎?
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10