
談談網(wǎng)絡(luò)時代大數(shù)據(jù)及分析起訴韓寒小實例
隨著阿里巴巴的上市,馬云成為中國首富,貓眼看人里關(guān)于阿里巴巴的大數(shù)據(jù)分析的內(nèi)容層出不窮。大多是用聳人聽聞的言論,指責阿里巴巴境外上市導致大數(shù)據(jù)外泄,影響國家安全,對中國經(jīng)濟運行造成不可估量的損失。
很多貓友從以往的常識和邏輯方面判斷能夠得出阿里巴巴的大數(shù)據(jù)并不影響國家安全的結(jié)論,但是,對于大數(shù)據(jù)概念認知比較少,評論起來無從入手。
本文希望用最樸實的語言描述大數(shù)據(jù),讓大家能對大數(shù)據(jù)有基本認識。同時,后面附大數(shù)據(jù)統(tǒng)計的應用實例:即通過大數(shù)據(jù)統(tǒng)計分析網(wǎng)友司馬3忌對韓寒起訴的影響。
所謂數(shù)據(jù)統(tǒng)計,就是用統(tǒng)計學的方法分析概率和趨勢
由于傳統(tǒng)方法無法對每一個終端樣本詳細取樣,導致很多經(jīng)濟社會數(shù)據(jù)只能通過抽樣調(diào)查統(tǒng)計。
例如,收視率調(diào)查。電視臺無法得到每戶家庭的收看節(jié)目的數(shù)據(jù),所以只能抽樣調(diào)查。
在網(wǎng)絡(luò)時代,每一個網(wǎng)絡(luò)服務提供商不需要做抽樣調(diào)查,而是建立龐大的數(shù)據(jù)庫,記錄一切用戶的行為特征,用這些特征作為數(shù)據(jù)基礎(chǔ)。這就是大數(shù)據(jù),用不同的方式對這些數(shù)據(jù)進行提取、整理、分析的手段就是大數(shù)據(jù)分析。
最簡單的例子就是你打開任何一款炒股軟件,它都是基于大數(shù)據(jù)的。每只股票從上市起所有相關(guān)數(shù)字全部被精準記錄,從無遺漏。
阿里巴巴的大數(shù)據(jù)是否會影響國家安全?
個人認為不會,并且大數(shù)據(jù)無法隱藏。原因如下:
1.阿里巴巴的大數(shù)據(jù)是每種產(chǎn)品的購買記錄,只說明產(chǎn)品的銷量趨勢。
2.每個公司對自己的大數(shù)據(jù)是企業(yè)的核心資產(chǎn),如美國任何投資者、美國國務院希望獲得阿里巴巴的大數(shù)據(jù),也需要通過法院的批文,即使拿到,企業(yè)也有權(quán)拒絕。美國國務院屢次索要用戶資料以便反恐需要都被蘋果拒絕。
3.大數(shù)據(jù)本身就沒有辦法隱藏,如阿里巴巴的產(chǎn)品銷售情況是在每一個商品的展示頁面清楚明白的呈現(xiàn)出來。只要會最簡單的網(wǎng)絡(luò)及編程技術(shù),都可以編寫軟件,借助大型服務器矩陣,放出無數(shù)爬蟲,對每個頁面進行信息提取和整理,得到大數(shù)據(jù)。
舉個例子:比如如果想獲得貓眼看人的大數(shù)據(jù),用20m光纖寬帶約2天即可完成對整個論壇數(shù)據(jù)的鏡像保存。
4.如中國政府認為被美國搜集了大數(shù)據(jù),一樣可以如前面所述,通過對美國亞馬遜、facebook、推特等進行爬蟲提取搜集信息得到美國的大數(shù)據(jù)進行反制。
接下來通過大數(shù)據(jù)分析 司馬三忌起訴韓寒,對韓寒的影響。
可以看到在10月09日,如紅圈所示,媒體的報道從之前的一平如水,到出現(xiàn)一波小高潮。韓黑是否覺得有點小激動呢?
嘿嘿,上圖只是9月12日到10月11日的。我們換個圖,看看最近半年的大數(shù)據(jù)。
從這張圖就可以看出,司馬三忌起訴韓寒對媒體的影響力。
紅圈1是韓寒的后會無期宣傳期間的媒體報道力度。
紅圈3是司馬三忌起訴的媒體報道力度。
那么,紅圈2比紅圈3的媒體報道力度更大。
紅圈2是9月11日的媒體報道,那一天韓寒發(fā)生了什么事呢?
看下面的圖就一目了然了:
原來司馬三忌起訴的影響力還不如韓寒老婆生二胎,哈哈!
以上就是對大數(shù)據(jù)的介紹和分析,以及實例應用。
大數(shù)據(jù)是個好東西,只要隨便挖掘數(shù)據(jù),就可以讓我們對事物的認知突破我們自己視野的局限,起碼不會表現(xiàn)的很愚昧了。
例如很多韓黑認為司馬三忌起訴韓寒,會給韓寒帶來致命打擊。
但大數(shù)據(jù)就告訴我們,我們的認知是局限在只上貓眼,而大數(shù)據(jù)挖掘整個互聯(lián)網(wǎng),互聯(lián)網(wǎng)的大部分媒體關(guān)注國民岳父老婆生二胎更多一點。
同樣,大數(shù)據(jù)也可以有利于作出決策,試著證明如下:
如很多腦殘黑粉所臆想的,關(guān)于韓寒代筆的輿論鋪天蓋地,對韓寒造成很大打擊而事實上,通過挖掘數(shù)據(jù)以韓寒代筆和韓寒 進行分析可以看到, 韓寒代筆的關(guān)注度(藍線)始終是一條接近X軸的直線這說明韓寒代筆的質(zhì)疑的聲音基本沒有變化,不變高,也不變低這也揭示了孜孜不倦的揭示韓寒代筆的這部分聲音沒有減少,沒有增加而韓寒的關(guān)注度隨著他的動向呈現(xiàn)高低起伏。
取韓寒關(guān)注度最低的點,關(guān)注指數(shù)為5720,韓寒代筆的關(guān)注指數(shù)為132,占總關(guān)注比例為2.308%
假如你是韓寒,或者韓寒的經(jīng)紀公司,那么,你會得出如下結(jié)論:
1.對韓寒代筆的關(guān)注度占的比例只有2%
2.質(zhì)疑韓寒的人是堅決的、持之以恒的,但他們的質(zhì)疑并沒有擴散。
那么,你會做如下論斷和決策:
1.你改變不了質(zhì)疑韓寒的人,他們過去會,未來也會堅持咬定韓寒代筆。
2.上述人群不會變多、也不會變少。
3.你不需要試圖去改變,因為你的試圖的成本和收益不成正比。
4.最好的辦法就是由這些人去質(zhì)疑吧,因為他們只占2%,相比任何一個明星的anti-fan,都不多。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11