
大小數(shù)據(jù) | 辨析大數(shù)據(jù)價值與小數(shù)據(jù)洞察
大數(shù)據(jù)技術(shù)的出現(xiàn)帶給人們的思維方式、行為方式、媒體傳播方式及社會治理方式等都諸多方面帶來了革命性的變革?!洞髷?shù)據(jù)時代》一書的核心觀點(diǎn)是說:“在大數(shù)據(jù)時代,我們正經(jīng)歷著一場生活、工作與思維的大變革。
我們沒必要非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己發(fā)聲?!痹诖髷?shù)據(jù)時代,相關(guān)關(guān)系能夠幫助我們更好地了解這個世界,建立在相關(guān)關(guān)系分析法上面的預(yù)測是大數(shù)據(jù)的核心,通過找到“關(guān)聯(lián)物”并監(jiān)控它,我們就能夠預(yù)測未來。
作者還提出了“大數(shù)據(jù)三原則”:要全體不要抽樣,要效率不要精確,要相關(guān)不要因果。雖說該書作者提出的“要相關(guān)不要因果”的觀點(diǎn)還值得商榷,但“相關(guān)性”觀點(diǎn)還是從某個層面上說出了大數(shù)據(jù)時代的核心特征。大數(shù)據(jù)是往往是商業(yè)自動化產(chǎn)生的數(shù)據(jù),又具有實(shí)時在線的特征。
與大數(shù)據(jù)概念相對應(yīng)的,在這之前的數(shù)據(jù)似乎就是所謂小數(shù)據(jù),如果有所謂的小數(shù)據(jù)概念的話,應(yīng)該特指采用調(diào)查方法獲得的抽樣數(shù)據(jù),或者是結(jié)構(gòu)化的海量數(shù)據(jù)。對于小數(shù)據(jù)的分析通常采用的是傳統(tǒng)的統(tǒng)計(jì)分析方法,是一種自上而下的實(shí)證研究方法論。小數(shù)據(jù)往往依托數(shù)理統(tǒng)計(jì)的大數(shù)定律,描述了抽樣理論下樣本最終服從中心極限定理的正態(tài)分布理論,強(qiáng)調(diào)描述性統(tǒng)計(jì)學(xué)和推斷統(tǒng)計(jì)學(xué)。
大數(shù)據(jù)重預(yù)測,小數(shù)據(jù)重解釋
大數(shù)據(jù)的開放性、公開性和易獲得性,社交網(wǎng)絡(luò)每天產(chǎn)生的大數(shù)據(jù)可以在一定規(guī)則開放性下,通過應(yīng)用程序接口(API)和爬蟲技術(shù)采集,一些商業(yè)機(jī)構(gòu)和政府組織也向社會研究機(jī)構(gòu)提供各種海量數(shù)據(jù)源,特別是政府開始提供權(quán)威開放數(shù)據(jù)源。大數(shù)據(jù)往往帶有時間標(biāo)簽,更具預(yù)測性。國內(nèi)外眾多機(jī)構(gòu)開始采集海量Twitter和微博上的傳播信息和個人屬性特征和標(biāo)簽,期望預(yù)測社會輿情和社會情感、預(yù)測電影票房、預(yù)測商業(yè)機(jī)會,進(jìn)而期望預(yù)測人們的態(tài)度和行為。開放、公開易獲得數(shù)據(jù)源是大數(shù)據(jù)時代的基本特征和產(chǎn)生社會影響本質(zhì)。
大數(shù)據(jù)重發(fā)現(xiàn),而小數(shù)據(jù)重實(shí)證
傳統(tǒng)的小數(shù)據(jù)重實(shí)證研究,強(qiáng)調(diào)在理論的前提下建立假設(shè),收集數(shù)據(jù),證偽理論的適用性,采用隨機(jī)抽樣的定量調(diào)查問卷獲取數(shù)據(jù),驗(yàn)證假設(shè)。這是一種自上而下的決策和思維過程。而大數(shù)據(jù)重發(fā)現(xiàn)知識,預(yù)知未來,為探索未知的社會現(xiàn)象和發(fā)展規(guī)律帶來機(jī)遇。這種預(yù)見性是一種自下而上的知識發(fā)現(xiàn)過程,是在沒有理論假設(shè)的前提下去預(yù)知社會和洞察社會現(xiàn)象、趨勢和規(guī)律。
大數(shù)據(jù)重相關(guān),小數(shù)據(jù)重因果
大數(shù)據(jù)重關(guān)系,而不關(guān)心因果,關(guān)注是什么而不關(guān)心為什么,盡管大數(shù)據(jù)依然可以回答因果問題,但因果關(guān)系并非來自統(tǒng)計(jì)或數(shù)據(jù),而是來自研究者的理論和假設(shè)。大數(shù)據(jù)分析更關(guān)注數(shù)據(jù)的相關(guān)性測量和商業(yè)應(yīng)用價值。大數(shù)據(jù)挖掘往往是發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息和知識,甚至是違背直覺的,有時候越是出乎意料可能越有社會和商業(yè)價值。媒體人應(yīng)該有責(zé)任和有能力從數(shù)據(jù)中發(fā)現(xiàn)事物內(nèi)在規(guī)律,發(fā)現(xiàn)內(nèi)在,預(yù)警社會。
大數(shù)據(jù)重全體,小數(shù)據(jù)重抽樣
大數(shù)據(jù)是商業(yè)自動化存儲的數(shù)據(jù),在軟硬件滿足的條件下可以分析海量數(shù)據(jù)。隨著存儲和軟硬件的經(jīng)濟(jì)性和分析工具的高性能,海量數(shù)據(jù)的處理能力得到提升,數(shù)據(jù)挖掘算法不斷改進(jìn)和豐富,特別是統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)建模技術(shù)發(fā)展,抽樣并非是必要的手段和方法論。盡管大數(shù)據(jù)不一定是總體,理論上講再大的局部也沒有隨機(jī)抽樣更具代表性,但機(jī)器學(xué)習(xí)算法所帶來的個性化推薦技術(shù)、非線性建模、網(wǎng)絡(luò)分析、空間地理分析、實(shí)時在線的數(shù)據(jù)可視化分析手段都應(yīng)成為我們認(rèn)識世界、感知社會的重要手段和目的。
大數(shù)據(jù)重感知,小數(shù)據(jù)重精確
大數(shù)據(jù)具有變生產(chǎn)邊應(yīng)用,邊應(yīng)用邊生產(chǎn),實(shí)時在線分析的特點(diǎn),往往更關(guān)注數(shù)據(jù)從總體上感知社會,通過大數(shù)據(jù)的在線可視化技術(shù)呈現(xiàn)大規(guī)模數(shù)據(jù)的流動模式,大數(shù)據(jù)時代背景下的社會治理、輿情研究、智慧城市、智能交通、傳染病傳播、謠言傳播提供了數(shù)據(jù)基礎(chǔ)。大數(shù)據(jù)同時關(guān)注對個體的數(shù)據(jù)挖掘,個性化推薦,精準(zhǔn)營銷,傳播路徑分析等應(yīng)用領(lǐng)域都具有大數(shù)據(jù)特點(diǎn)。小數(shù)據(jù)往往采用顯著性檢驗(yàn),統(tǒng)計(jì)顯著性受到樣本代表性和樣本量的影響,對數(shù)據(jù)來源的真實(shí)性、無偏性和代表性格外重視。
大數(shù)據(jù)挖掘技術(shù)可以說是統(tǒng)計(jì)分析技術(shù)的進(jìn)化,但狹義角度講大數(shù)據(jù)的挖掘已經(jīng)不是小數(shù)據(jù)時代的統(tǒng)計(jì)分析了,更多的是指機(jī)器學(xué)習(xí)算法和云計(jì)算技術(shù),當(dāng)然也包括傳統(tǒng)的多變量高級統(tǒng)計(jì)技術(shù)。與此同時,數(shù)據(jù)科學(xué)(Data Science)興起,人們調(diào)侃說數(shù)據(jù)科學(xué)家成為最搶手、最熱門、最性感的職業(yè)。
盡管所謂的小數(shù)據(jù)具有大數(shù)據(jù)不可替代的商業(yè)應(yīng)用和學(xué)術(shù)研究價值,但是大數(shù)據(jù)帶來的社會變革是小數(shù)據(jù)無法比擬的,社會已經(jīng)將大數(shù)據(jù)認(rèn)為是國家發(fā)展戰(zhàn)略,是社會第四生產(chǎn)要素,是驅(qū)動社會變革和創(chuàng)新的新動力。
大數(shù)據(jù)一切從開源開始,”軟件定義一起,數(shù)據(jù)驅(qū)動未來,算法統(tǒng)治世界”是IT領(lǐng)域相關(guān)人士對大數(shù)據(jù)時代的最好詮釋。特別是大數(shù)據(jù)與新聞融合產(chǎn)生了數(shù)據(jù)新聞,成為未來新聞事業(yè)的發(fā)展方向,這種報道形式不僅豐富了新聞的表現(xiàn)形式,而且改變了新聞生產(chǎn)流程,對于新聞從業(yè)人員的思維也是一次巨大的顛覆。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10