
對大數據分析有哪些流行誤解?
大數據是一個新概念,大數據產生的背景是整個社會走向數字化,特別是社交網絡和各種傳感設備的發(fā)展。大數據分析擁有自身的特點,與計量經濟學既有區(qū)別又有聯(lián)系。當前對大數據的分析存在許多流行觀點,但其中很多核心觀點都值得商榷。
大數據產生的背景是整個社會走向數字化,特別是社交網絡和各種傳感設備的發(fā)展。云計算和搜索引擎的發(fā)展,使得對大數據的高效分析成為可能,核心問題是如何在種類繁多、數量龐大的數據中快速獲取有價值信息。大數據在社會分析、科學發(fā)現(xiàn)和商業(yè)決策中的作用越來越大,金融只是其中的一個應用領域。
什么是大數據
大數據是一個新概念,英文中至少有三個名稱:大數據(big data)、大尺度數據(big scale data)和大規(guī)模數據(massive data),至今未形成統(tǒng)一定義。但一般認為大數據具有四個基本特征(即所謂4V特征):數據體量龐大(volume)、價值密度低(value, 也有人理解成應用價值巨大)、來源廣泛和特征多樣(variety)、增長速度快(velocity, 也有人理解成需要高速分析能力)。
從學術角度,對大數據的討論基本屬于數據科學(Data Science)和數據挖掘(Data Mining)的范疇。
大數據的主要類型:第一類是記錄數據,即記錄的匯集,其中每個記錄包含固定的數據字段(或屬性)。比如,計量經濟學中的橫截面數據,文檔數據,事務數據或購物籃數據;第二類是基于圖形的數據,包括帶有數據對象之間聯(lián)系的數據和具有圖形對象的數據,比如網頁鏈接、化合物結構;第三類是有序數據,包括時序數據、序列數據、空間數據。比如,宏觀經濟指標序列,金融價格序列,基因組序列,詞或字母的序列,同一時點上從不同的地理位置收集的氣象數據(溫度、濕度、氣壓等)。
大數據分析的主要任務:第一類是預測任務,目標是根據某些屬性的值,預測另外一些特定屬性的值。被預測的屬性一般稱為目標變量或因變量,被用來做預測的屬性稱為解釋變量和自變量;第二類是描述任務,目標是導出概括數據中潛在聯(lián)系的模式,包括相關、趨勢、聚類、軌跡和異常等。描述性任務通常是探查性的,常常需要后處理技術來驗證和解釋結果。具體可分為分類、回歸、關聯(lián)分析、聚類分析、推薦系統(tǒng)、異常檢測、鏈接分析等幾種。
大數據分析與計量經濟學的差異與聯(lián)系
大數據分析與計量經濟學既有差異又有聯(lián)系。
兩者的差異表現(xiàn)為:第一,兩者處理的數據類型不同。計量經濟學處理結構型數據,主要包括橫截面數據、時間序列數據和面板數據,一般能以excel表格的形式呈現(xiàn),而且表格的行列都有清晰的經濟學含義,有一致統(tǒng)計口徑。大數據分析能處理很多非結構型數據,包括文檔、視頻、圖像,一般難以用excel表格的形式呈現(xiàn)。但這些非結構型數據需要量化后才能分析,在量化中一般伴隨著信息損失。
第二,兩者分析重點不同。計量經濟學分析的重點是假設檢驗,核心理念與波普的證偽主義非常接近。計量經濟學就是通過假設檢驗,來證偽或支持(注意不是證實)某個經濟理論。相比之下,大數據分析更具實用主義色彩。預測在大數據分析中占有很大比重。對預測效果的后評估也是大數據分析的重要內容。
大數據分析與計量經濟學的內在聯(lián)系也不容忽視。在對隨機問題的處理上,它們沒有本質差別,基礎理論都是概率論和數理統(tǒng)計。
對大數據分析的主流誤解
舍恩伯格與合作者的《大數據時代》非常流行,但里面的很多核心觀點都值得商榷。
第一,他們認為,大數據分析不是針對隨機樣本,而是全體數據。盡管數據收集和分析手段足夠發(fā)達后,對全部數據的收集和分析成為可能,但從成本收益上衡量,這樣做不是總有必要。根據中心極限定理,統(tǒng)計分析質量與樣本數量之間存在平方根關系。比如,樣本數量提高100倍,分析質量提高10倍。而統(tǒng)計分析工作量與樣本數量之間存在線性關系。比如,樣本數量提高100倍,存儲和計算量一般增加100倍。這樣,樣本數量增長到一定程度后,新增工作量對應的成本就會超過質量提高產生的好處。因此,通過科學設計的抽樣調查獲得有代表性的樣本,在大數據分析中仍有價值。
第二,他們還認為,大數據分析不是因果關系,而是相關關系。這個說法在統(tǒng)計學中是老生常談,不是什么新觀點。統(tǒng)計學基于相關關系,只能被用來證偽因果關系,而不能被用來證實因果關系。大數據分析的基礎理論也是概率論和數理統(tǒng)計,從根本上就屬于相關關系的范疇。
第三,大數據分析也不是萬能的?;诖髷祿念A測可以抽象表述為:用 表示已知信息,用 表示未知信息,尋找關于 的函數 作為 的預測。預測誤差是 ,用 (類似于均方誤差)來衡量預測效果。概率論有一個基本結論:
對任意 ,總有 ,其中等號僅當 時才成立,所以 也被稱為最佳預測(best predictor)。
可以看出兩點結論:首先,大數據分析中,各種算法的核心任務是使 盡可能接近理論上的最優(yōu)預測 ;其次,即使在最優(yōu)預測上, 代表的預測誤差仍不能被消除,是內生于信息結構的。比如,即使信息技術非常發(fā)達,如果現(xiàn)實世界中仍有部分信息不能被數字化(從而不能用在大數據分析中),這部分被“塵封”的信息就決定了大數據分析的有效邊界。
第四,大數據能降低信息不對稱的程度,但不能消除隨機性(不確定性);有助于評估風險(未來遭受損失的可能性,其中損失分布可計量),但不能消除奈特式不確定性(其中損失分布不可計量)。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數據處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數據庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數據分析師:表結構數據 “獲取 - 加工 - 使用” 全流程的賦能者 表結構數據(如數據庫表、Excel 表、CSV 文件)是企業(yè)數字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數據分析師:解鎖表結構數據特征價值的專業(yè)核心 表結構數據(以 “行 - 列” 規(guī)范存儲的結構化數據,如數據庫表、Excel 表、 ...
2025-09-17Excel 導入數據含缺失值?詳解 dropna 函數的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數據分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數據差異是否 “ ...
2025-09-16CDA 數據分析師:掌控表格結構數據全功能周期的專業(yè)操盤手 表格結構數據(以 “行 - 列” 存儲的結構化數據,如 Excel 表、數據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數據分析師:激活表格結構數據價值的核心操盤手 表格結構數據(如 Excel 表格、數據庫表)是企業(yè)最基礎、最核心的數據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數據的科學計數法問題 為幫助 Python 數據從業(yè)者解決pd.read_csv讀取長浮點數據時的科學計數法問題 ...
2025-09-12CDA 數據分析師:業(yè)務數據分析步驟的落地者與價值優(yōu)化者 業(yè)務數據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數據把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數據分析師與戰(zhàn)略 / 業(yè)務數據分析:概念辨析與協(xié)同價值 在數據驅動決策的體系中,“戰(zhàn)略數據分析”“業(yè)務數據分析” 是企業(yè) ...
2025-09-11Excel 數據聚類分析:從操作實踐到業(yè)務價值挖掘 在數據分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數據中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數據解讀到決策支撐的價值導向 統(tǒng)計模型作為數據分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10