
大數(shù)據(jù)并不是統(tǒng)計數(shù)據(jù)那么簡單
統(tǒng)計無時不在,從結(jié)繩記事到今天的大數(shù)據(jù),統(tǒng)計作為人們認識客觀世界的工具,也在不斷創(chuàng)新,統(tǒng)計學(xué)作為一門系統(tǒng)研究數(shù)據(jù)的學(xué)科,在不斷豐富與完善。大數(shù)據(jù)時代來臨,統(tǒng)計如何應(yīng)對新的挑戰(zhàn)與機遇?我們回顧歷史,不忘初心,以開放的態(tài)度、創(chuàng)新的精神和不懈的努力,繼續(xù)前進,讓統(tǒng)計在大數(shù)據(jù)的舞臺上,發(fā)揮更大的作用。
普遍的定義認為,統(tǒng)計學(xué)是關(guān)于數(shù)據(jù)的科學(xué),研究如何收集數(shù)據(jù),并科學(xué)地推斷總體特征。普查作為最古老的數(shù)據(jù)收集方法,已經(jīng)有數(shù)千年的歷史,據(jù)記載,2200多年前的西漢時期,中國開展了第一次人口普查。17世紀中葉,統(tǒng)計學(xué)誕生,并在18、19世紀不斷發(fā)展,特別是與研究不確定性的概率論的結(jié)合,產(chǎn)生了現(xiàn)代意義上的統(tǒng)計學(xué):數(shù)理統(tǒng)計學(xué)。1895年提出抽樣調(diào)查方法并在后來30多年完善后,作為一種更及時、更經(jīng)濟的數(shù)據(jù)收集方法,被廣泛應(yīng)用于經(jīng)濟、社會、科學(xué)等各個領(lǐng)域??梢哉f,20世紀期間,傳統(tǒng)的普查與新產(chǎn)生的抽樣調(diào)查,作為兩大數(shù)據(jù)收集方法體系,共同應(yīng)用于對社會經(jīng)濟發(fā)展的測量,發(fā)揮了重要作用。
21世紀大數(shù)據(jù)的出現(xiàn),各種來源、各種形式的電子化數(shù)據(jù)的大爆發(fā),靜態(tài)的、定時的傳統(tǒng)數(shù)據(jù)收集方法,面臨新的、動態(tài)的、組合的大數(shù)據(jù)的挑戰(zhàn)和機遇,統(tǒng)計思維和數(shù)據(jù)收集方法也將不斷創(chuàng)新。從統(tǒng)計學(xué)誕生的300多年的歷程看,統(tǒng)計學(xué)發(fā)展的歷史就是統(tǒng)計思維和統(tǒng)計方法不斷創(chuàng)新的歷史,這種創(chuàng)新是圍繞著關(guān)于數(shù)據(jù)的兩大核心問題展開的:如何收集數(shù)據(jù)和如何分析數(shù)據(jù)。本文通過回顧重要階段性的幾個片斷,思考統(tǒng)計創(chuàng)新是如何發(fā)生的,重點談大數(shù)據(jù)與統(tǒng)計的關(guān)系,以及會帶來的新變化。
計數(shù):統(tǒng)計的萌芽
在世界著名的科普著作《從一到無窮大》一書開頭,講述了一個發(fā)生在原始部落里的故事:兩個匈牙利貴族決定做一次關(guān)于數(shù)的游戲-誰說出了最大的數(shù)誰就贏,第一個貴族說出了他能想到的最大的數(shù)‘3’,第二個貴族苦思冥想后,表示認輸了,他想象不出比3更大的數(shù)。這個故事的真假無從考證,但可以說明在人們公認的以‘結(jié)繩記事’為計數(shù)開始之前,數(shù)的大小概念已經(jīng)產(chǎn)生。但由于還不能‘計數(shù)’,甚至還不能將數(shù)的概念與10個指頭相對應(yīng)(這在今天相當于2歲孩子的水平),否則,第二個貴族會毫不猶豫地伸出雙手說出10。
計數(shù)是從結(jié)繩記事開始的,當然也可以用其他如石頭、木棍、貝殼等,或者在地上、壁上劃痕線等方式。這些是在文字發(fā)明之前,人們使用的記事和計數(shù)的方法。人類最早的統(tǒng)計實際上是一種計數(shù)活動,這在《易系辭下》中有所記載,古代印加人也存有記載;從上古時代,就已經(jīng)開始使用結(jié)繩的方法,‘事大,大結(jié)其繩,事小,小結(jié)其繩,之多少,隨物眾寡’,也即根據(jù)事件的性質(zhì)、規(guī)模或其數(shù)量的不同系不同的繩結(jié),這種方法古老原始,卻有效,對于古代人來說,這些大大小小的繩結(jié)、多多少少的劃痕是他們回憶過去的唯一線索。隨著生產(chǎn)活動、戰(zhàn)爭等的規(guī)模越來越大,結(jié)繩記事已經(jīng)不能記事了,要么沒有那么多繩,要么是對那些繩結(jié)的意義的解釋(也就是今天的元數(shù)據(jù)的概念)需要更多的想象和更復(fù)雜的繩結(jié),原始部落的首領(lǐng)們可以看到養(yǎng)了多少牛羊,甚至可以平均分配給每一個人,卻無法記錄下來。
有了文字后,計數(shù)才真正成為一種工具,反映客觀經(jīng)濟活動及其數(shù)量關(guān)系。實際上,計數(shù)作為一種工具被人們接受后,原始的‘普查’就誕生了,有多少人口,有多少土地,有多少俘虜,通過計數(shù)與匯總就可以心中有數(shù)。據(jù)考古發(fā)現(xiàn),公元前3000年前,兩漢流域就已經(jīng)有了這樣的數(shù)據(jù)和匯總計算的符號。當然,這與其說是‘普查’,更應(yīng)該說是‘計數(shù)’,但其產(chǎn)生的意義是非常重大的,就像恩格斯說的,‘為了計數(shù),不僅要有可以計數(shù)的對象,還要有一種在考察對象時,撇開對象的其他一切特性而僅僅考慮到數(shù)字的能力’,這也就是抽象的數(shù)字的概念,實物的多少與數(shù)的對應(yīng)關(guān)系的確立,并建立了運算規(guī)則,為統(tǒng)計學(xué)的誕生與發(fā)展奠定了基礎(chǔ),這也是統(tǒng)計的萌芽,充分表明了客觀世界就是一個‘數(shù)及數(shù)的關(guān)系的和諧系統(tǒng)’。
數(shù)的游戲:概率計算
關(guān)于數(shù)的游戲自古就有,而這些游戲主要就是賭博:不確定性帶來的收益。不管是抽簽、還是投擲錢幣、擲骰子、斗紙牌,各種不同形式的以‘不確定性’為基礎(chǔ)的賭博,實際上都是‘數(shù)’的游戲,這當然也開始引起了學(xué)者們的注意和研究。到了15世紀的歐洲,賭博游戲非常流行。最早研究賭博問題的是1477年出版的意大利詩人但丁的《神曲》一書的注釋本,描述了投擲三顆骰子可能出現(xiàn)的各種點數(shù)問題。
從16世紀中葉開始,學(xué)者們開始研究賭博中的概率問題。意大利人加爾達偌(1501-1576)是一位數(shù)學(xué)家,也是一個精明的賭徒,他寫的《機會游戲》一書,是在他去世近100年后才出版的。他計算了投擲2顆或者3顆骰子時,究竟有多少種可能性得出投擲的骰子面朝上的數(shù)字之和為某一數(shù)(比如10),這在當時對排列組合所知甚微的情況下,是非常難得的。意大利天文學(xué)家伽利略(1564-1642)研究了同樣的問題,并寫了一篇論文給出了圓滿的解答,算出了所有點數(shù)的可能性,如在投擲三顆骰子時,出現(xiàn)的數(shù)字之和為9和10,各有6種不同的組合法。這個問題在今天是一個很簡單的排列組合問題,但在當時,誰掌握了這一秘密,誰就可能成為更精明的賭徒。
到了17世紀中葉,兩位法國大數(shù)學(xué)家帕斯卡(1923-1662)、費馬(1601-1665)開始研究丟骰子賭博中的規(guī)律性問題。他們利用通信,幾經(jīng)研究,解決了著名的‘得點問題’(也稱‘分賭術(shù)’問題),通過對這個問題的研究,早期概率的計算從簡單計數(shù)進入了比較精確的計算階段,這也被認為是概率論的起源。從此,更多的學(xué)者們開始研究概率及計算問題,從研究賭博開始的古典概率,在不確定性的科學(xué)研究上,逐步建立了一套科學(xué)完整的體系:概率論。
統(tǒng)計學(xué)的誕生:讓數(shù)據(jù)說話
統(tǒng)計學(xué)誕生的大背景是在15世紀,由于歐洲地中海沿岸商品經(jīng)濟的發(fā)展以及思想、技術(shù)的進步,從中世紀封建社會內(nèi)部產(chǎn)生的資本主義及發(fā)展。資本主義商品經(jīng)濟的產(chǎn)生和發(fā)展,人們對數(shù)據(jù)的認識不僅僅是賭博游戲,而是對事物規(guī)律性的認識。之前,往往是滿足‘計數(shù)’的需要,記錄歷史,回答‘干了什么’,而資本主義商品經(jīng)濟的發(fā)展則要滿足‘生產(chǎn)’的需要了,不僅要記錄歷史,還要預(yù)測未來,回答‘要干什么’。除此之外,還有一些原因也促進了統(tǒng)計學(xué)的誕生:如為了商業(yè)的冒險行為,包括商業(yè)投機和航海商業(yè),保險業(yè)的興起等。
統(tǒng)計學(xué)的誕生及發(fā)展使人們對數(shù)據(jù)規(guī)律性的認識上了一個大臺階。作為統(tǒng)計學(xué)的起端,幾乎同時發(fā)生了兩個劃時代的重大事件:一是格朗特(1620-1674)1662年發(fā)表的《關(guān)于死亡公報的自然和政治觀察》(簡稱《觀察》),二是威廉配第(1623-1687)1667年發(fā)表的《政治算術(shù)》。這兩部著作都被認為是統(tǒng)計學(xué)的鼻祖,他們各自研究的重點不同,后來的學(xué)者們往往站在不同的角度進行評價。
《觀察》利用英國倫敦每周公布的死亡人數(shù)及相關(guān)人口資料,分析了60多年中居民死亡原因及與人口變動的關(guān)系,用了大量表格、演算,提出了人口男女性別的大數(shù)法則,編制了人口統(tǒng)計分析壽命表及人口推算方法等,這在今天看來,是統(tǒng)計工作的基礎(chǔ)環(huán)節(jié)-統(tǒng)計匯總與描述性分析,但在當時,確是開創(chuàng)性地利用公布的有限數(shù)據(jù),分析推斷了倫敦人口的總體分布與特征。
威廉配第的《政治算術(shù)》崇尚讓數(shù)據(jù)說話,依據(jù)數(shù)據(jù)分析更廣泛的社會、經(jīng)濟問題(不局限于人口分析),而不只是依靠思辨或空洞的推演,正如他自己所說:‘與只使用比較級和最高級的詞語以及單純作思維論證相反,我采用數(shù)字、重量和尺度等術(shù)語來闡述我的觀點。’他的兒子把該書獻給國王時說:‘書中論述了凡是政府事務(wù)以及有關(guān)君主榮譽、百姓幸福和國家昌盛的事項,都可以用算術(shù)的一般法則證實。這種方法,就是用一種普通的科學(xué)原理解釋錯綜復(fù)雜的世界?!梢哉f,《政治算術(shù)》是把培根的實證科學(xué)思想和方法,通過數(shù)據(jù)的分析,運用到了廣泛的社會經(jīng)濟領(lǐng)域。
威廉配第對統(tǒng)計的貢獻還在于強調(diào)典型調(diào)查作用,在數(shù)據(jù)分析中更多地使用分組法、平均數(shù)、相對數(shù)、統(tǒng)計推斷等,他還先見地提出計算整個國家的國民收入與國民財富,并對英國國民收入進行詳細估算。有了統(tǒng)計學(xué)帶來的數(shù)據(jù)分析方法,就有了后來的經(jīng)濟學(xué)、社會學(xué)等,亞當斯密的《國富論》是1776年發(fā)表的,比《政治算術(shù)》晚了100多年。19世紀末20世紀初開始建立起來的數(shù)理統(tǒng)計理論和抽樣調(diào)查方法的推廣應(yīng)用,更是廣泛應(yīng)用于自然科學(xué)、經(jīng)濟學(xué)和社會科學(xué)等。
‘統(tǒng)計時代’:
雜亂無章數(shù)據(jù)背后的規(guī)律
19世紀初上半葉,統(tǒng)計學(xué)逐漸取代‘國勢學(xué)’、‘政治算術(shù)’,作為近代文化發(fā)達的標志之一,就是統(tǒng)計開始大量于社會經(jīng)濟自然科學(xué)各個方面并形成了統(tǒng)計發(fā)展史的高潮,后來被稱之為‘統(tǒng)計時代’、‘統(tǒng)計狂熱時代’,一切讓數(shù)據(jù)說話成為一種理念、一種時尚,就像今天誰不說大數(shù)據(jù),誰就落伍了一樣。
這個時代的中心人物是比利時統(tǒng)計學(xué)家、數(shù)學(xué)家、天文學(xué)家凱特勒(1796-1874)。他的主要貢獻有:一是系統(tǒng)提出統(tǒng)計規(guī)律性研究,認為統(tǒng)計學(xué)不僅要記述各國的國情,研究社會現(xiàn)象的靜態(tài),而且要研究社會生活的動態(tài),從而觀察社會發(fā)展的規(guī)律。他提出要探索在紛繁雜亂的大量偶然性現(xiàn)象的背后所隱藏的必然規(guī)律。二是促進了統(tǒng)計學(xué)與概率論的結(jié)合,使統(tǒng)計學(xué)進入新的發(fā)展階段-現(xiàn)代統(tǒng)計學(xué)階段。在此之前,研究國家社會經(jīng)濟現(xiàn)象的統(tǒng)計學(xué)與研究賭博起來的概率論是風(fēng)馬牛不相及的兩個學(xué)科,要說清楚他們的結(jié)合,還必須先說說一條最重要的曲線:正態(tài)分布曲線。
這條曲線很好看,又好用,從天文觀察到人體測量,在自然界中無處不在,在當時作為誤差分析的有力武器達到了登峰造極的地步,使得人們在雜亂無章的數(shù)據(jù)背后,能夠發(fā)現(xiàn)秩序和規(guī)律性。凱特勒在19世紀30年代主持建立比利時統(tǒng)計局后,發(fā)現(xiàn)以往被人們認為雜亂無章的、毫無規(guī)律可循的社會現(xiàn)象,也如同自然界一樣具有規(guī)律性。他收集了大量關(guān)于人體測量的數(shù)據(jù),開創(chuàng)性地提出用正態(tài)曲線擬合方法判斷人體測量數(shù)據(jù)的同質(zhì)性問題,隨后應(yīng)用于各種數(shù)據(jù)分析,為正態(tài)曲線的應(yīng)用拓展了廣闊的統(tǒng)計平臺,也導(dǎo)致后來涌現(xiàn)了社會統(tǒng)計學(xué)、生物統(tǒng)計學(xué)、農(nóng)業(yè)實驗學(xué)、經(jīng)濟統(tǒng)計學(xué)等統(tǒng)計流派。統(tǒng)計學(xué)發(fā)展百花齊放,數(shù)據(jù)的天空次序井然。
這個時代另一個顯著的特點是政府官方統(tǒng)計的建立與發(fā)展,其主要原因除了統(tǒng)計科學(xué)的不斷完善外,還因為隨著社會經(jīng)濟發(fā)展,各國政府、民間機構(gòu)對統(tǒng)計數(shù)據(jù)有大量需求。
凱特勒的另一個貢獻是推動了國際統(tǒng)計組織合作。由于大量的統(tǒng)計機構(gòu)的建立,民間研究團體的涌現(xiàn),各種被利用的數(shù)據(jù)增多,統(tǒng)計學(xué)家們面臨一些共同的問題,包括統(tǒng)計的標準、個體的界定、數(shù)據(jù)的質(zhì)量等基本問題,也包括統(tǒng)計資料的交流、統(tǒng)計理論和方法的推廣與傳播等,都需要各國統(tǒng)計學(xué)家的共同研究。在凱特勒等的努力下,1851年在倫敦成立了第一個國際統(tǒng)計組織國際統(tǒng)計大會,1853年主持召開了第一次會議。這是國際統(tǒng)計學(xué)會(ISI)的前身,1887年,ISI在羅馬召開了第一次會議,自1938年起,每兩年召開一次,后來改名為世界統(tǒng)計大會(WSC)。到目前已召開了60屆,對統(tǒng)計學(xué)的發(fā)展和推動各國統(tǒng)計工作發(fā)揮了很大的作用
大數(shù)據(jù):新資源、新機會
大數(shù)據(jù)是人類自身產(chǎn)生的一種新的‘自然’資源,與支撐傳統(tǒng)經(jīng)濟發(fā)展的自然資源,如土地、石油、煤、水等不同,這種人造‘自然’資源越用越多,越用越便宜,越用越有價值,以知識、創(chuàng)新、ICT、IT、DT為主要特征的新經(jīng)濟的發(fā)展更多是依靠這種新資源??梢哉f,21世紀的競爭是數(shù)據(jù)的競爭,誰擁有了大數(shù)據(jù),誰就占領(lǐng)了制高點,誰就擁有洞見的能力,誰就能引領(lǐng)未來。
與傳統(tǒng)統(tǒng)計學(xué)研究的數(shù)據(jù)比,大數(shù)據(jù)有幾個特點:一是數(shù)據(jù)量大。按有關(guān)機構(gòu)測算,全球數(shù)據(jù)量每兩年翻一番。這還不是主要問題,因為摩爾定理表明,數(shù)據(jù)處理能力每18個月就可以翻一番。二是數(shù)據(jù)類型多。數(shù)據(jù)不僅僅是數(shù)字,包括了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),特別是互聯(lián)網(wǎng)和通訊技術(shù)的迅速發(fā)展,電子商務(wù)和社交網(wǎng)絡(luò)的廣泛應(yīng)用,網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理空間位置、網(wǎng)上交易等成為新的數(shù)據(jù)形式。三是數(shù)據(jù)上云。大數(shù)據(jù)已經(jīng)無法用傳統(tǒng)的存儲、計算方式來處理,數(shù)據(jù)上云意味著,可以通過網(wǎng)絡(luò),依托于云計算的分布式處理、分布式數(shù)據(jù)庫、云存儲和虛擬化等技術(shù),對海量數(shù)據(jù)進行整合、挖掘,從技術(shù)上看,大數(shù)據(jù)與云計算就像一對孿生兄弟或者一枚硬幣的正反面一樣密不可分。
除了上述三個特點外,一般認為大數(shù)據(jù)還有兩個特點:速度和價值。一般將數(shù)據(jù)量(Volume)、數(shù)據(jù)類型(Variety)、速度(Velocity)和價值(Value)稱為‘4V’,刻畫了大數(shù)據(jù)的基本特征。
哈佛大學(xué)里.金教授說:‘大數(shù)據(jù)是一場革命,龐大的數(shù)據(jù)資源使得各個領(lǐng)域開始了量化進程,無論學(xué)術(shù)界、商業(yè)還是政府,所有領(lǐng)域都將開始這種進程?!裉?,我們進入了信息社會,面臨著大數(shù)據(jù)時代的來臨,云計算、物聯(lián)網(wǎng)、移動終端及可穿戴設(shè)備高度發(fā)達與融合,不管你是誰、不管你愿意不愿意,都要與數(shù)據(jù)打交道,要么在生產(chǎn)數(shù)據(jù),要么在接收數(shù)據(jù),不管身在何處,你已經(jīng)被‘大數(shù)據(jù)’了。從日常生活到國家宏觀調(diào)控,我們面臨的都將是各種數(shù)據(jù)。如何在各種各樣的數(shù)據(jù)中進行深入的分析和挖掘,發(fā)現(xiàn)這些數(shù)據(jù)當中隱藏的更深刻的規(guī)律和現(xiàn)象,就能更好地服務(wù)于政府決策和社會各方面的需求,大數(shù)據(jù)的真正價值就體現(xiàn)在這里。
國際上很多組織和國家,特別是發(fā)達國家,都已經(jīng)把大數(shù)據(jù)的開發(fā)應(yīng)用提高到戰(zhàn)略的高度來研究。聯(lián)合國《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機遇》(2012)認為:‘大數(shù)據(jù)像納米技術(shù)和量子計算一樣帶來了根本性的變革,將會塑造21世紀?!澜缃?jīng)濟論壇發(fā)布的《大數(shù)據(jù)、大影響:國際發(fā)展的新動向》稱‘大數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟資產(chǎn)類別,就像貨幣或黃金一樣?!S克托在《大數(shù)據(jù)時代—生活、工作與思維的大變革》中說:‘大數(shù)據(jù)時代將帶來思維變革、商業(yè)變革和管理變革,隨著大數(shù)據(jù)在商業(yè)等領(lǐng)域嶄露頭角,一場為發(fā)掘和利用數(shù)據(jù)價值的競賽正在全球上演,人類將面臨根本性的時代變革?!?/span>
大數(shù)據(jù)時代,我國優(yōu)勢明顯。第一,從政策層面,我國已經(jīng)出臺并實施了《促進大數(shù)據(jù)發(fā)展行動綱要》和《中國制造2025》。第二,我國是世界第一人口大國,第二大經(jīng)濟體,有1500多萬個法人單位,1800多萬個產(chǎn)業(yè)活動單位,還有大量其他經(jīng)濟主體不斷涌現(xiàn)。人口和經(jīng)濟規(guī)模決定了我國是一個數(shù)據(jù)資源大國。第三,我國是一個網(wǎng)絡(luò)大國,截至2016年6月,中國互聯(lián)網(wǎng)普及率達到51.7%,網(wǎng)民規(guī)模達7.1億,手機網(wǎng)民規(guī)模達6.56億,一大批互聯(lián)網(wǎng)企業(yè)、大數(shù)據(jù)企業(yè)正在改變著傳統(tǒng)的生產(chǎn)生活方式。第四,大數(shù)據(jù)時代與我國經(jīng)濟發(fā)展新常態(tài)正處在一個歷史的交匯口,提質(zhì)增效、轉(zhuǎn)型升級為加快大數(shù)據(jù)的應(yīng)用提供了機遇,同時,以大數(shù)據(jù)開發(fā)為基礎(chǔ)的一大批產(chǎn)業(yè)將形成新的經(jīng)濟增長點,推動新經(jīng)濟的發(fā)展,實現(xiàn)動能轉(zhuǎn)換。
大數(shù)據(jù)催生統(tǒng)計創(chuàng)新
普查和抽樣調(diào)查是傳統(tǒng)的兩大數(shù)據(jù)收集方法。普查不需要統(tǒng)計學(xué)方法進行推斷估計,因為通過普查,已經(jīng)取得了所有個體數(shù)據(jù)和總體的實際分布,這也是為什么人類開始懂得計數(shù)就開始進行普查。抽樣調(diào)查是利用抽樣理論解決如何科學(xué)設(shè)計樣本,取得樣本個體數(shù)據(jù),并科學(xué)地推斷總體分布及特征。無論是普查還是抽樣調(diào)查,其核心問題之一是要取得準確的‘個體數(shù)據(jù)’。但在大數(shù)據(jù)時代,一切皆可量化,一切皆可記錄,如何利用更全面、更及時、更經(jīng)濟的網(wǎng)絡(luò)電子化數(shù)據(jù),以及通過對這些數(shù)據(jù)使用新的分析及挖掘技術(shù),產(chǎn)生新的見解和認識,是我們面臨的重大機遇。
大數(shù)據(jù)和統(tǒng)計思維與方法等有明顯的不同,主要表現(xiàn)在以下八個方面:
一是‘問題驅(qū)動’與‘數(shù)據(jù)驅(qū)動’。收集數(shù)據(jù)是開展統(tǒng)計分析的前提,傳統(tǒng)的普查或抽樣調(diào)查是先確定普查或調(diào)查目的,然后再根據(jù)目的相應(yīng)要求和經(jīng)費確定普查或調(diào)查的方法和樣本量的大小。也就是說,傳統(tǒng)統(tǒng)計方法設(shè)計是針對研究問題而收集數(shù)據(jù),提出假設(shè),再進行統(tǒng)計檢驗和推斷。這種用有限數(shù)據(jù)驗證先驗假定,通常是基于分布理論,以一定的概率為保證,其邏輯關(guān)系是‘分布理論-概率保證-總體推斷’。而大數(shù)據(jù)強調(diào)的是全體數(shù)據(jù),總體特征一般不再需要根據(jù)分布理論進行推斷。不僅如此,還可以根據(jù)全面數(shù)據(jù)和實際分布來判斷其中出現(xiàn)某類情況的可能性有多大,其邏輯關(guān)系變成了‘實際分布-總體特征-概率判斷’,也即概率不再是事先預(yù)設(shè),而是基于實際分布得出的判斷。在大數(shù)據(jù)時代,由于有足夠的數(shù)據(jù),足夠的變量,可以采用人工智能等來進行數(shù)據(jù)挖掘和知識發(fā)現(xiàn),廣泛開展各種探索性研究,其結(jié)論與發(fā)現(xiàn)是通過數(shù)據(jù)分析獲得的,也就是數(shù)據(jù)驅(qū)動,用數(shù)據(jù)決策和用數(shù)據(jù)創(chuàng)新。
二是‘我問你答’與‘我取你有’。統(tǒng)計報表、調(diào)查問卷是目前全世界開展普查、調(diào)查收集數(shù)據(jù)的主要載體。這種方式是通過結(jié)構(gòu)化的報表將被調(diào)查對象的行為轉(zhuǎn)化為可用的數(shù)據(jù),這種方式的根本特征‘我問你答’,需要被調(diào)查者高度配合,包括對問題的正確理解和如實回答填報,否則,數(shù)據(jù)質(zhì)量難以保證。但在‘大數(shù)據(jù)’時代,數(shù)據(jù)來源于信息技術(shù)記錄下的原始數(shù)據(jù),這些數(shù)據(jù)的參與僅僅依賴于測量方法(如企業(yè)生產(chǎn)記錄、大量行政記錄、GPS定位測量、超市收銀管理系統(tǒng)、ETC電子收費系統(tǒng)),充分利用電子記錄大數(shù)據(jù)為政府統(tǒng)計所用,采用‘我取你有’的方式,取得更及時、真實的原始數(shù)據(jù),由專業(yè)統(tǒng)計人員根據(jù)統(tǒng)計制度計算統(tǒng)計指標數(shù)據(jù),也減少了統(tǒng)計調(diào)查和報表整理的中間環(huán)節(jié),數(shù)據(jù)質(zhì)量將會大大提高。
三是因果聯(lián)系與相關(guān)分析。傳統(tǒng)統(tǒng)計主要通過建立模型探求變量之間的因果關(guān)系,并基于模型對因變量進行預(yù)測,即預(yù)先假定事物之間存在某種因果關(guān)系,然后在此假定的基礎(chǔ)上構(gòu)建模型并驗證假定存在的因果關(guān)系。存在的問題往往是,變量間的因果關(guān)系具有時效性,存在此一時,彼一時的情況,是在特殊條件和前提假定下的關(guān)系,結(jié)論的時效性與適用性較為有限。而相關(guān)關(guān)系具有更加普遍和本質(zhì)的內(nèi)涵,有因果關(guān)系必有相關(guān)關(guān)系,有相關(guān)關(guān)系未必有因果關(guān)系。在大數(shù)據(jù)背景下,數(shù)據(jù)分析不再探求特定條件下確定性很強的因果關(guān)系,而是更加關(guān)注普遍意義的相關(guān)關(guān)系。從超大量數(shù)據(jù)中發(fā)現(xiàn)各種真實存在的相關(guān)關(guān)系,更加直觀、更貼近個體、更容易被理解和接受,可以發(fā)現(xiàn)事物發(fā)展?jié)撛诘囊?guī)律,具有一定的智能性,某種程度上超越了傳統(tǒng)統(tǒng)計研究的因果關(guān)系,因此,相關(guān)分析是大數(shù)據(jù)時代的重要工作。
四是樣本抽選與總體描述。以統(tǒng)計推斷為主要特征的現(xiàn)代統(tǒng)計學(xué)研究主要內(nèi)容是不斷改進樣本抽樣方法和參數(shù)設(shè)計,從而對總體的特征進行描述。囿于數(shù)據(jù)收集以及客觀條件的限制,總是希望通過盡可能少的樣本來了解總體。在這種背景下,產(chǎn)生了各式各樣的抽樣調(diào)查技術(shù)和參數(shù)估計方法。在分層情況下,樣本的數(shù)量往往不能有效地減少。大數(shù)據(jù)時代,樣本就是被記錄的所有數(shù)據(jù),從這個意義上講,樣本就是總體。通過對所有與事物相關(guān)的數(shù)據(jù)進行分析,既有利于了解總體,又有利于了解局部細微??偟膩碇v,傳統(tǒng)的統(tǒng)計抽樣調(diào)查方法存在的不足可以在大數(shù)據(jù)時代得到改進。大數(shù)定律告訴我們,隨著樣本數(shù)量的增加,樣本平均數(shù)越來越接近總體,而大數(shù)據(jù)已經(jīng)描述了總體信息。
五是數(shù)據(jù)煙囪與數(shù)據(jù)平臺。長期以來,我國政府統(tǒng)計是以部門為中心展開的,相互隔離形成了行業(yè)垂直的信息化體系,在地方上形成了條塊分割的信息孤島,形成一個個數(shù)據(jù)煙囪,數(shù)據(jù)標準不統(tǒng)一,數(shù)據(jù)指標不規(guī)范,數(shù)據(jù)平臺重復(fù)建設(shè)。大數(shù)據(jù)特別是與之相關(guān)聯(lián)云計算,為信息整合提供了新的契機,有助于建立政府信息共享數(shù)據(jù)平臺,提高政府行為的透明度,有效提高政府的公信力,以大數(shù)據(jù)助推政府決策科學(xué)化。大數(shù)據(jù)的應(yīng)用將改變政府統(tǒng)計部門的工作模式,整合現(xiàn)有的分散于各職能部門中的行政記錄,完善多種信息來源的數(shù)據(jù)采集制度,實現(xiàn)工商、質(zhì)監(jiān)、勞動、人社等部門的數(shù)據(jù)注冊、查詢、共享和交換,在一個數(shù)據(jù)平臺(包括標準、指標、數(shù)據(jù)庫等),能夠揭示傳統(tǒng)技術(shù)方式難以展現(xiàn)的關(guān)聯(lián)關(guān)系,為有效處理復(fù)雜社會問題提供新的手段,有助于建立現(xiàn)代化的政府統(tǒng)計調(diào)查體系,最大限度地發(fā)掘這些數(shù)據(jù)資源的價值,提高政府統(tǒng)計部門的生產(chǎn)力,建立用數(shù)據(jù)說話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新的管理體制機制,提升政府治理能力。
新的起點
大數(shù)據(jù)時代為統(tǒng)計提供了大舞臺,統(tǒng)計將為大數(shù)據(jù)添上翅膀。大數(shù)據(jù)時代的來臨,帶來新的機遇。我們要真正站在同一起跑線上了,以開放的態(tài)度、創(chuàng)新的勇氣、不懈的努力抓住歷史賦予的機會。古代結(jié)繩計數(shù)能夠記錄下的數(shù)據(jù)與今天海量存儲器記錄下的數(shù)據(jù)本質(zhì)上是一樣的,不同的是,古代人知道他們養(yǎng)了多少牛羊、知道每人分多少,但記錄不下來;而今天,我們可以記錄一切,但傳統(tǒng)處理分析能力還不能完全知道這些海量數(shù)據(jù)中蘊含的規(guī)律和見解,這是統(tǒng)計的新戰(zhàn)場,也是統(tǒng)計人要努力探尋的新領(lǐng)域。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03