
大數(shù)據(jù)不止是統(tǒng)計(jì)數(shù)據(jù)那么簡(jiǎn)單
統(tǒng)計(jì)無(wú)時(shí)不在,從結(jié)繩記事到今天的大數(shù)據(jù),統(tǒng)計(jì)作為人們認(rèn)識(shí)客觀世界的工具,也在不斷創(chuàng)新,統(tǒng)計(jì)學(xué)作為一門(mén)系統(tǒng)研究數(shù)據(jù)的學(xué)科,在不斷豐富與完善。大數(shù)據(jù)時(shí)代來(lái)臨,統(tǒng)計(jì)如何應(yīng)對(duì)新的挑戰(zhàn)與機(jī)遇?我們回顧歷史,不忘初心,以開(kāi)放的態(tài)度、創(chuàng)新的精神和不懈的努力,繼續(xù)前進(jìn),讓統(tǒng)計(jì)在大數(shù)據(jù)的舞臺(tái)上,發(fā)揮更大的作用。
普遍的定義認(rèn)為,統(tǒng)計(jì)學(xué)是關(guān)于數(shù)據(jù)的科學(xué),研究如何收集數(shù)據(jù),并科學(xué)地推斷總體特征。普查作為最古老的數(shù)據(jù)收集方法,已經(jīng)有數(shù)千年的歷史,據(jù)記載,2200多年前的西漢時(shí)期,中國(guó)開(kāi)展了第一次人口普查。17世紀(jì)中葉,統(tǒng)計(jì)學(xué)誕生,并在18、19世紀(jì)不斷發(fā)展,特別是與研究不確定性的概率論的結(jié)合,產(chǎn)生了現(xiàn)代意義上的統(tǒng)計(jì)學(xué):數(shù)理統(tǒng)計(jì)學(xué)。1895年提出抽樣調(diào)查方法并在后來(lái)30多年完善后,作為一種更及時(shí)、更經(jīng)濟(jì)的數(shù)據(jù)收集方法,被廣泛應(yīng)用于經(jīng)濟(jì)、社會(huì)、科學(xué)等各個(gè)領(lǐng)域??梢哉f(shuō),20世紀(jì)期間,傳統(tǒng)的普查與新產(chǎn)生的抽樣調(diào)查,作為兩大數(shù)據(jù)收集方法體系,共同應(yīng)用于對(duì)社會(huì)經(jīng)濟(jì)發(fā)展的測(cè)量,發(fā)揮了重要作用。
21世紀(jì)大數(shù)據(jù)的出現(xiàn),各種來(lái)源、各種形式的電子化數(shù)據(jù)的大爆發(fā),靜態(tài)的、定時(shí)的傳統(tǒng)數(shù)據(jù)收集方法,面臨新的、動(dòng)態(tài)的、組合的大數(shù)據(jù)的挑戰(zhàn)和機(jī)遇,統(tǒng)計(jì)思維和數(shù)據(jù)收集方法也將不斷創(chuàng)新。從統(tǒng)計(jì)學(xué)誕生的300多年的歷程看,統(tǒng)計(jì)學(xué)發(fā)展的歷史就是統(tǒng)計(jì)思維和統(tǒng)計(jì)方法不斷創(chuàng)新的歷史,這種創(chuàng)新是圍繞著關(guān)于數(shù)據(jù)的兩大核心問(wèn)題展開(kāi)的:如何收集數(shù)據(jù)和如何分析數(shù)據(jù)。本文通過(guò)回顧重要階段性的幾個(gè)片斷,思考統(tǒng)計(jì)創(chuàng)新是如何發(fā)生的,重點(diǎn)談大數(shù)據(jù)與統(tǒng)計(jì)的關(guān)系,以及會(huì)帶來(lái)的新變化。
計(jì)數(shù):統(tǒng)計(jì)的萌芽
在世界著名的科普著作《從一到無(wú)窮大》一書(shū)開(kāi)頭,講述了一個(gè)發(fā)生在原始部落里的故事:兩個(gè)匈牙利貴族決定做一次關(guān)于數(shù)的游戲——誰(shuí)說(shuō)出了最大的數(shù)誰(shuí)就贏,第一個(gè)貴族說(shuō)出了他能想到的最大的數(shù)“3”,第二個(gè)貴族苦思冥想后,表示認(rèn)輸了,他想象不出比3更大的數(shù)。這個(gè)故事的真假無(wú)從考證,但可以說(shuō)明在人們公認(rèn)的以“結(jié)繩記事”為計(jì)數(shù)開(kāi)始之前,數(shù)的大小概念已經(jīng)產(chǎn)生。但由于還不能“計(jì)數(shù)”,甚至還不能將數(shù)的概念與10個(gè)指頭相對(duì)應(yīng)(這在今天相當(dāng)于2歲孩子的水平),否則,第二個(gè)貴族會(huì)毫不猶豫地伸出雙手說(shuō)出10。
計(jì)數(shù)是從結(jié)繩記事開(kāi)始的,當(dāng)然也可以用其他如石頭、木棍、貝殼等,或者在地上、壁上劃痕線等方式。這些是在文字發(fā)明之前,人們使用的記事和計(jì)數(shù)的方法。人類(lèi)最早的統(tǒng)計(jì)實(shí)際上是一種計(jì)數(shù)活動(dòng),這在《易系辭下》中有所記載,古代印加人也存有記載;從上古時(shí)代,就已經(jīng)開(kāi)始使用結(jié)繩的方法,“事大,大結(jié)其繩,事小,小結(jié)其繩,之多少,隨物眾寡”,也即根據(jù)事件的性質(zhì)、規(guī)模或其數(shù)量的不同系不同的繩結(jié),這種方法古老原始,卻有效,對(duì)于古代人來(lái)說(shuō),這些大大小小的繩結(jié)、多多少少的劃痕是他們回憶過(guò)去的唯一線索。隨著生產(chǎn)活動(dòng)、戰(zhàn)爭(zhēng)等的規(guī)模越來(lái)越大,結(jié)繩記事已經(jīng)不能記事了,要么沒(méi)有那么多繩,要么是對(duì)那些繩結(jié)的意義的解釋(也就是今天的元數(shù)據(jù)的概念)需要更多的想象和更復(fù)雜的繩結(jié),原始部落的首領(lǐng)們可以看到養(yǎng)了多少牛羊,甚至可以平均分配給每一個(gè)人,卻無(wú)法記錄下來(lái)。
有了文字后,計(jì)數(shù)才真正成為一種工具,反映客觀經(jīng)濟(jì)活動(dòng)及其數(shù)量關(guān)系。實(shí)際上,計(jì)數(shù)作為一種工具被人們接受后,原始的“普查”就誕生了,有多少人口,有多少土地,有多少俘虜,通過(guò)計(jì)數(shù)與匯總就可以心中有數(shù)。據(jù)考古發(fā)現(xiàn),公元前3000年前,兩漢流域就已經(jīng)有了這樣的數(shù)據(jù)和匯總計(jì)算的符號(hào)。當(dāng)然,這與其說(shuō)是“普查”,更應(yīng)該說(shuō)是“計(jì)數(shù)”,但其產(chǎn)生的意義是非常重大的,就像恩格斯說(shuō)的,“為了計(jì)數(shù),不僅要有可以計(jì)數(shù)的對(duì)象,還要有一種在考察對(duì)象時(shí),撇開(kāi)對(duì)象的其他一切特性而僅僅考慮到數(shù)字的能力”,這也就是抽象的數(shù)字的概念,實(shí)物的多少與數(shù)的對(duì)應(yīng)關(guān)系的確立,并建立了運(yùn)算規(guī)則,為統(tǒng)計(jì)學(xué)的誕生與發(fā)展奠定了基礎(chǔ),這也是統(tǒng)計(jì)的萌芽,充分表明了客觀世界就是一個(gè)“數(shù)及數(shù)的關(guān)系的和諧系統(tǒng)”。
數(shù)的游戲:概率計(jì)算
關(guān)于數(shù)的游戲自古就有,而這些游戲主要就是賭博:不確定性帶來(lái)的收益。不管是抽簽、還是投擲錢(qián)幣、擲骰子、斗紙牌,各種不同形式的以“不確定性”為基礎(chǔ)的賭博,實(shí)際上都是“數(shù)”的游戲,這當(dāng)然也開(kāi)始引起了學(xué)者們的注意和研究。到了15世紀(jì)的歐洲,賭博游戲非常流行。最早研究賭博問(wèn)題的是1477年出版的意大利詩(shī)人但丁的《神曲》一書(shū)的注釋本,描述了投擲三顆骰子可能出現(xiàn)的各種點(diǎn)數(shù)問(wèn)題。
從16世紀(jì)中葉開(kāi)始,學(xué)者們開(kāi)始研究賭博中的概率問(wèn)題。意大利人加爾達(dá)偌(1501-1576)是一位數(shù)學(xué)家,也是一個(gè)精明的賭徒,他寫(xiě)的《機(jī)會(huì)游戲》一書(shū),是在他去世近100年后才出版的。他計(jì)算了投擲2顆或者3顆骰子時(shí),究竟有多少種可能性得出投擲的骰子面朝上的數(shù)字之和為某一數(shù)(比如10),這在當(dāng)時(shí)對(duì)排列組合所知甚微的情況下,是非常難得的。意大利天文學(xué)家伽利略(1564-1642)研究了同樣的問(wèn)題,并寫(xiě)了一篇論文給出了圓滿的解答,算出了所有點(diǎn)數(shù)的可能性,如在投擲三顆骰子時(shí),出現(xiàn)的數(shù)字之和為9和10,各有6種不同的組合法。這個(gè)問(wèn)題在今天是一個(gè)很簡(jiǎn)單的排列組合問(wèn)題,但在當(dāng)時(shí),誰(shuí)掌握了這一秘密,誰(shuí)就可能成為更精明的賭徒。
到了17世紀(jì)中葉,兩位法國(guó)大數(shù)學(xué)家帕斯卡(1923-1662)、費(fèi)馬(1601-1665)開(kāi)始研究丟骰子賭博中的規(guī)律性問(wèn)題。他們利用通信,幾經(jīng)研究,解決了著名的“得點(diǎn)問(wèn)題”(也稱“分賭術(shù)”問(wèn)題),通過(guò)對(duì)這個(gè)問(wèn)題的研究,早期概率的計(jì)算從簡(jiǎn)單計(jì)數(shù)進(jìn)入了比較精確的計(jì)算階段,這也被認(rèn)為是概率論的起源。從此,更多的學(xué)者們開(kāi)始研究概率及計(jì)算問(wèn)題,從研究賭博開(kāi)始的古典概率,在不確定性的科學(xué)研究上,逐步建立了一套科學(xué)完整的體系:概率論。
統(tǒng)計(jì)學(xué)的誕生:讓數(shù)據(jù)說(shuō)話
統(tǒng)計(jì)學(xué)誕生的大背景是在15世紀(jì),由于歐洲地中海沿岸商品經(jīng)濟(jì)的發(fā)展以及思想、技術(shù)的進(jìn)步,從中世紀(jì)封建社會(huì)內(nèi)部產(chǎn)生的資本主義及發(fā)展。資本主義商品經(jīng)濟(jì)的產(chǎn)生和發(fā)展,人們對(duì)數(shù)據(jù)的認(rèn)識(shí)不僅僅是賭博游戲,而是對(duì)事物規(guī)律性的認(rèn)識(shí)。之前,往往是滿足“計(jì)數(shù)”的需要,記錄歷史,回答“干了什么”,而資本主義商品經(jīng)濟(jì)的發(fā)展則要滿足“生產(chǎn)”的需要了,不僅要記錄歷史,還要預(yù)測(cè)未來(lái),回答“要干什么”。除此之外,還有一些原因也促進(jìn)了統(tǒng)計(jì)學(xué)的誕生:如為了商業(yè)的冒險(xiǎn)行為,包括商業(yè)投機(jī)和航海商業(yè),保險(xiǎn)業(yè)的興起等。
統(tǒng)計(jì)學(xué)的誕生及發(fā)展使人們對(duì)數(shù)據(jù)規(guī)律性的認(rèn)識(shí)上了一個(gè)大臺(tái)階。作為統(tǒng)計(jì)學(xué)的起端,幾乎同時(shí)發(fā)生了兩個(gè)劃時(shí)代的重大事件:一是格朗特(1620-1674)1662年發(fā)表的《關(guān)于死亡公報(bào)的自然和政治觀察》(簡(jiǎn)稱《觀察》),二是威廉·配第(1623-1687)1667年發(fā)表的《政治算術(shù)》。這兩部著作都被認(rèn)為是統(tǒng)計(jì)學(xué)的鼻祖,他們各自研究的重點(diǎn)不同,后來(lái)的學(xué)者們往往站在不同的角度進(jìn)行評(píng)價(jià)。
《觀察》利用英國(guó)倫敦每周公布的死亡人數(shù)及相關(guān)人口資料,分析了60多年中居民死亡原因及與人口變動(dòng)的關(guān)系,用了大量表格、演算,提出了人口男女性別的大數(shù)法則,編制了人口統(tǒng)計(jì)分析壽命表及人口推算方法等,這在今天看來(lái),是統(tǒng)計(jì)工作的基礎(chǔ)環(huán)節(jié)——統(tǒng)計(jì)匯總與描述性分析,但在當(dāng)時(shí),確是開(kāi)創(chuàng)性地利用公布的有限數(shù)據(jù),分析推斷了倫敦人口的總體分布與特征。
威廉·配第的《政治算術(shù)》崇尚讓數(shù)據(jù)說(shuō)話,依據(jù)數(shù)據(jù)分析更廣泛的社會(huì)、經(jīng)濟(jì)問(wèn)題(不局限于人口分析),而不只是依靠思辨或空洞的推演,正如他自己所說(shuō):“與只使用比較級(jí)和最高級(jí)的詞語(yǔ)以及單純作思維論證相反,我采用數(shù)字、重量和尺度等術(shù)語(yǔ)來(lái)闡述我的觀點(diǎn)?!彼膬鹤影言摃?shū)獻(xiàn)給國(guó)王時(shí)說(shuō):“書(shū)中論述了凡是政府事務(wù)以及有關(guān)君主榮譽(yù)、百姓幸福和國(guó)家昌盛的事項(xiàng),都可以用算術(shù)的一般法則證實(shí)。這種方法,就是用一種普通的科學(xué)原理解釋錯(cuò)綜復(fù)雜的世界。”可以說(shuō),《政治算術(shù)》是把培根的實(shí)證科學(xué)思想和方法,通過(guò)數(shù)據(jù)的分析,運(yùn)用到了廣泛的社會(huì)經(jīng)濟(jì)領(lǐng)域。
威廉·配第對(duì)統(tǒng)計(jì)的貢獻(xiàn)還在于強(qiáng)調(diào)典型調(diào)查作用,在數(shù)據(jù)分析中更多地使用分組法、平均數(shù)、相對(duì)數(shù)、統(tǒng)計(jì)推斷等,他還先見(jiàn)地提出計(jì)算整個(gè)國(guó)家的國(guó)民收入與國(guó)民財(cái)富,并對(duì)英國(guó)國(guó)民收入進(jìn)行詳細(xì)估算。有了統(tǒng)計(jì)學(xué)帶來(lái)的數(shù)據(jù)分析方法,就有了后來(lái)的經(jīng)濟(jì)學(xué)、社會(huì)學(xué)等,亞當(dāng)斯密的《國(guó)富論》是1776年發(fā)表的,比《政治算術(shù)》晚了100多年。19世紀(jì)末20世紀(jì)初開(kāi)始建立起來(lái)的數(shù)理統(tǒng)計(jì)理論和抽樣調(diào)查方法的推廣應(yīng)用,更是廣泛應(yīng)用于自然科學(xué)、經(jīng)濟(jì)學(xué)和社會(huì)科學(xué)等。
“統(tǒng)計(jì)時(shí)代”:
雜亂無(wú)章數(shù)據(jù)背后的規(guī)律
19世紀(jì)初上半葉,統(tǒng)計(jì)學(xué)逐漸取代“國(guó)勢(shì)學(xué)”、“政治算術(shù)”,作為近代文化發(fā)達(dá)的標(biāo)志之一,就是統(tǒng)計(jì)開(kāi)始大量于社會(huì)經(jīng)濟(jì)自然科學(xué)各個(gè)方面并形成了統(tǒng)計(jì)發(fā)展史的高潮,后來(lái)被稱之為“統(tǒng)計(jì)時(shí)代”、“統(tǒng)計(jì)狂熱時(shí)代”,一切讓數(shù)據(jù)說(shuō)話成為一種理念、一種時(shí)尚,就像今天誰(shuí)不說(shuō)大數(shù)據(jù),誰(shuí)就落伍了一樣。
這個(gè)時(shí)代的中心人物是比利時(shí)統(tǒng)計(jì)學(xué)家、數(shù)學(xué)家、天文學(xué)家凱特勒(1796-1874)。他的主要貢獻(xiàn)有:一是系統(tǒng)提出統(tǒng)計(jì)規(guī)律性研究,認(rèn)為統(tǒng)計(jì)學(xué)不僅要記述各國(guó)的國(guó)情,研究社會(huì)現(xiàn)象的靜態(tài),而且要研究社會(huì)生活的動(dòng)態(tài),從而觀察社會(huì)發(fā)展的規(guī)律。他提出要探索在紛繁雜亂的大量偶然性現(xiàn)象的背后所隱藏的必然規(guī)律。二是促進(jìn)了統(tǒng)計(jì)學(xué)與概率論的結(jié)合,使統(tǒng)計(jì)學(xué)進(jìn)入新的發(fā)展階段——現(xiàn)代統(tǒng)計(jì)學(xué)階段。在此之前,研究國(guó)家社會(huì)經(jīng)濟(jì)現(xiàn)象的統(tǒng)計(jì)學(xué)與研究賭博起來(lái)的概率論是風(fēng)馬牛不相及的兩個(gè)學(xué)科,要說(shuō)清楚他們的結(jié)合,還必須先說(shuō)說(shuō)一條最重要的曲線:正態(tài)分布曲線。
這條曲線很好看,又好用,從天文觀察到人體測(cè)量,在自然界中無(wú)處不在,在當(dāng)時(shí)作為誤差分析的有力武器達(dá)到了登峰造極的地步,使得人們?cè)陔s亂無(wú)章的數(shù)據(jù)背后,能夠發(fā)現(xiàn)秩序和規(guī)律性。凱特勒在19世紀(jì)30年代主持建立比利時(shí)統(tǒng)計(jì)局后,發(fā)現(xiàn)以往被人們認(rèn)為雜亂無(wú)章的、毫無(wú)規(guī)律可循的社會(huì)現(xiàn)象,也如同自然界一樣具有規(guī)律性。他收集了大量關(guān)于人體測(cè)量的數(shù)據(jù),開(kāi)創(chuàng)性地提出用正態(tài)曲線擬合方法判斷人體測(cè)量數(shù)據(jù)的同質(zhì)性問(wèn)題,隨后應(yīng)用于各種數(shù)據(jù)分析,為正態(tài)曲線的應(yīng)用拓展了廣闊的統(tǒng)計(jì)平臺(tái),也導(dǎo)致后來(lái)涌現(xiàn)了社會(huì)統(tǒng)計(jì)學(xué)、生物統(tǒng)計(jì)學(xué)、農(nóng)業(yè)實(shí)驗(yàn)學(xué)、經(jīng)濟(jì)統(tǒng)計(jì)學(xué)等統(tǒng)計(jì)流派。統(tǒng)計(jì)學(xué)發(fā)展百花齊放,數(shù)據(jù)的天空次序井然。
這個(gè)時(shí)代另一個(gè)顯著的特點(diǎn)是政府官方統(tǒng)計(jì)的建立與發(fā)展,其主要原因除了統(tǒng)計(jì)科學(xué)的不斷完善外,還因?yàn)殡S著社會(huì)經(jīng)濟(jì)發(fā)展,各國(guó)政府、民間機(jī)構(gòu)對(duì)統(tǒng)計(jì)數(shù)據(jù)有大量需求。
凱特勒的另一個(gè)貢獻(xiàn)是推動(dòng)了國(guó)際統(tǒng)計(jì)組織合作。由于大量的統(tǒng)計(jì)機(jī)構(gòu)的建立,民間研究團(tuán)體的涌現(xiàn),各種被利用的數(shù)據(jù)增多,統(tǒng)計(jì)學(xué)家們面臨一些共同的問(wèn)題,包括統(tǒng)計(jì)的標(biāo)準(zhǔn)、個(gè)體的界定、數(shù)據(jù)的質(zhì)量等基本問(wèn)題,也包括統(tǒng)計(jì)資料的交流、統(tǒng)計(jì)理論和方法的推廣與傳播等,都需要各國(guó)統(tǒng)計(jì)學(xué)家的共同研究。在凱特勒等的努力下,1851年在倫敦成立了第一個(gè)國(guó)際統(tǒng)計(jì)組織——國(guó)際統(tǒng)計(jì)大會(huì),1853年主持召開(kāi)了第一次會(huì)議。這是國(guó)際統(tǒng)計(jì)學(xué)會(huì)(ISI)的前身,1887年,ISI在羅馬召開(kāi)了第一次會(huì)議,自1938年起,每?jī)赡暾匍_(kāi)一次,后來(lái)改名為世界統(tǒng)計(jì)大會(huì)(WSC)。到目前已召開(kāi)了60屆,對(duì)統(tǒng)計(jì)學(xué)的發(fā)展和推動(dòng)各國(guó)統(tǒng)計(jì)工作發(fā)揮了很大的作用
大數(shù)據(jù):新資源、新機(jī)會(huì)
大數(shù)據(jù)是人類(lèi)自身產(chǎn)生的一種新的“自然”資源,與支撐傳統(tǒng)經(jīng)濟(jì)發(fā)展的自然資源,如土地、石油、煤、水等不同,這種人造“自然”資源越用越多,越用越便宜,越用越有價(jià)值,以知識(shí)、創(chuàng)新、ICT、IT、DT為主要特征的新經(jīng)濟(jì)的發(fā)展更多是依靠這種新資源??梢哉f(shuō),21世紀(jì)的競(jìng)爭(zhēng)是數(shù)據(jù)的競(jìng)爭(zhēng),誰(shuí)擁有了大數(shù)據(jù),誰(shuí)就占領(lǐng)了制高點(diǎn),誰(shuí)就擁有洞見(jiàn)的能力,誰(shuí)就能引領(lǐng)未來(lái)。
與傳統(tǒng)統(tǒng)計(jì)學(xué)研究的數(shù)據(jù)比,大數(shù)據(jù)有幾個(gè)特點(diǎn):一是數(shù)據(jù)量大。按有關(guān)機(jī)構(gòu)測(cè)算,全球數(shù)據(jù)量每?jī)赡攴环_@還不是主要問(wèn)題,因?yàn)槟柖ɡ肀砻?,?shù)據(jù)處理能力每18個(gè)月就可以翻一番。二是數(shù)據(jù)類(lèi)型多。數(shù)據(jù)不僅僅是數(shù)字,包括了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),特別是互聯(lián)網(wǎng)和通訊技術(shù)的迅速發(fā)展,電子商務(wù)和社交網(wǎng)絡(luò)的廣泛應(yīng)用,網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理空間位置、網(wǎng)上交易等成為新的數(shù)據(jù)形式。三是數(shù)據(jù)上云。大數(shù)據(jù)已經(jīng)無(wú)法用傳統(tǒng)的存儲(chǔ)、計(jì)算方式來(lái)處理,數(shù)據(jù)上云意味著,可以通過(guò)網(wǎng)絡(luò),依托于云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)、云存儲(chǔ)和虛擬化等技術(shù),對(duì)海量數(shù)據(jù)進(jìn)行整合、挖掘,從技術(shù)上看,大數(shù)據(jù)與云計(jì)算就像一對(duì)孿生兄弟或者一枚硬幣的正反面一樣密不可分。
除了上述三個(gè)特點(diǎn)外,一般認(rèn)為大數(shù)據(jù)還有兩個(gè)特點(diǎn):速度和價(jià)值。一般將數(shù)據(jù)量(Volume)、數(shù)據(jù)類(lèi)型(Variety)、速度(Velocity)和價(jià)值(Value)稱為“4V”,刻畫(huà)了大數(shù)據(jù)的基本特征。
哈佛大學(xué)里·金教授說(shuō):“大數(shù)據(jù)是一場(chǎng)革命,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開(kāi)始了量化進(jìn)程,無(wú)論學(xué)術(shù)界、商業(yè)還是政府,所有領(lǐng)域都將開(kāi)始這種進(jìn)程?!苯裉?,我們進(jìn)入了信息社會(huì),面臨著大數(shù)據(jù)時(shí)代的來(lái)臨,云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)終端及可穿戴設(shè)備高度發(fā)達(dá)與融合,不管你是誰(shuí)、不管你愿意不愿意,都要與數(shù)據(jù)打交道,要么在生產(chǎn)數(shù)據(jù),要么在接收數(shù)據(jù),不管身在何處,你已經(jīng)被“大數(shù)據(jù)”了。從日常生活到國(guó)家宏觀調(diào)控,我們面臨的都將是各種數(shù)據(jù)。如何在各種各樣的數(shù)據(jù)中進(jìn)行深入的分析和挖掘,發(fā)現(xiàn)這些數(shù)據(jù)當(dāng)中隱藏的更深刻的規(guī)律和現(xiàn)象,就能更好地服務(wù)于政府決策和社會(huì)各方面的需求,大數(shù)據(jù)的真正價(jià)值就體現(xiàn)在這里。
國(guó)際上很多組織和國(guó)家,特別是發(fā)達(dá)國(guó)家,都已經(jīng)把大數(shù)據(jù)的開(kāi)發(fā)應(yīng)用提高到戰(zhàn)略的高度來(lái)研究。聯(lián)合國(guó)《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機(jī)遇》(2012)認(rèn)為:“大數(shù)據(jù)像納米技術(shù)和量子計(jì)算一樣帶來(lái)了根本性的變革,將會(huì)塑造21世紀(jì)?!笔澜缃?jīng)濟(jì)論壇發(fā)布的《大數(shù)據(jù)、大影響:國(guó)際發(fā)展的新動(dòng)向》稱:“大數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類(lèi)別,就像貨幣或黃金一樣?!本S克托在《大數(shù)據(jù)時(shí)代—生活、工作與思維的大變革》中說(shuō):“大數(shù)據(jù)時(shí)代將帶來(lái)思維變革、商業(yè)變革和管理變革,隨著大數(shù)據(jù)在商業(yè)等領(lǐng)域嶄露頭角,一場(chǎng)為發(fā)掘和利用數(shù)據(jù)價(jià)值的競(jìng)賽正在全球上演,人類(lèi)將面臨根本性的時(shí)代變革。”
大數(shù)據(jù)時(shí)代,我國(guó)優(yōu)勢(shì)明顯。第一,從政策層面,我國(guó)已經(jīng)出臺(tái)并實(shí)施了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》和《中國(guó)制造2025》。第二,我國(guó)是世界第一人口大國(guó),第二大經(jīng)濟(jì)體,有1500多萬(wàn)個(gè)法人單位,1800多萬(wàn)個(gè)產(chǎn)業(yè)活動(dòng)單位,還有大量其他經(jīng)濟(jì)主體不斷涌現(xiàn)。人口和經(jīng)濟(jì)規(guī)模決定了我國(guó)是一個(gè)數(shù)據(jù)資源大國(guó)。第三,我國(guó)是一個(gè)網(wǎng)絡(luò)大國(guó),截至2016年6月,中國(guó)互聯(lián)網(wǎng)普及率達(dá)到51.7%,網(wǎng)民規(guī)模達(dá)7.1億,手機(jī)網(wǎng)民規(guī)模達(dá)6.56億,一大批互聯(lián)網(wǎng)企業(yè)、大數(shù)據(jù)企業(yè)正在改變著傳統(tǒng)的生產(chǎn)生活方式。第四,大數(shù)據(jù)時(shí)代與我國(guó)經(jīng)濟(jì)發(fā)展新常態(tài)正處在一個(gè)歷史的交匯口,提質(zhì)增效、轉(zhuǎn)型升級(jí)為加快大數(shù)據(jù)的應(yīng)用提供了機(jī)遇,同時(shí),以大數(shù)據(jù)開(kāi)發(fā)為基礎(chǔ)的一大批產(chǎn)業(yè)將形成新的經(jīng)濟(jì)增長(zhǎng)點(diǎn),推動(dòng)新經(jīng)濟(jì)的發(fā)展,實(shí)現(xiàn)動(dòng)能轉(zhuǎn)換。
大數(shù)據(jù)催生統(tǒng)計(jì)創(chuàng)新
普查和抽樣調(diào)查是傳統(tǒng)的兩大數(shù)據(jù)收集方法。普查不需要統(tǒng)計(jì)學(xué)方法進(jìn)行推斷估計(jì),因?yàn)橥ㄟ^(guò)普查,已經(jīng)取得了所有個(gè)體數(shù)據(jù)和總體的實(shí)際分布,這也是為什么人類(lèi)開(kāi)始懂得計(jì)數(shù)就開(kāi)始進(jìn)行普查。抽樣調(diào)查是利用抽樣理論解決如何科學(xué)設(shè)計(jì)樣本,取得樣本個(gè)體數(shù)據(jù),并科學(xué)地推斷總體分布及特征。無(wú)論是普查還是抽樣調(diào)查,其核心問(wèn)題之一是要取得準(zhǔn)確的“個(gè)體數(shù)據(jù)”。但在大數(shù)據(jù)時(shí)代,一切皆可量化,一切皆可記錄,如何利用更全面、更及時(shí)、更經(jīng)濟(jì)的網(wǎng)絡(luò)電子化數(shù)據(jù),以及通過(guò)對(duì)這些數(shù)據(jù)使用新的分析及挖掘技術(shù),產(chǎn)生新的見(jiàn)解和認(rèn)識(shí),是我們面臨的重大機(jī)遇。
大數(shù)據(jù)和統(tǒng)計(jì)思維與方法等有明顯的不同,主要表現(xiàn)在以下八個(gè)方面:
一是“問(wèn)題驅(qū)動(dòng)”與“數(shù)據(jù)驅(qū)動(dòng)”。收集數(shù)據(jù)是開(kāi)展統(tǒng)計(jì)分析的前提,傳統(tǒng)的普查或抽樣調(diào)查是先確定普查或調(diào)查目的,然后再根據(jù)目的相應(yīng)要求和經(jīng)費(fèi)確定普查或調(diào)查的方法和樣本量的大小。也就是說(shuō),傳統(tǒng)統(tǒng)計(jì)方法設(shè)計(jì)是針對(duì)研究問(wèn)題而收集數(shù)據(jù),提出假設(shè),再進(jìn)行統(tǒng)計(jì)檢驗(yàn)和推斷。這種用有限數(shù)據(jù)驗(yàn)證先驗(yàn)假定,通常是基于分布理論,以一定的概率為保證,其邏輯關(guān)系是“分布理論-概率保證-總體推斷”。而大數(shù)據(jù)強(qiáng)調(diào)的是全體數(shù)據(jù),總體特征一般不再需要根據(jù)分布理論進(jìn)行推斷。不僅如此,還可以根據(jù)全面數(shù)據(jù)和實(shí)際分布來(lái)判斷其中出現(xiàn)某類(lèi)情況的可能性有多大,其邏輯關(guān)系變成了“實(shí)際分布-總體特征-概率判斷”,也即概率不再是事先預(yù)設(shè),而是基于實(shí)際分布得出的判斷。在大數(shù)據(jù)時(shí)代,由于有足夠的數(shù)據(jù),足夠的變量,可以采用人工智能等來(lái)進(jìn)行數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn),廣泛開(kāi)展各種探索性研究,其結(jié)論與發(fā)現(xiàn)是通過(guò)數(shù)據(jù)分析獲得的,也就是數(shù)據(jù)驅(qū)動(dòng),用數(shù)據(jù)決策和用數(shù)據(jù)創(chuàng)新。
二是“我問(wèn)你答”與“我取你有”。統(tǒng)計(jì)報(bào)表、調(diào)查問(wèn)卷是目前全世界開(kāi)展普查、調(diào)查收集數(shù)據(jù)的主要載體。這種方式是通過(guò)結(jié)構(gòu)化的報(bào)表將被調(diào)查對(duì)象的行為轉(zhuǎn)化為可用的數(shù)據(jù),這種方式的根本特征“我問(wèn)你答”,需要被調(diào)查者高度配合,包括對(duì)問(wèn)題的正確理解和如實(shí)回答填報(bào),否則,數(shù)據(jù)質(zhì)量難以保證。但在“大數(shù)據(jù)”時(shí)代,數(shù)據(jù)來(lái)源于信息技術(shù)記錄下的原始數(shù)據(jù),這些數(shù)據(jù)的參與僅僅依賴于測(cè)量方法(如企業(yè)生產(chǎn)記錄、大量行政記錄、GPS定位測(cè)量、超市收銀管理系統(tǒng)、ETC電子收費(fèi)系統(tǒng)),充分利用電子記錄大數(shù)據(jù)為政府統(tǒng)計(jì)所用,采用“我取你有”的方式,取得更及時(shí)、真實(shí)的原始數(shù)據(jù),由專業(yè)統(tǒng)計(jì)人員根據(jù)統(tǒng)計(jì)制度計(jì)算統(tǒng)計(jì)指標(biāo)數(shù)據(jù),也減少了統(tǒng)計(jì)調(diào)查和報(bào)表整理的中間環(huán)節(jié),數(shù)據(jù)質(zhì)量將會(huì)大大提高。
三是“因果聯(lián)系”與“相關(guān)分析”。傳統(tǒng)統(tǒng)計(jì)主要通過(guò)建立模型探求變量之間的因果關(guān)系,并基于模型對(duì)因變量進(jìn)行預(yù)測(cè),即預(yù)先假定事物之間存在某種因果關(guān)系,然后在此假定的基礎(chǔ)上構(gòu)建模型并驗(yàn)證假定存在的因果關(guān)系。存在的問(wèn)題往往是,變量間的因果關(guān)系具有時(shí)效性,存在“此一時(shí),彼一時(shí)”的情況,是在特殊條件和前提假定下的關(guān)系,結(jié)論的時(shí)效性與適用性較為有限。而相關(guān)關(guān)系具有更加普遍和本質(zhì)的內(nèi)涵,有因果關(guān)系必有相關(guān)關(guān)系,有相關(guān)關(guān)系未必有因果關(guān)系。在大數(shù)據(jù)背景下,數(shù)據(jù)分析不再探求特定條件下確定性很強(qiáng)的因果關(guān)系,而是更加關(guān)注普遍意義的相關(guān)關(guān)系。從超大量數(shù)據(jù)中發(fā)現(xiàn)各種真實(shí)存在的相關(guān)關(guān)系,更加直觀、更貼近個(gè)體、更容易被理解和接受,可以發(fā)現(xiàn)事物發(fā)展?jié)撛诘囊?guī)律,具有一定的“智能性”,某種程度上超越了傳統(tǒng)統(tǒng)計(jì)研究的因果關(guān)系,因此,相關(guān)分析是大數(shù)據(jù)時(shí)代的重要工作。
四是“樣本抽選”與“總體描述”。以統(tǒng)計(jì)推斷為主要特征的現(xiàn)代統(tǒng)計(jì)學(xué)研究主要內(nèi)容是不斷改進(jìn)樣本抽樣方法和參數(shù)設(shè)計(jì),從而對(duì)總體的特征進(jìn)行描述。囿于數(shù)據(jù)收集以及客觀條件的限制,總是希望通過(guò)盡可能少的樣本來(lái)了解總體。在這種背景下,產(chǎn)生了各式各樣的抽樣調(diào)查技術(shù)和參數(shù)估計(jì)方法。在分層情況下,樣本的數(shù)量往往不能有效地減少。大數(shù)據(jù)時(shí)代,樣本就是被記錄的所有數(shù)據(jù),從這個(gè)意義上講,樣本就是總體。通過(guò)對(duì)所有與事物相關(guān)的數(shù)據(jù)進(jìn)行分析,既有利于了解總體,又有利于了解局部細(xì)微。總的來(lái)講,傳統(tǒng)的統(tǒng)計(jì)抽樣調(diào)查方法存在的不足可以在大數(shù)據(jù)時(shí)代得到改進(jìn)。大數(shù)定律告訴我們,隨著樣本數(shù)量的增加,樣本平均數(shù)越來(lái)越接近總體,而大數(shù)據(jù)已經(jīng)描述了總體信息。
五是“數(shù)據(jù)煙囪”與“數(shù)據(jù)平臺(tái)”。長(zhǎng)期以來(lái),我國(guó)政府統(tǒng)計(jì)是以部門(mén)為中心展開(kāi)的,相互隔離形成了行業(yè)垂直的信息化體系,在地方上形成了條塊分割的“信息孤島”,形成一個(gè)個(gè)“數(shù)據(jù)煙囪”,數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,數(shù)據(jù)指標(biāo)不規(guī)范,數(shù)據(jù)平臺(tái)重復(fù)建設(shè)。大數(shù)據(jù)特別是與之相關(guān)聯(lián)云計(jì)算,為信息整合提供了新的契機(jī),有助于建立政府信息共享數(shù)據(jù)平臺(tái),提高政府行為的透明度,有效提高政府的公信力,以大數(shù)據(jù)助推政府決策科學(xué)化。大數(shù)據(jù)的應(yīng)用將改變政府統(tǒng)計(jì)部門(mén)的工作模式,整合現(xiàn)有的分散于各職能部門(mén)中的“行政記錄”,完善多種信息來(lái)源的數(shù)據(jù)采集制度,實(shí)現(xiàn)工商、質(zhì)監(jiān)、勞動(dòng)、人社等部門(mén)的數(shù)據(jù)注冊(cè)、查詢、共享和交換,在一個(gè)數(shù)據(jù)平臺(tái)(包括標(biāo)準(zhǔn)、指標(biāo)、數(shù)據(jù)庫(kù)等),能夠揭示傳統(tǒng)技術(shù)方式難以展現(xiàn)的關(guān)聯(lián)關(guān)系,為有效處理復(fù)雜社會(huì)問(wèn)題提供新的手段,有助于建立現(xiàn)代化的政府統(tǒng)計(jì)調(diào)查體系,最大限度地發(fā)掘這些數(shù)據(jù)資源的價(jià)值,提高政府統(tǒng)計(jì)部門(mén)的生產(chǎn)力,建立“用數(shù)據(jù)說(shuō)話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新”的管理體制機(jī)制,提升政府治理能力。
六是“以小見(jiàn)大”與“以大見(jiàn)小”。統(tǒng)計(jì)學(xué)是關(guān)于數(shù)據(jù)的科學(xué),統(tǒng)計(jì)是研究結(jié)構(gòu)化“小數(shù)據(jù)”,其優(yōu)勢(shì)在于“以小見(jiàn)大”,通過(guò)設(shè)計(jì)抽取個(gè)體樣本數(shù)據(jù)進(jìn)而分析推斷總體特征。大數(shù)據(jù)的優(yōu)勢(shì)在于“以大見(jiàn)小”,通過(guò)對(duì)各種來(lái)源各種結(jié)構(gòu)數(shù)據(jù)(特別是各種電子網(wǎng)絡(luò)數(shù)據(jù))實(shí)時(shí)進(jìn)行整合、量化、關(guān)聯(lián)、識(shí)別等,發(fā)現(xiàn)其個(gè)體特征,進(jìn)而對(duì)總體進(jìn)行任意細(xì)分的描述。
七是“記錄歷史”與“預(yù)測(cè)未來(lái)”。德國(guó)統(tǒng)計(jì)學(xué)家斯勒茲曾說(shuō)過(guò):“統(tǒng)計(jì)是動(dòng)態(tài)的歷史,歷史是靜態(tài)的統(tǒng)計(jì)。”這是在300多年前說(shuō)的,也揭示了統(tǒng)計(jì)的基本功能,那就是記錄歷史。這當(dāng)然是非常重要的,也是預(yù)測(cè)的基礎(chǔ)。統(tǒng)計(jì)預(yù)測(cè)就是利用歷史數(shù)據(jù)建模、外推進(jìn)行預(yù)測(cè),這里包含了一個(gè)假定的前提,就是未來(lái)的發(fā)展趨勢(shì)是按照歷史數(shù)據(jù)呈現(xiàn)的規(guī)律變化的,或者在對(duì)未來(lái)可能的選擇,改變參數(shù)進(jìn)行人為的調(diào)整。這種預(yù)測(cè)方法和思路,對(duì)于今天快速變化發(fā)展的社會(huì)經(jīng)濟(jì)狀況,特別是很多不可預(yù)測(cè)的突發(fā)事件的影響,顯然是不適應(yīng)的。技術(shù)與創(chuàng)新成為時(shí)代的主題,新產(chǎn)業(yè)、新業(yè)態(tài)、新模式等新經(jīng)濟(jì)層出不窮,未來(lái)的經(jīng)濟(jì)發(fā)展不能完全用歷史的模式來(lái)描述,這也要求有新的預(yù)測(cè)方法。大數(shù)據(jù)時(shí)代,各種傳感器和網(wǎng)絡(luò)設(shè)施遍布社會(huì)的各個(gè)角落,而這些數(shù)據(jù)是實(shí)時(shí)的、動(dòng)態(tài)的,具有“零延遲”、即時(shí)性等特點(diǎn),采用智能計(jì)算、實(shí)時(shí)計(jì)算等方法,極大地提高了數(shù)據(jù)的時(shí)效性和預(yù)測(cè)質(zhì)量。特別是,隨著電子商務(wù)、互聯(lián)網(wǎng)金融、社交網(wǎng)絡(luò)等的飛速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們生產(chǎn)生活不可或缺的重要場(chǎng)所。人們?cè)诨ヂ?lián)網(wǎng)上購(gòu)物、交流、搜索、瀏覽的各種行為所產(chǎn)生的數(shù)據(jù)量越來(lái)越大。這些數(shù)據(jù)記錄人們搜索內(nèi)容、搜索頻率以及位置等信息,反映了人們社會(huì)經(jīng)濟(jì)活動(dòng)、心理活動(dòng)、情感取向、個(gè)體需求、興趣關(guān)注等,未來(lái)的變化趨勢(shì),體現(xiàn)在今天人們的行為中。
八是“歸納推斷”與“演繹推理”。統(tǒng)計(jì)研究的任務(wù)就是為了發(fā)現(xiàn)新的知識(shí),歸納法則是發(fā)現(xiàn)新知識(shí)的基本方法。因此,歸納推斷法成為最主要的統(tǒng)計(jì)研究方法,使得我們能夠從足夠多的個(gè)體信息中歸納出關(guān)于總體的特征。對(duì)于大數(shù)據(jù),依然要從中去發(fā)現(xiàn)新的知識(shí),依然要通過(guò)具體的個(gè)體信息去歸納出一般的總體特征,因此歸納法依然是大數(shù)據(jù)分析的主要方法。大數(shù)據(jù)是一個(gè)信息寶庫(kù),僅僅重視一般特征的歸納與概括是不夠的,還需要分析研究子類(lèi)信息乃至個(gè)體信息,以及某些特殊的、異常的信息——或許它(們)代表著一種新生事物或未來(lái)的發(fā)展方向,還需要通過(guò)已掌握的分布特征和相關(guān)知識(shí)與經(jīng)驗(yàn)去推理分析其他更多、更具體的規(guī)律,去發(fā)現(xiàn)更深層次的關(guān)聯(lián)關(guān)系,去對(duì)某些結(jié)論做出判斷,這就需要運(yùn)用演繹推理法。演繹法可以充分利用已有的知識(shí)去認(rèn)識(shí)更具體、細(xì)小的特征,形成更多有用的結(jié)論。只要?dú)w納法與演繹法結(jié)合得好,就既可以從大數(shù)據(jù)的偶然性中發(fā)現(xiàn)必然性,又可以利用全面數(shù)據(jù)的必然性去觀察偶然性、認(rèn)識(shí)偶然性、甚至利用偶然性,從而提高駕馭事物發(fā)展的能力。
新的起點(diǎn)
用數(shù)據(jù)說(shuō)話,已經(jīng)成為現(xiàn)代社會(huì)的基本理念。中國(guó)古代的管仲說(shuō)過(guò):“不明于計(jì)數(shù)而欲舉大事,猶無(wú)舟楫而欲經(jīng)于水險(xiǎn)也?!敝?jīng)濟(jì)學(xué)家馬寅初曾說(shuō):“學(xué)者們不能離開(kāi)統(tǒng)計(jì)而究學(xué),政治家不能離開(kāi)統(tǒng)計(jì)而施政,事業(yè)家不能離開(kāi)統(tǒng)計(jì)而執(zhí)業(yè)?!泵绹?guó)管理學(xué)家、統(tǒng)計(jì)學(xué)家戴明說(shuō):“除了上帝,任何人都必須用數(shù)據(jù)來(lái)說(shuō)話?!庇《冉y(tǒng)計(jì)學(xué)家C.R.RAO表示:“理性來(lái)講,人們的行為過(guò)程就是統(tǒng)計(jì)。”這些都說(shuō)明了統(tǒng)計(jì)的重要性。
大數(shù)據(jù)時(shí)代為統(tǒng)計(jì)提供了大舞臺(tái),統(tǒng)計(jì)將為大數(shù)據(jù)添上翅膀。大數(shù)據(jù)時(shí)代的來(lái)臨,帶來(lái)新的機(jī)遇。我們要真正站在同一起跑線上了,以開(kāi)放的態(tài)度、創(chuàng)新的勇氣、不懈的努力抓住歷史賦予的機(jī)會(huì)。古代結(jié)繩計(jì)數(shù)能夠記錄下的數(shù)據(jù)與今天海量存儲(chǔ)器記錄下的數(shù)據(jù)本質(zhì)上是一樣的,不同的是,古代人知道他們養(yǎng)了多少牛羊、知道每人分多少,但記錄不下來(lái);而今天,我們可以記錄一切,但傳統(tǒng)處理分析能力還不能完全知道這些海量數(shù)據(jù)中蘊(yùn)含的規(guī)律和見(jiàn)解,這是統(tǒng)計(jì)的新戰(zhàn)場(chǎng),也是統(tǒng)計(jì)人要努力探尋的新領(lǐng)域。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03