
大數(shù)據(jù)分析五步法:以新經(jīng)濟(jì)指數(shù)為例
當(dāng)下,大數(shù)據(jù)已經(jīng)上升到國(guó)家戰(zhàn)略。2016年3月17日出爐的《國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展十三五個(gè)五年計(jì)劃規(guī)劃綱要》提出,要“實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,把大數(shù)據(jù)作為基礎(chǔ)性戰(zhàn)略資源,全面實(shí)施促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng),加快推動(dòng)數(shù)據(jù)資源共享開放和開發(fā)應(yīng)用,助力產(chǎn)業(yè)轉(zhuǎn)型升級(jí)和社會(huì)治理創(chuàng)新”。從“推動(dòng)數(shù)據(jù)資源共享開放和開發(fā)應(yīng)用”,到實(shí)現(xiàn)“助力產(chǎn)業(yè)轉(zhuǎn)型升級(jí)和社會(huì)治理創(chuàng)新”的美好愿景,離不開可靠穩(wěn)健的大數(shù)據(jù)分析。
但是,對(duì)于什么是大數(shù)據(jù)分析、誰(shuí)該使用大數(shù)據(jù)分析等關(guān)鍵問題,目前一些流行看法值得商榷。有業(yè)界人士提出,“每個(gè)從業(yè)人員都該考慮大數(shù)據(jù)分析”。更有看法認(rèn)為“大數(shù)據(jù)分析主要依靠機(jī)器學(xué)習(xí)和大規(guī)模計(jì)算”,其重點(diǎn)在大數(shù)據(jù)采集存儲(chǔ)和基本架構(gòu)等方面的技術(shù)、數(shù)據(jù)挖掘算法、可視化等方面,而很少探討如何根據(jù)數(shù)據(jù)建立符合中國(guó)現(xiàn)實(shí)的模型和產(chǎn)品、如何檢驗(yàn)大數(shù)據(jù)分析效果等問題。
本文以財(cái)智BBD新經(jīng)濟(jì)指數(shù)的構(gòu)造過程為例,提出大數(shù)據(jù)分析的五步法,即問題識(shí)別、數(shù)據(jù)可行性論證、數(shù)據(jù)準(zhǔn)備、建立模型、評(píng)估結(jié)果。希望本文可以拋磚引玉,引發(fā)對(duì)大數(shù)據(jù)分析的適用性、可靠穩(wěn)健的大數(shù)據(jù)分析標(biāo)準(zhǔn)、如何健康發(fā)展大數(shù)據(jù)產(chǎn)業(yè)等問題更深入的探討。
(一) 問題識(shí)別
大數(shù)據(jù)分析的第一步是要清晰界定需要回答的問題。對(duì)問題的界定有兩個(gè)標(biāo)準(zhǔn),一是清晰、二是符合現(xiàn)實(shí)。構(gòu)造新經(jīng)濟(jì)指數(shù)的背景,是中國(guó)已經(jīng)進(jìn)入資本回報(bào)率下降、勞動(dòng)力萎縮、人口老齡化、外需疲軟的經(jīng)濟(jì)發(fā)展“新常態(tài)”。由于現(xiàn)有不少統(tǒng)計(jì)資料都刻畫了傳統(tǒng)行業(yè)的下滑與困境,僅從追蹤傳統(tǒng)行業(yè)的變遷的角度,就難以對(duì)中國(guó)經(jīng)濟(jì)的未來走勢(shì)保持樂觀。
但是中國(guó)經(jīng)濟(jì)發(fā)展并非沒有亮色。雖然勞動(dòng)力人口出現(xiàn)萎縮,但中國(guó)的人力資本積累仍然在上升。根據(jù)筆者參與的教育部人力資本測(cè)算結(jié)果,過去30年我國(guó)人力資本的平均年增速為5.53%,而未來20年預(yù)計(jì)平均年增速不會(huì)低于這個(gè)速度。根據(jù)人社部資料,2015年就業(yè)形勢(shì)總體穩(wěn)定,年末城鎮(zhèn)登記失業(yè)率為4.05%。人力資本的快速積累,為創(chuàng)新型經(jīng)濟(jì)的發(fā)展提供了人力基礎(chǔ)。就業(yè)形勢(shì)沒有出現(xiàn)大的波動(dòng)也表明,傳統(tǒng)經(jīng)濟(jì)的困境催生了新經(jīng)濟(jì)的出現(xiàn)和成長(zhǎng)、減輕了經(jīng)濟(jì)轉(zhuǎn)型帶來的震蕩。
對(duì)于正在成長(zhǎng)的新經(jīng)濟(jì),公開數(shù)據(jù)只能提供零星的度量。如果統(tǒng)計(jì)資料只記錄了傳統(tǒng)經(jīng)濟(jì)的下滑卻不能反映代表中國(guó)未來經(jīng)濟(jì)增長(zhǎng)點(diǎn)的新經(jīng)濟(jì)的變化,必然會(huì)對(duì)中國(guó)未來的經(jīng)濟(jì)走向,給出錯(cuò)誤的畫面。因此,我們的目標(biāo)是填補(bǔ)上述空白,嘗試來刻畫、追蹤新經(jīng)濟(jì)在整個(gè)經(jīng)濟(jì)中的發(fā)展和變遷。
我們雖然無法直接度量新經(jīng)濟(jì)GDP,卻可以通過大數(shù)據(jù)來觀察經(jīng)濟(jì)生活中各生產(chǎn)要素的變化。這里界定的問題是“中國(guó)經(jīng)濟(jì)每一元錢的產(chǎn)出中,新經(jīng)濟(jì)占的比重是多少?”在沒有官方統(tǒng)計(jì)數(shù)據(jù)的情況下,可以通過大數(shù)據(jù)手段來度量新經(jīng)濟(jì)行業(yè)中技術(shù)、勞動(dòng)力和資本等生產(chǎn)要素占全行業(yè)技術(shù)、勞動(dòng)力和資本等生產(chǎn)要素的比重。這使得度量新經(jīng)濟(jì)的相對(duì)重要性成為可能。
由于尚無對(duì)新經(jīng)濟(jì)范疇的界定標(biāo)準(zhǔn),首先需要明確何為新經(jīng)濟(jì)。根據(jù)對(duì)于中國(guó)長(zhǎng)期的觀察和對(duì)政策的理解,我們提出,新經(jīng)濟(jì)是更符合中國(guó)未來資源稟賦結(jié)構(gòu)的經(jīng)濟(jì)模式,具有以下三個(gè)特征:第一,高人力資本投入、高科技投入、輕資產(chǎn);第二,可持續(xù)的較快增長(zhǎng);第三,符合產(chǎn)業(yè)發(fā)展方向。
從新經(jīng)濟(jì)指數(shù)的例子可以看到,識(shí)別問題環(huán)節(jié)需要考慮到數(shù)據(jù)的可行性,更需要對(duì)中國(guó)相應(yīng)國(guó)情有較清晰的認(rèn)知。
(二) 數(shù)據(jù)可行性論證
論證現(xiàn)有數(shù)據(jù)是否足夠豐富、準(zhǔn)確,以致可以為問題提供答案,是大數(shù)據(jù)分析的第二步,項(xiàng)目是否可行取決于這步的結(jié)論。大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的生成方式有本質(zhì)不同。傳統(tǒng)數(shù)據(jù)往往是在識(shí)別問題、根據(jù)問題設(shè)計(jì)問卷、之后展開調(diào)查獲得的數(shù)據(jù),而大數(shù)據(jù)卻是企業(yè)或者個(gè)體各類活動(dòng)產(chǎn)生的附屬產(chǎn)品。作為附屬產(chǎn)品,大數(shù)據(jù)往往不是為了特定數(shù)據(jù)項(xiàng)目生成,也存在較高噪音。這就要求數(shù)據(jù)可行性論證過程需要仔細(xì)推敲,現(xiàn)有數(shù)據(jù)得出來的結(jié)論是否足夠可靠。由于大數(shù)據(jù)分析技術(shù)本質(zhì)屬于數(shù)據(jù)挖掘法,過度擬合問題往往是大數(shù)據(jù)分析的難點(diǎn)。過度擬合問題最主要的一個(gè)癥狀是難以外推,即在一個(gè)地區(qū)一個(gè)時(shí)期可以做出很好預(yù)測(cè)的模型,在另一個(gè)地區(qū)另一個(gè)時(shí)期卻表現(xiàn)很糟。
因此,在數(shù)據(jù)可行性論證主要涉及三個(gè)環(huán)節(jié)。第一,厘清項(xiàng)目需要的大數(shù)據(jù)、小數(shù)據(jù)和專業(yè)知識(shí);第二,完成從抽象概念到具體指標(biāo)的落實(shí);第三,考察數(shù)據(jù)的代表性。
對(duì)于新經(jīng)濟(jì)指數(shù)而言,數(shù)據(jù)的可行性論證要解決一下問題:第一,如果細(xì)化抽象標(biāo)準(zhǔn)?第二,可否利用大數(shù)據(jù)識(shí)別出屬于新經(jīng)濟(jì)的企業(yè)?第三,數(shù)據(jù)是否可以支撐對(duì)全國(guó)新經(jīng)濟(jì)狀況的度量?
1. 大數(shù)據(jù)、小數(shù)據(jù)和專業(yè)判斷
構(gòu)造新經(jīng)濟(jì)指數(shù)需要大數(shù)據(jù)、小數(shù)據(jù)和中國(guó)經(jīng)濟(jì)的認(rèn)識(shí)和判斷,這三者缺一不可。例如,要確定“高人力資本投入、高科技投入、輕資產(chǎn)”的行業(yè),我們要用到2010年中國(guó)各行業(yè)投入產(chǎn)出表、第六次人口普查和2008年經(jīng)濟(jì)普查數(shù)據(jù);確定可持續(xù)的較快增長(zhǎng)的行業(yè),需要用到工業(yè)普查數(shù)據(jù)和經(jīng)濟(jì)普查數(shù)據(jù);確認(rèn)是否符合產(chǎn)業(yè)發(fā)展方向,則需要從歷年產(chǎn)業(yè)政策計(jì)劃中查找相關(guān)信息,如2012年的《國(guó)務(wù)院關(guān)于加快培育和發(fā)展戰(zhàn)略性新興產(chǎn)業(yè)的決定》和2015年的《中國(guó)制造2025》。再如,《2014美國(guó)新經(jīng)濟(jì)指數(shù)》(2014 State New Economy Index)報(bào)告指標(biāo)體系、硅谷指數(shù)(SiliconValley Index)等國(guó)際知名新經(jīng)濟(jì)和創(chuàng)新指數(shù)體系也為創(chuàng)建新經(jīng)濟(jì)指數(shù)提供了很好的參考。上述數(shù)據(jù)和資料都不屬于大數(shù)據(jù)范疇,卻是采用大數(shù)據(jù)分析結(jié)果的可信度的根基。
2. 從抽象概念到具體指標(biāo)
論證數(shù)據(jù)可行性的重點(diǎn)是將抽象概念進(jìn)一步細(xì)化到可以采用的數(shù)據(jù)條目,這往往需要依靠專業(yè)判斷和參考國(guó)內(nèi)外通行標(biāo)準(zhǔn)。首先要梳理哪些抽象概念需要被細(xì)化,然后考察獲取細(xì)化信息是否可行。每一個(gè)項(xiàng)目在執(zhí)行過程中都有其難點(diǎn),因此需要在數(shù)據(jù)可行性論證環(huán)節(jié)更加明確對(duì)難點(diǎn)的處理策略。對(duì)新經(jīng)濟(jì)指數(shù)而言,需要細(xì)化的抽象概念有“高”、“可持續(xù)”、“較快”等標(biāo)準(zhǔn),執(zhí)行難點(diǎn)是如何識(shí)別新經(jīng)濟(jì)企業(yè)。
抽象標(biāo)準(zhǔn)的細(xì)化需要專業(yè)知識(shí)和對(duì)國(guó)內(nèi)外相關(guān)行情的認(rèn)知。對(duì)于度量“高”、“可持續(xù)”、“較快”,新經(jīng)濟(jì)指數(shù)選擇勞動(dòng)者報(bào)酬與營(yíng)業(yè)盈余之和占增加值之比超過70%、勞動(dòng)力平均教育年限超過12年、研發(fā)經(jīng)費(fèi)支出占主營(yíng)業(yè)務(wù)收入的比重名列前茅、固定資產(chǎn)占總資產(chǎn)30%以下的行業(yè);持續(xù)五年增速在所有四位數(shù)代碼行業(yè)中排名前10%的行業(yè),等等。
識(shí)別新經(jīng)濟(jì)企業(yè)是數(shù)據(jù)論證的難點(diǎn)。雖然大數(shù)據(jù)挖掘技術(shù)可以獲取企業(yè)名稱等信息,但不少企業(yè)沒有四位數(shù)行業(yè)代碼,也就無法直接識(shí)別一家企業(yè)是否屬于新經(jīng)濟(jì)行業(yè)。我們的處理策略是根據(jù)既有企業(yè)名稱信息又有業(yè)務(wù)經(jīng)營(yíng)范圍信息的企業(yè)樣本,從《統(tǒng)計(jì)用產(chǎn)品分類目錄》找到相關(guān)代碼,再?gòu)摹秶?guó)民經(jīng)濟(jì)行業(yè)分類》中找到行業(yè)代碼。在此基礎(chǔ)上建立模型,利用企業(yè)名稱的關(guān)鍵詞來預(yù)測(cè)其他企業(yè)所屬行業(yè)。
3. 總體還是代表性樣本
大數(shù)據(jù)的代表性是論證數(shù)據(jù)可行性的必要步驟,在這部分需要明確,使用的數(shù)據(jù)是總體還是子樣本,如果是子樣本,數(shù)據(jù)的代表性如何。需要注意的是,一個(gè)項(xiàng)目采用的大數(shù)據(jù)是否是數(shù)據(jù)總體,很多時(shí)候取決于要解決的問題。例如,谷歌擁有所有用戶瀏覽的歷史記錄,如果用該數(shù)據(jù)分析谷歌用戶瀏覽習(xí)慣,那么該數(shù)據(jù)是總體;但如果要預(yù)測(cè)美國(guó)流感趨勢(shì),那么總體就是所有美國(guó)人,而不是所有使用谷歌搜索流感信息的用戶。
在新經(jīng)濟(jì)指數(shù)構(gòu)造過程中,由于采用某些地區(qū)的詳細(xì)數(shù)據(jù)外推到全國(guó)其他地區(qū)容易遇到過度擬合問題,因此,數(shù)據(jù)的采集目標(biāo)是分項(xiàng)指標(biāo)在全國(guó)的總體。我們的十一項(xiàng)分項(xiàng)指標(biāo)中,有六項(xiàng)是相應(yīng)指標(biāo)在全國(guó)的總體;另外五項(xiàng)雖然不是總體,但也都達(dá)到總體的至少70%。一方面,未來數(shù)據(jù)采集技術(shù)的提升可以將另外五項(xiàng)指標(biāo)的收集也達(dá)到總體的程度。另外一方面,我們的模型采用的是相對(duì)指標(biāo)而不是絕對(duì)值,因此,即便一些指標(biāo)尚不是總體,我們也可以根據(jù)大數(shù)定理,相信在數(shù)據(jù)量足夠大的情況下,我們的數(shù)據(jù)計(jì)算出比例可以無限趨近于中國(guó)的真實(shí)狀況。
大數(shù)據(jù)分析中,識(shí)別問題和數(shù)據(jù)可行性論證往往不是一步完成的。比如,如果將問題識(shí)別為如何度量新經(jīng)濟(jì)GDP,就無法通過數(shù)據(jù)可行性論證。在考慮數(shù)據(jù)可得性的基礎(chǔ)上重新定義問題才可以增加對(duì)項(xiàng)目可行性的信心。在實(shí)際操作中,當(dāng)?shù)谝徊桨l(fā)生變化時(shí),第二步數(shù)據(jù)可行性的論證重點(diǎn)也需調(diào)整。因此需要反復(fù)推敲這兩步,才能找到進(jìn)入下一步的最佳契合點(diǎn)。
(三) 數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備環(huán)節(jié)需要梳理分析所需每個(gè)條目的數(shù)據(jù),為下一步建立模型做好從充分預(yù)備。這種準(zhǔn)備可以分為數(shù)據(jù)的采集準(zhǔn)備和清洗整理準(zhǔn)備兩步。
1. 數(shù)據(jù)的采集準(zhǔn)備
為大數(shù)據(jù)分析做數(shù)據(jù)采集準(zhǔn)備時(shí),往往不能回避下列問題:項(xiàng)目的數(shù)據(jù)預(yù)算有多少?配備的人員設(shè)備是否足夠?項(xiàng)目預(yù)期數(shù)據(jù)采集的完成期限?項(xiàng)目打算用什么方法收集數(shù)據(jù)?哪些數(shù)據(jù)是可以通過自身努力來獲取,哪些數(shù)據(jù)需要通過購(gòu)買獲得?哪些數(shù)據(jù)獲取中會(huì)存在時(shí)間和經(jīng)費(fèi)上的不確定性?如果一些重要問題的答案是否定的或者含糊的,就可能需要重新回到數(shù)據(jù)可行性論證環(huán)節(jié)。這一點(diǎn),對(duì)于希望用大數(shù)據(jù)分析做產(chǎn)品的小微企業(yè)、新創(chuàng)企業(yè)尤為重要。
新經(jīng)濟(jì)指數(shù)的數(shù)據(jù)收集主要依托BBD的大數(shù)據(jù)收集和整理能力。為計(jì)算新經(jīng)濟(jì)指數(shù),歷經(jīng)數(shù)月的預(yù)備,我們一共收集了5200余萬條招聘信息、270萬條新企業(yè)登記信息、376萬條招標(biāo)/投標(biāo)數(shù)據(jù)、2.8萬條風(fēng)險(xiǎn)投資數(shù)據(jù)、5000余條三板上市數(shù)據(jù)、580萬條專利登記數(shù)據(jù)、30萬條專利轉(zhuǎn)移數(shù)據(jù),另外還包括用以計(jì)算城市人口流動(dòng)信息的實(shí)時(shí)鐵路出票量數(shù)據(jù)、機(jī)場(chǎng)航班流量數(shù)據(jù)。由此產(chǎn)生的數(shù)據(jù)總量合計(jì)超過370G。
2. 數(shù)據(jù)的清洗整理準(zhǔn)備
雖然數(shù)據(jù)清理包含不少常規(guī)處理,但是高質(zhì)量的數(shù)據(jù)清理工作需要數(shù)據(jù)準(zhǔn)備團(tuán)隊(duì)時(shí)刻對(duì)項(xiàng)目目標(biāo)了然于胸。例如,我們希望根據(jù)網(wǎng)上的招聘信息計(jì)算出全國(guó)新增加的招聘需求,但簡(jiǎn)單將所有招聘信息中的需求人數(shù)相加并不能滿足我們的要求。這是因?yàn)樾枰衅钙髽I(yè)常常會(huì)多次發(fā)布同樣一條信息,因此不去掉重復(fù)信息就會(huì)夸大人才需求。但是,有些企業(yè)隔段時(shí)間發(fā)布的相同的招聘信息確實(shí)是新的招聘需求,如果去掉所有的重復(fù)信息又會(huì)低估用工需求。這就要求在數(shù)據(jù)清理階段,對(duì)于去重的不同頻率作出嘗試。在新經(jīng)濟(jì)指數(shù)的制定中,我們嘗試了按月去重(即假定下一個(gè)月發(fā)布的同樣的招聘信息算作新招聘)和按年去重(即假定下一年發(fā)布同樣的招聘信息才算作新招聘信息)這樣不同的標(biāo)準(zhǔn),來考察對(duì)新經(jīng)濟(jì)指標(biāo)穩(wěn)健性的影響。我們發(fā)現(xiàn)由于使用比例指標(biāo),按月或者按年去重差異不大,因此最終采取按月去重的方式來整理招聘信息。
(四) 建立模型
大數(shù)據(jù)分析項(xiàng)目需要建立的模型可以分為兩類。對(duì)于這兩類模型,團(tuán)隊(duì)都需要在設(shè)立模型、論證模型的可靠性方面下功夫。
1. 專業(yè)領(lǐng)域模型
大數(shù)據(jù)產(chǎn)品對(duì)應(yīng)的項(xiàng)目可能有對(duì)應(yīng)的專業(yè)領(lǐng)域模型,例如信用風(fēng)險(xiǎn)管理需要用到的違約概率(PD) 模型,違約損失率模型(LGD)模型;市場(chǎng)風(fēng)險(xiǎn)管理要用到的VaR,sVaR模型等。數(shù)據(jù)團(tuán)隊(duì)需要明確為何選擇某個(gè)專業(yè)領(lǐng)域的模型。
構(gòu)造新經(jīng)濟(jì)指數(shù)時(shí),我們根據(jù)經(jīng)濟(jì)理論建立計(jì)算指數(shù)的模型。我們采用科布道格拉斯生產(chǎn)方程的形式,那么新經(jīng)濟(jì)占總經(jīng)濟(jì)產(chǎn)出的份額即:
其中K, H,A,L分別代表物質(zhì)資本、人力資本、技術(shù)水平和勞動(dòng)力。w為各個(gè)要素投入的產(chǎn)出彈性,θ則代表各生產(chǎn)要素投入新經(jīng)濟(jì)的份額。這一模型為后面采用各比例計(jì)算新經(jīng)濟(jì)指數(shù)提供了模型框架。
2. 數(shù)據(jù)分析模型
這類模型包含分析結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)挖掘算法模型;處理非結(jié)構(gòu)化數(shù)據(jù)的語(yǔ)義引擎;可視化策略等。流行觀點(diǎn)中的大數(shù)據(jù)分析主要集中在對(duì)第二類模型的討論上,因此本文從簡(jiǎn)。
構(gòu)造新經(jīng)濟(jì)指數(shù)過程中,這類模型主要用于識(shí)別新經(jīng)濟(jì)企業(yè)。將所有企業(yè)分為新經(jīng)濟(jì)企業(yè)或者非新經(jīng)濟(jì)企業(yè)的任務(wù),首先要運(yùn)用270萬家新企業(yè)作為訓(xùn)練數(shù)據(jù)來建立“企業(yè)名稱 -- 行業(yè)短語(yǔ) -- 行業(yè)識(shí)別”模型。接著對(duì)所有企業(yè)的名稱進(jìn)行分詞,應(yīng)用上面得到模型計(jì)算每個(gè)企業(yè)的行業(yè)概率。這里采用的主要是多元logit回歸模型。
建立模型時(shí)既需要強(qiáng)大運(yùn)算能力,也需要專家的主觀判斷。例如,新經(jīng)濟(jì)指數(shù)中,各要素投入新經(jīng)濟(jì)的份額可以利用大數(shù)據(jù)收集得到,但產(chǎn)出彈性卻因無法觀測(cè),需要一定的事先判斷。例如,2014年中國(guó)第三產(chǎn)業(yè)的勞動(dòng)者報(bào)酬占增加值比重約為47.2%,考慮到新經(jīng)濟(jì)行業(yè)是“以高質(zhì)量勞動(dòng)力為主要要素投入”的行業(yè),我們將勞動(dòng)者投入彈性定為40%。又如,確定哪個(gè)短語(yǔ)—行業(yè)識(shí)別模型可靠時(shí),新經(jīng)濟(jì)指數(shù)要求識(shí)別程序行業(yè)判斷準(zhǔn)確度達(dá)到95%左右。由于模型的建立和計(jì)算離不開專家的主觀判斷,為保證項(xiàng)目質(zhì)量,模型團(tuán)隊(duì)報(bào)告結(jié)果時(shí)應(yīng)明確哪些信息是由算法決定的、哪些是由主觀判斷完成的。
(五) 評(píng)估結(jié)果
評(píng)估結(jié)果階段是要評(píng)估上述步驟得到的結(jié)果是否足夠嚴(yán)謹(jǐn)可靠,并確保數(shù)據(jù)分析結(jié)果能夠有利于決策。評(píng)估結(jié)果包括定量評(píng)估和定性評(píng)估兩部分。
1. 定量評(píng)估
定量評(píng)估是需要關(guān)注主觀標(biāo)準(zhǔn)的可靠性。數(shù)據(jù)挖掘分析方法在計(jì)算上雖然依靠技術(shù),但不少關(guān)鍵節(jié)點(diǎn)依靠主觀標(biāo)準(zhǔn)。例如,決策樹在什么時(shí)候停、做聚類分析時(shí)事先要定幾類;訓(xùn)練樣本和檢驗(yàn)樣本的大小關(guān)系等。對(duì)涉及主觀標(biāo)準(zhǔn)的各項(xiàng)指標(biāo),定量評(píng)估需要做穩(wěn)健性檢驗(yàn)。例如,對(duì)于新經(jīng)濟(jì)指數(shù)而言,勞動(dòng)、資本和技術(shù)的產(chǎn)出彈性的設(shè)定主要根據(jù)專家判斷,因此在構(gòu)造過程中,我們通過調(diào)整彈性值的方法來考察新經(jīng)濟(jì)指數(shù)的穩(wěn)健性。
2. 定性評(píng)估
定性評(píng)估的重點(diǎn)是考察大數(shù)據(jù)分析的結(jié)果是否合理、方案是否可行。例如,新經(jīng)濟(jì)指數(shù)是否比較準(zhǔn)確地刻畫了中國(guó)新經(jīng)濟(jì)的比重的問題,就是對(duì)結(jié)果的定性評(píng)估要求。這需要政府、企業(yè)、學(xué)界各方在對(duì)新經(jīng)濟(jì)指數(shù)有一定了解之后才能確認(rèn)。因此新經(jīng)濟(jì)指數(shù)采用的策略是先試運(yùn)行一段時(shí)間,檢查各種參數(shù)是否合理、計(jì)算是否準(zhǔn)確到位,再正式發(fā)布。
在評(píng)估其他采用大數(shù)據(jù)分析的結(jié)果時(shí),由于定性評(píng)估往往需要一段時(shí)間之后才能完成,因此將大數(shù)據(jù)分析結(jié)果用于現(xiàn)實(shí)時(shí),需要采取審慎步驟。例如企業(yè)希望依據(jù)大數(shù)據(jù)結(jié)論對(duì)生產(chǎn)策略做出調(diào)整,可以考慮漸進(jìn)式方法從傳統(tǒng)生產(chǎn)模式逐漸調(diào)整到大數(shù)據(jù)產(chǎn)品建議的模式,以減少模型失誤帶來的損失。
結(jié)論
我國(guó)將實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,這對(duì)于大數(shù)據(jù)產(chǎn)業(yè)和對(duì)中國(guó)經(jīng)濟(jì)可持續(xù)增長(zhǎng),都是振奮人心的好消息。但是,由于大數(shù)據(jù)往往是一些經(jīng)濟(jì)活動(dòng)的附帶產(chǎn)品,大數(shù)據(jù)分析產(chǎn)品是否可靠需要冷靜的頭腦和充分的論證。在大數(shù)據(jù)產(chǎn)業(yè)興起的時(shí)候,要防止過于迷信大數(shù)據(jù)和大數(shù)據(jù)相關(guān)技術(shù),卻忽視數(shù)據(jù)分析、忽略中國(guó)國(guó)情的傾向。本文以新經(jīng)濟(jì)指數(shù)為例,有如下主要觀察。
第一,大數(shù)據(jù)分析不只是機(jī)器學(xué)習(xí)和大規(guī)模運(yùn)算,需要涉及問題識(shí)別、數(shù)據(jù)可行性論證、數(shù)據(jù)準(zhǔn)備、建立模型和評(píng)估結(jié)果五步。這個(gè)過程往往不是一步到位、需要在某些環(huán)節(jié)反復(fù)進(jìn)行,才能最終獲得相對(duì)穩(wěn)定的分析結(jié)果。
第二,大數(shù)據(jù)分析并非適用于每個(gè)項(xiàng)目,只有通過了數(shù)據(jù)可行性論證的項(xiàng)目,才可考慮大數(shù)據(jù)分析。
第三,高質(zhì)量的大數(shù)據(jù)分析,需要有足夠的預(yù)算來涵蓋獲取大數(shù)據(jù)獲得、配備分析數(shù)據(jù)的人員和設(shè)備的相關(guān)費(fèi)用。微小企業(yè)、創(chuàng)業(yè)企業(yè)在考慮大數(shù)據(jù)分析時(shí)需從費(fèi)用角度對(duì)項(xiàng)目可行性作更多論證。
第四,大數(shù)據(jù)分析本身離不開小數(shù)據(jù)和專業(yè)判斷。高質(zhì)量的大數(shù)據(jù)分析需要既懂技術(shù)、又對(duì)相應(yīng)領(lǐng)域的問題有深刻認(rèn)知的跨界團(tuán)隊(duì)的深度合作。
最后,對(duì)于大數(shù)據(jù)分析的結(jié)果,還需要交由決策相關(guān)人以及各方專家評(píng)估,給予一定的時(shí)間來確認(rèn)大數(shù)據(jù)分析有利于最終決策。
總結(jié)以上各點(diǎn)可以看到,在發(fā)展大數(shù)據(jù)產(chǎn)業(yè)時(shí),不僅需要關(guān)注采集存儲(chǔ)、基本架構(gòu)、數(shù)據(jù)挖掘算法、可視化等方面的技術(shù),也需要對(duì)嚴(yán)謹(jǐn)可靠的大數(shù)據(jù)分析加大投入,促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展,最終實(shí)現(xiàn)助力產(chǎn)業(yè)轉(zhuǎn)型升級(jí)和社會(huì)治理創(chuàng)新的愿景。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10