99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀大數據分析五步法:以新經濟指數為例
大數據分析五步法:以新經濟指數為例
2016-04-14
收藏

大數據分析五步法:以新經濟指數為例

當下,大數據已經上升到國家戰(zhàn)略。2016年3月17日出爐的《國民經濟和社會發(fā)展十三五個五年計劃規(guī)劃綱要》提出,要“實施國家大數據戰(zhàn)略,把大數據作為基礎性戰(zhàn)略資源,全面實施促進大數據發(fā)展行動,加快推動數據資源共享開放和開發(fā)應用,助力產業(yè)轉型升級和社會治理創(chuàng)新”。從“推動數據資源共享開放和開發(fā)應用”,到實現“助力產業(yè)轉型升級和社會治理創(chuàng)新”的美好愿景,離不開可靠穩(wěn)健的大數據分析。

但是,對于什么是大數據分析、誰該使用大數據分析等關鍵問題,目前一些流行看法值得商榷。有業(yè)界人士提出,“每個從業(yè)人員都該考慮大數據分析”。更有看法認為“大數據分析主要依靠機器學習和大規(guī)模計算”,其重點在大數據采集存儲和基本架構等方面的技術、數據挖掘算法、可視化等方面,而很少探討如何根據數據建立符合中國現實的模型和產品、如何檢驗大數據分析效果等問題。

本文以財智BBD新經濟指數的構造過程為例,提出大數據分析的五步法,即問題識別、數據可行性論證、數據準備、建立模型、評估結果。希望本文可以拋磚引玉,引發(fā)對大數據分析的適用性、可靠穩(wěn)健的大數據分析標準、如何健康發(fā)展大數據產業(yè)等問題更深入的探討。

(一) 問題識別 



大數據分析的第一步是要清晰界定需要回答的問題。對問題的界定有兩個標準,一是清晰、二是符合現實。構造新經濟指數的背景,是中國已經進入資本回報率下降、勞動力萎縮、人口老齡化、外需疲軟的經濟發(fā)展“新常態(tài)”。由于現有不少統(tǒng)計資料都刻畫了傳統(tǒng)行業(yè)的下滑與困境,僅從追蹤傳統(tǒng)行業(yè)的變遷的角度,就難以對中國經濟的未來走勢保持樂觀。

但是中國經濟發(fā)展并非沒有亮色。雖然勞動力人口出現萎縮,但中國的人力資本積累仍然在上升。根據筆者參與的教育部人力資本測算結果,過去30年我國人力資本的平均年增速為5.53%,而未來20年預計平均年增速不會低于這個速度。根據人社部資料,2015年就業(yè)形勢總體穩(wěn)定,年末城鎮(zhèn)登記失業(yè)率為4.05%。人力資本的快速積累,為創(chuàng)新型經濟的發(fā)展提供了人力基礎。就業(yè)形勢沒有出現大的波動也表明,傳統(tǒng)經濟的困境催生了新經濟的出現和成長、減輕了經濟轉型帶來的震蕩。

對于正在成長的新經濟,公開數據只能提供零星的度量。如果統(tǒng)計資料只記錄了傳統(tǒng)經濟的下滑卻不能反映代表中國未來經濟增長點的新經濟的變化,必然會對中國未來的經濟走向,給出錯誤的畫面。因此,我們的目標是填補上述空白,嘗試來刻畫、追蹤新經濟在整個經濟中的發(fā)展和變遷。

我們雖然無法直接度量新經濟GDP,卻可以通過大數據來觀察經濟生活中各生產要素的變化。這里界定的問題是“中國經濟每一元錢的產出中,新經濟占的比重是多少?”在沒有官方統(tǒng)計數據的情況下,可以通過大數據手段來度量新經濟行業(yè)中技術、勞動力和資本等生產要素占全行業(yè)技術、勞動力和資本等生產要素的比重。這使得度量新經濟的相對重要性成為可能。

由于尚無對新經濟范疇的界定標準,首先需要明確何為新經濟。根據對于中國長期的觀察和對政策的理解,我們提出,新經濟是更符合中國未來資源稟賦結構的經濟模式,具有以下三個特征:第一,高人力資本投入、高科技投入、輕資產;第二,可持續(xù)的較快增長;第三,符合產業(yè)發(fā)展方向。

從新經濟指數的例子可以看到,識別問題環(huán)節(jié)需要考慮到數據的可行性,更需要對中國相應國情有較清晰的認知。

(二) 數據可行性論證  


論證現有數據是否足夠豐富、準確,以致可以為問題提供答案,是大數據分析的第二步,項目是否可行取決于這步的結論。大數據和傳統(tǒng)數據的生成方式有本質不同。傳統(tǒng)數據往往是在識別問題、根據問題設計問卷、之后展開調查獲得的數據,而大數據卻是企業(yè)或者個體各類活動產生的附屬產品。作為附屬產品,大數據往往不是為了特定數據項目生成,也存在較高噪音。這就要求數據可行性論證過程需要仔細推敲,現有數據得出來的結論是否足夠可靠。由于大數據分析技術本質屬于數據挖掘法,過度擬合問題往往是大數據分析的難點。過度擬合問題最主要的一個癥狀是難以外推,即在一個地區(qū)一個時期可以做出很好預測的模型,在另一個地區(qū)另一個時期卻表現很糟。

因此,在數據可行性論證主要涉及三個環(huán)節(jié)。第一,厘清項目需要的大數據、小數據和專業(yè)知識;第二,完成從抽象概念到具體指標的落實;第三,考察數據的代表性。

對于新經濟指數而言,數據的可行性論證要解決一下問題:第一,如果細化抽象標準?第二,可否利用大數據識別出屬于新經濟的企業(yè)?第三,數據是否可以支撐對全國新經濟狀況的度量?

1. 大數據、小數據和專業(yè)判斷

構造新經濟指數需要大數據、小數據和中國經濟的認識和判斷,這三者缺一不可。例如,要確定“高人力資本投入、高科技投入、輕資產”的行業(yè),我們要用到2010年中國各行業(yè)投入產出表、第六次人口普查和2008年經濟普查數據;確定可持續(xù)的較快增長的行業(yè),需要用到工業(yè)普查數據和經濟普查數據;確認是否符合產業(yè)發(fā)展方向,則需要從歷年產業(yè)政策計劃中查找相關信息,如2012年的《國務院關于加快培育和發(fā)展戰(zhàn)略性新興產業(yè)的決定》和2015年的《中國制造2025》。再如,《2014美國新經濟指數》(2014 State New Economy Index)報告指標體系、硅谷指數(SiliconValley Index)等國際知名新經濟和創(chuàng)新指數體系也為創(chuàng)建新經濟指數提供了很好的參考。上述數據和資料都不屬于大數據范疇,卻是采用大數據分析結果的可信度的根基。

2. 從抽象概念到具體指標 

論證數據可行性的重點是將抽象概念進一步細化到可以采用的數據條目,這往往需要依靠專業(yè)判斷和參考國內外通行標準。首先要梳理哪些抽象概念需要被細化,然后考察獲取細化信息是否可行。每一個項目在執(zhí)行過程中都有其難點,因此需要在數據可行性論證環(huán)節(jié)更加明確對難點的處理策略。對新經濟指數而言,需要細化的抽象概念有“高”、“可持續(xù)”、“較快”等標準,執(zhí)行難點是如何識別新經濟企業(yè)。

抽象標準的細化需要專業(yè)知識和對國內外相關行情的認知。對于度量“高”、“可持續(xù)”、“較快”,新經濟指數選擇勞動者報酬與營業(yè)盈余之和占增加值之比超過70%、勞動力平均教育年限超過12年、研發(fā)經費支出占主營業(yè)務收入的比重名列前茅、固定資產占總資產30%以下的行業(yè);持續(xù)五年增速在所有四位數代碼行業(yè)中排名前10%的行業(yè),等等。

識別新經濟企業(yè)是數據論證的難點。雖然大數據挖掘技術可以獲取企業(yè)名稱等信息,但不少企業(yè)沒有四位數行業(yè)代碼,也就無法直接識別一家企業(yè)是否屬于新經濟行業(yè)。我們的處理策略是根據既有企業(yè)名稱信息又有業(yè)務經營范圍信息的企業(yè)樣本,從《統(tǒng)計用產品分類目錄》找到相關代碼,再從《國民經濟行業(yè)分類》中找到行業(yè)代碼。在此基礎上建立模型,利用企業(yè)名稱的關鍵詞來預測其他企業(yè)所屬行業(yè)。

3. 總體還是代表性樣本

大數據的代表性是論證數據可行性的必要步驟,在這部分需要明確,使用的數據是總體還是子樣本,如果是子樣本,數據的代表性如何。需要注意的是,一個項目采用的大數據是否是數據總體,很多時候取決于要解決的問題。例如,谷歌擁有所有用戶瀏覽的歷史記錄,如果用該數據分析谷歌用戶瀏覽習慣,那么該數據是總體;但如果要預測美國流感趨勢,那么總體就是所有美國人,而不是所有使用谷歌搜索流感信息的用戶。

在新經濟指數構造過程中,由于采用某些地區(qū)的詳細數據外推到全國其他地區(qū)容易遇到過度擬合問題,因此,數據的采集目標是分項指標在全國的總體。我們的十一項分項指標中,有六項是相應指標在全國的總體;另外五項雖然不是總體,但也都達到總體的至少70%。一方面,未來數據采集技術的提升可以將另外五項指標的收集也達到總體的程度。另外一方面,我們的模型采用的是相對指標而不是絕對值,因此,即便一些指標尚不是總體,我們也可以根據大數定理,相信在數據量足夠大的情況下,我們的數據計算出比例可以無限趨近于中國的真實狀況。

大數據分析中,識別問題和數據可行性論證往往不是一步完成的。比如,如果將問題識別為如何度量新經濟GDP,就無法通過數據可行性論證。在考慮數據可得性的基礎上重新定義問題才可以增加對項目可行性的信心。在實際操作中,當第一步發(fā)生變化時,第二步數據可行性的論證重點也需調整。因此需要反復推敲這兩步,才能找到進入下一步的最佳契合點。

(三) 數據準備  


數據準備環(huán)節(jié)需要梳理分析所需每個條目的數據,為下一步建立模型做好從充分預備。這種準備可以分為數據的采集準備和清洗整理準備兩步。

1. 數據的采集準備

為大數據分析做數據采集準備時,往往不能回避下列問題:項目的數據預算有多少?配備的人員設備是否足夠?項目預期數據采集的完成期限?項目打算用什么方法收集數據?哪些數據是可以通過自身努力來獲取,哪些數據需要通過購買獲得?哪些數據獲取中會存在時間和經費上的不確定性?如果一些重要問題的答案是否定的或者含糊的,就可能需要重新回到數據可行性論證環(huán)節(jié)。這一點,對于希望用大數據分析做產品的小微企業(yè)、新創(chuàng)企業(yè)尤為重要。

新經濟指數的數據收集主要依托BBD的大數據收集和整理能力。為計算新經濟指數,歷經數月的預備,我們一共收集了5200余萬條招聘信息、270萬條新企業(yè)登記信息、376萬條招標/投標數據、2.8萬條風險投資數據、5000余條三板上市數據、580萬條專利登記數據、30萬條專利轉移數據,另外還包括用以計算城市人口流動信息的實時鐵路出票量數據、機場航班流量數據。由此產生的數據總量合計超過370G。

2. 數據的清洗整理準備

雖然數據清理包含不少常規(guī)處理,但是高質量的數據清理工作需要數據準備團隊時刻對項目目標了然于胸。例如,我們希望根據網上的招聘信息計算出全國新增加的招聘需求,但簡單將所有招聘信息中的需求人數相加并不能滿足我們的要求。這是因為需要招聘企業(yè)常常會多次發(fā)布同樣一條信息,因此不去掉重復信息就會夸大人才需求。但是,有些企業(yè)隔段時間發(fā)布的相同的招聘信息確實是新的招聘需求,如果去掉所有的重復信息又會低估用工需求。這就要求在數據清理階段,對于去重的不同頻率作出嘗試。在新經濟指數的制定中,我們嘗試了按月去重(即假定下一個月發(fā)布的同樣的招聘信息算作新招聘)和按年去重(即假定下一年發(fā)布同樣的招聘信息才算作新招聘信息)這樣不同的標準,來考察對新經濟指標穩(wěn)健性的影響。我們發(fā)現由于使用比例指標,按月或者按年去重差異不大,因此最終采取按月去重的方式來整理招聘信息。

(四) 建立模型  


大數據分析項目需要建立的模型可以分為兩類。對于這兩類模型,團隊都需要在設立模型、論證模型的可靠性方面下功夫。

1. 專業(yè)領域模型

大數據產品對應的項目可能有對應的專業(yè)領域模型,例如信用風險管理需要用到的違約概率(PD) 模型,違約損失率模型(LGD)模型;市場風險管理要用到的VaR,sVaR模型等。數據團隊需要明確為何選擇某個專業(yè)領域的模型。

構造新經濟指數時,我們根據經濟理論建立計算指數的模型。我們采用科布道格拉斯生產方程的形式,那么新經濟占總經濟產出的份額即:

其中K, H,A,L分別代表物質資本、人力資本、技術水平和勞動力。w為各個要素投入的產出彈性,θ則代表各生產要素投入新經濟的份額。這一模型為后面采用各比例計算新經濟指數提供了模型框架。

2. 數據分析模型

這類模型包含分析結構化數據的數據挖掘算法模型;處理非結構化數據的語義引擎;可視化策略等。流行觀點中的大數據分析主要集中在對第二類模型的討論上,因此本文從簡。

構造新經濟指數過程中,這類模型主要用于識別新經濟企業(yè)。將所有企業(yè)分為新經濟企業(yè)或者非新經濟企業(yè)的任務,首先要運用270萬家新企業(yè)作為訓練數據來建立“企業(yè)名稱 -- 行業(yè)短語 -- 行業(yè)識別”模型。接著對所有企業(yè)的名稱進行分詞,應用上面得到模型計算每個企業(yè)的行業(yè)概率。這里采用的主要是多元logit回歸模型。

建立模型時既需要強大運算能力,也需要專家的主觀判斷。例如,新經濟指數中,各要素投入新經濟的份額可以利用大數據收集得到,但產出彈性卻因無法觀測,需要一定的事先判斷。例如,2014年中國第三產業(yè)的勞動者報酬占增加值比重約為47.2%,考慮到新經濟行業(yè)是“以高質量勞動力為主要要素投入”的行業(yè),我們將勞動者投入彈性定為40%。又如,確定哪個短語—行業(yè)識別模型可靠時,新經濟指數要求識別程序行業(yè)判斷準確度達到95%左右。由于模型的建立和計算離不開專家的主觀判斷,為保證項目質量,模型團隊報告結果時應明確哪些信息是由算法決定的、哪些是由主觀判斷完成的。

(五) 評估結果  


評估結果階段是要評估上述步驟得到的結果是否足夠嚴謹可靠,并確保數據分析結果能夠有利于決策。評估結果包括定量評估和定性評估兩部分。

1. 定量評估

定量評估是需要關注主觀標準的可靠性。數據挖掘分析方法在計算上雖然依靠技術,但不少關鍵節(jié)點依靠主觀標準。例如,決策樹在什么時候停、做聚類分析時事先要定幾類;訓練樣本和檢驗樣本的大小關系等。對涉及主觀標準的各項指標,定量評估需要做穩(wěn)健性檢驗。例如,對于新經濟指數而言,勞動、資本和技術的產出彈性的設定主要根據專家判斷,因此在構造過程中,我們通過調整彈性值的方法來考察新經濟指數的穩(wěn)健性。

2. 定性評估

定性評估的重點是考察大數據分析的結果是否合理、方案是否可行。例如,新經濟指數是否比較準確地刻畫了中國新經濟的比重的問題,就是對結果的定性評估要求。這需要政府、企業(yè)、學界各方在對新經濟指數有一定了解之后才能確認。因此新經濟指數采用的策略是先試運行一段時間,檢查各種參數是否合理、計算是否準確到位,再正式發(fā)布。

在評估其他采用大數據分析的結果時,由于定性評估往往需要一段時間之后才能完成,因此將大數據分析結果用于現實時,需要采取審慎步驟。例如企業(yè)希望依據大數據結論對生產策略做出調整,可以考慮漸進式方法從傳統(tǒng)生產模式逐漸調整到大數據產品建議的模式,以減少模型失誤帶來的損失。

結論 


 

我國將實施國家大數據戰(zhàn)略,這對于大數據產業(yè)和對中國經濟可持續(xù)增長,都是振奮人心的好消息。但是,由于大數據往往是一些經濟活動的附帶產品,大數據分析產品是否可靠需要冷靜的頭腦和充分的論證。在大數據產業(yè)興起的時候,要防止過于迷信大數據和大數據相關技術,卻忽視數據分析、忽略中國國情的傾向。本文以新經濟指數為例,有如下主要觀察。

第一,大數據分析不只是機器學習和大規(guī)模運算,需要涉及問題識別、數據可行性論證、數據準備、建立模型和評估結果五步。這個過程往往不是一步到位、需要在某些環(huán)節(jié)反復進行,才能最終獲得相對穩(wěn)定的分析結果。

第二,大數據分析并非適用于每個項目,只有通過了數據可行性論證的項目,才可考慮大數據分析。

第三,高質量的大數據分析,需要有足夠的預算來涵蓋獲取大數據獲得、配備分析數據的人員和設備的相關費用。微小企業(yè)、創(chuàng)業(yè)企業(yè)在考慮大數據分析時需從費用角度對項目可行性作更多論證。

第四,大數據分析本身離不開小數據和專業(yè)判斷。高質量的大數據分析需要既懂技術、又對相應領域的問題有深刻認知的跨界團隊的深度合作。

最后,對于大數據分析的結果,還需要交由決策相關人以及各方專家評估,給予一定的時間來確認大數據分析有利于最終決策。

總結以上各點可以看到,在發(fā)展大數據產業(yè)時,不僅需要關注采集存儲、基本架構、數據挖掘算法、可視化等方面的技術,也需要對嚴謹可靠的大數據分析加大投入,促進大數據產業(yè)健康發(fā)展,最終實現助力產業(yè)轉型升級和社會治理創(chuàng)新的愿景。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數1:配置參數 // 參數2:回調,回調的第一個參數驗證碼對象,之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產品形式,包括:float,popup width: "280px", https: true // 更多配置參數說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }