
處理好這十大關(guān)系,再說有序推進(jìn)我國大數(shù)據(jù)事業(yè)
我們對大數(shù)據(jù)的認(rèn)識可以劃分為幾個層次:宏觀層面,大數(shù)據(jù)是“戰(zhàn)略資源”;中觀層面,大數(shù)據(jù)是“產(chǎn)業(yè)”;微觀層面,大數(shù)據(jù)是“經(jīng)濟(jì)資產(chǎn)”。同時,大數(shù)據(jù)也是“科學(xué)”和“技術(shù)”。
英美大數(shù)據(jù)發(fā)展六階段
回顧英美大數(shù)據(jù)發(fā)展歷程,至少已經(jīng)經(jīng)歷了六大階段:(1)早期萌芽階段。從上世紀(jì)90年代開始到本世紀(jì)初,是大數(shù)據(jù)發(fā)展的萌芽階段,主要體現(xiàn)為數(shù)據(jù)挖掘和處理技術(shù)的日漸成熟,代表性事件則是“啤酒和尿布”關(guān)聯(lián)銷售案例的出現(xiàn)。(2)應(yīng)用驅(qū)動的探索階段。從本世紀(jì)初到2006年,是大數(shù)據(jù)的應(yīng)用探索階段,少數(shù)領(lǐng)先的科技巨頭公司例如美國的亞馬遜、谷歌公司等已經(jīng)基于自身業(yè)務(wù)特點,逐步探索大數(shù)據(jù)應(yīng)用,研發(fā)大數(shù)據(jù)技術(shù),實現(xiàn)商業(yè)變現(xiàn)和增值。此階段的標(biāo)志性事件是谷歌發(fā)布了分布式文件系統(tǒng)Google File System、分布式處理框架MapReduce和非結(jié)構(gòu)化數(shù)據(jù)庫BigTable三駕馬車,奠定了大數(shù)據(jù)應(yīng)用的基石。(3)技術(shù)傳播和爆發(fā)階段。2006年,在現(xiàn)任Apache軟件基金會主席Doug Cutting的主導(dǎo)下,開源大數(shù)據(jù)軟件的代表Hadoop橫空出世,并且逐漸取得了工業(yè)屆、學(xué)術(shù)界、大數(shù)據(jù)社區(qū)的認(rèn)可,成為大數(shù)據(jù)屆的事實標(biāo)準(zhǔn)。(4)社會傳播和大眾認(rèn)知階段。從2008年開始,在鼓吹者的推波助瀾之下,大數(shù)據(jù)逐漸走入大眾視野,進(jìn)入了廣泛的社會傳播階段。其標(biāo)志性事件是Nature雜志刊發(fā)了大數(shù)據(jù)??瑯?biāo)志著大數(shù)據(jù)從技術(shù)領(lǐng)域逐漸進(jìn)入公眾領(lǐng)域,大數(shù)據(jù)理念開始在公眾中傳播。(5)政府開放數(shù)據(jù)階段。2009年,美國政府建立了統(tǒng)一開放數(shù)據(jù)網(wǎng)站Data.gov,英國也著手開始打造數(shù)據(jù)公開系統(tǒng),宣布大數(shù)據(jù)進(jìn)入政府開放數(shù)據(jù)階段。(6)大數(shù)據(jù)產(chǎn)業(yè)走向成熟階段。在經(jīng)歷了上述幾個發(fā)展階段后,英美大數(shù)據(jù)產(chǎn)業(yè)逐漸走向成熟,標(biāo)志性事件是殺手級大數(shù)據(jù)應(yīng)用和處于統(tǒng)治地位的大型企業(yè)出現(xiàn),例如美國的Palantir。
我國政務(wù)大數(shù)據(jù)建設(shè)和政府?dāng)?shù)據(jù)開放
有序推進(jìn)我國大數(shù)據(jù)事業(yè),以及政務(wù)大數(shù)據(jù)建設(shè)和政府?dāng)?shù)據(jù)公開,需要正確認(rèn)識并處理好以下十大關(guān)系:
(一)對政府?dāng)?shù)據(jù)開放的認(rèn)識:
政府?dāng)?shù)據(jù)的開放涉及多個層面:一是政府的數(shù)據(jù)應(yīng)該可以通過在線、或者公開且容易獲取的渠道訪問及下載,數(shù)據(jù)的格式應(yīng)該盡量接近標(biāo)準(zhǔn)格式;二是政府所開放的數(shù)據(jù)應(yīng)該允許獲取者的加工、利用和再傳播;三是對于不涉及國家安全的數(shù)據(jù)應(yīng)盡量向全體公眾開放,對于敏感數(shù)據(jù)可配套數(shù)據(jù)分級管理制度;四是開放的數(shù)據(jù)應(yīng)該是明細(xì)數(shù)據(jù),并且盡量遵循完整性原則。
(二)政府在數(shù)據(jù)開放當(dāng)中扮演的角色:主導(dǎo)方和受益方
政府作為數(shù)據(jù)的采集、擁有、管理者,在數(shù)據(jù)開放當(dāng)中既作為數(shù)據(jù)的提供方,同時又應(yīng)成為數(shù)據(jù)的消費(fèi)者。政府作為數(shù)據(jù)開放平臺的主導(dǎo)方,往往需要承擔(dān)數(shù)據(jù)開放所帶來的成本增加。但是,其實政府也是數(shù)據(jù)開放的受益方。例如,上級政府可以通過監(jiān)控下級政府所開放的數(shù)據(jù)估算某一個指標(biāo),從而與下級所上報的指標(biāo)進(jìn)行對比,發(fā)現(xiàn)異常。政府通過開放數(shù)據(jù),在公共服務(wù)方面,可以吸引更多的人參與探索甚至是試錯,在經(jīng)濟(jì)方面,以數(shù)據(jù)開放形成的杠桿效應(yīng)培育大數(shù)據(jù)產(chǎn)業(yè)。
(三)政府?dāng)?shù)據(jù)開放的路徑:加強(qiáng)數(shù)據(jù)目錄和元數(shù)據(jù)建設(shè)
在開放數(shù)據(jù)的過程中,各國政府通常都會建立相關(guān)的配套制度,各部門明確需要梳理和開放的數(shù)據(jù)資產(chǎn),根據(jù)各類數(shù)據(jù)的屬性,建立方便公眾獲取數(shù)據(jù)的途徑,例如形成數(shù)據(jù)開放目錄,通過建立層次化的目錄結(jié)構(gòu),配合搜索、關(guān)聯(lián)推薦等常用互聯(lián)網(wǎng)大數(shù)據(jù)功能,降低瀏覽和定位數(shù)據(jù)的難度,也避免了低端建設(shè)數(shù)據(jù)開放信息化網(wǎng)站的困境。同時,需要加強(qiáng)元數(shù)據(jù)的建設(shè),盡量完整的描述采集方式、數(shù)據(jù)質(zhì)量、用戶描述、口徑指標(biāo)、甚至是血緣關(guān)系等元數(shù)據(jù)。在數(shù)據(jù)開放的優(yōu)先級方面,可以通過多種考量維度設(shè)置開放的優(yōu)先級,例如數(shù)據(jù)集的信息化程度和完整程度,同時參照美國等國的社會需求優(yōu)先級導(dǎo)向方式。
(四)大數(shù)據(jù)與統(tǒng)籌設(shè)計的關(guān)系:
習(xí)近平指出,隨著互聯(lián)網(wǎng)特別是移動互聯(lián)網(wǎng)發(fā)展,社會治理模式正在從單向管理轉(zhuǎn)向雙向互動,從線下轉(zhuǎn)向線上線下融合,從單純的政府監(jiān)管向更加注重社會協(xié)同治理轉(zhuǎn)變。要以數(shù)據(jù)集中和共享為途徑,建設(shè)全國一體化的國家大數(shù)據(jù)中心,推進(jìn)技術(shù)融合、業(yè)務(wù)融合、數(shù)據(jù)融合,實現(xiàn)跨層級、跨地域、跨系統(tǒng)、跨部門、跨業(yè)務(wù)的協(xié)同管理和服務(wù)。
(五)大數(shù)據(jù)與價值的關(guān)系:
無論大數(shù)據(jù)的特征包含幾個V,大數(shù)據(jù)最為根本的著眼點在于通過高效的存儲、管理、分析、使用數(shù)據(jù),產(chǎn)生巨大的價值。目前而言,產(chǎn)生價值最為顯著也最為迫切的應(yīng)用集中在兩個領(lǐng)域,一是企業(yè)界通過數(shù)據(jù)實現(xiàn)變現(xiàn)和增值;二是社會和政府通過數(shù)據(jù)解決問題、提升整體效率。
在數(shù)據(jù)價值落地方面,仍然存在著很多問題,例如:有的機(jī)構(gòu)不掌握數(shù)據(jù),對于大數(shù)據(jù)感覺無從下手,不知道如何收集數(shù)據(jù)、應(yīng)該收集哪些數(shù)據(jù);有的機(jī)構(gòu)掌握著數(shù)據(jù),也愿意開展大數(shù)據(jù)應(yīng)用,但是感覺無從下手;有的機(jī)構(gòu)是手握“數(shù)據(jù)富礦”找數(shù)據(jù),找不到具體的應(yīng)用場景;有的機(jī)構(gòu)應(yīng)用了大數(shù)據(jù),但是由于運(yùn)用不合理的方式方法,結(jié)果大打折扣。上述問題主要是對大數(shù)據(jù)應(yīng)用的價值點不清晰以及對于實現(xiàn)價值的路徑不清晰。
(六)大數(shù)據(jù)與共享的關(guān)系:
大數(shù)據(jù)時代,數(shù)據(jù)成為資產(chǎn),創(chuàng)造數(shù)據(jù)價值的過程其實就好比水的流動。水通過流動就能產(chǎn)生動力,大數(shù)據(jù)通過流動才能產(chǎn)生價值。滴水難以形成力量,很多水匯集成江河湖海就能形成洶涌澎湃的力量,在大數(shù)據(jù)時代,數(shù)據(jù)的關(guān)聯(lián)、交叉、匯聚、共享才能催生業(yè)務(wù)價值。
(七)大數(shù)據(jù)與創(chuàng)新的關(guān)系:
科學(xué)技術(shù)的發(fā)展已經(jīng)進(jìn)入了第四范式階段,即由數(shù)據(jù)驅(qū)動的創(chuàng)新階段。在自然科學(xué)領(lǐng)域,科學(xué)家們正在嘗試?yán)脭?shù)據(jù)驅(qū)動科學(xué)理論的發(fā)展。在社會科學(xué)領(lǐng)域,如何通過數(shù)據(jù)驅(qū)動從而實現(xiàn)科學(xué)決策、優(yōu)化政府治理、配置經(jīng)濟(jì)和社會資源,利用大數(shù)據(jù)助力雙創(chuàng)工作的開展,也是值得探討的問題??梢灶A(yù)見,數(shù)據(jù)范式未來會在社會科學(xué)領(lǐng)域發(fā)揮重大價值,因為通過宏觀大尺度的觀察和細(xì)節(jié)數(shù)據(jù)的收集處理以及類比分析,就可能模擬、預(yù)判政策的執(zhí)行效果或者精準(zhǔn)的感知社會態(tài)勢。
(八)大數(shù)據(jù)與人才培養(yǎng)的關(guān)系:
大數(shù)據(jù)最終為人創(chuàng)造價值,也依賴于人實施、產(chǎn)生、創(chuàng)造數(shù)據(jù)的價值,因此,大數(shù)據(jù)應(yīng)當(dāng)以人為本。想要真正運(yùn)用好大數(shù)據(jù),需要培養(yǎng)懂得業(yè)務(wù)的大數(shù)據(jù)人才。如果不懂得業(yè)務(wù),就無法準(zhǔn)確提煉、定位、搜尋到大數(shù)據(jù)潛在的應(yīng)用價值點。如果一線業(yè)務(wù)人員能夠像使用WORD、Excel等辦公軟件一樣輕松自如的應(yīng)用一些大數(shù)據(jù)的工具和成果,那么大數(shù)據(jù)創(chuàng)新就會不斷涌現(xiàn),真正的大數(shù)據(jù)價值時代就會來臨。
(九)大數(shù)據(jù)與模型的關(guān)系:
目前階段,模型是連接數(shù)據(jù)和業(yè)務(wù)價值之間的橋梁,數(shù)據(jù)通過模型轉(zhuǎn)化為結(jié)論,進(jìn)而指導(dǎo)下一步的行動。最近一段時間,我國各地方政府、社會機(jī)構(gòu)組織了大量的大數(shù)據(jù)比賽和開放數(shù)據(jù)大賽,一方面促進(jìn)了數(shù)據(jù)開放和流動,另外一方面吸引了更多的社會力量參與數(shù)據(jù)創(chuàng)新。雖然比賽辦得風(fēng)風(fēng)光光,但是比賽過后,由于知識產(chǎn)權(quán)的問題,一般的模型是不公開的,造成了很多優(yōu)秀的成果無法傳播和擴(kuò)大影響,比較可惜。在這方面,可以增強(qiáng)探索,例如參照美國數(shù)據(jù)競賽網(wǎng)站Kaggle的模式,通過激烈性競賽,將最好的模型設(shè)計原理公開,從而加速模型和知識的擴(kuò)散和傳播。
(十)大數(shù)據(jù)與安全和隱私保護(hù)的關(guān)系:
從棱鏡門事件到我國出現(xiàn)的詐騙案,信息泄露給社會造成了難以彌補(bǔ)的損失。從技術(shù)角度講,有了大數(shù)據(jù)之后,信息安全的挑戰(zhàn)更大了。同時,大數(shù)據(jù)也帶來了隱私保護(hù)的問題。大數(shù)據(jù)隱私泄露可能發(fā)生在多個環(huán)節(jié):一是組合信息泄露問題,例如單個信息不造成泄露,但是將網(wǎng)絡(luò)中的多個信息碎片組合起來就有可能泄露隱私信息;二就是流程泄露問題,數(shù)據(jù)在存儲、傳輸和處理過程中會造成泄密;三是基礎(chǔ)設(shè)施造成信息泄露,目前用來存儲大數(shù)據(jù)的基礎(chǔ)設(shè)施本身有很多安全問題,例如由于歷史原因,國內(nèi)大部分政府、銀行、能源機(jī)構(gòu)的數(shù)據(jù)庫軟件和服務(wù)器仍然采用國外的產(chǎn)品,這對存儲于其上的數(shù)據(jù)構(gòu)成了泄露的風(fēng)險;四是針對大數(shù)據(jù)的APT攻擊,敏感大數(shù)據(jù)更容易成為攻擊目標(biāo)。五是第三方導(dǎo)致的泄露,第三方平臺掌握大量大數(shù)據(jù),會產(chǎn)生濫用和誤用的風(fēng)險,導(dǎo)致信息泄露。其他類型的安全隱患包括:非授權(quán)訪問、傳輸過程中破壞數(shù)據(jù)完整性、拒絕服務(wù)攻擊、網(wǎng)絡(luò)病毒等。
在隱私保護(hù)方面,英美很多機(jī)構(gòu)都設(shè)置了隱私保護(hù)專家,并且都提出了全生命周期數(shù)據(jù)隱私保護(hù)的概念,即在數(shù)據(jù)從生產(chǎn)到加工、傳播的每個環(huán)節(jié),都加入了隱私保護(hù)的評估和機(jī)制保證,而不只是在最后開放的環(huán)節(jié)才考慮隱私的問題。當(dāng)前,數(shù)據(jù)脫敏和匿名化也面臨著一些挑戰(zhàn),例如有專門針對數(shù)據(jù)匿名化的反匿名化技術(shù);根據(jù)披露的郵編、年齡范圍和搜索關(guān)鍵詞就能定位到具體的人;通過用戶觀看的多部電影名稱和大致時間范圍定位到用戶。
未來展望
數(shù)據(jù)開放和數(shù)據(jù)創(chuàng)新最終離不開數(shù)據(jù)價值體現(xiàn),也離不開生態(tài)系統(tǒng)的支撐。通過構(gòu)建數(shù)據(jù)融合、開放、共享、共創(chuàng)的機(jī)制,打通“政產(chǎn)學(xué)研用金介貿(mào)媒”的開放數(shù)據(jù)體系,通過社會態(tài)勢感知、溝通渠道順暢、政策影響評估等典型應(yīng)用,建立一套用數(shù)據(jù)說話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新的管理機(jī)制,提高政府的決策、治理、服務(wù)、監(jiān)督、風(fēng)險防范等綜合水平,實現(xiàn)公共利益的最大化,通過數(shù)據(jù)流引領(lǐng)技術(shù)流、物質(zhì)流、信息流、資金流、人才流形成合力。
當(dāng)前,只有深刻、清醒的認(rèn)識大數(shù)據(jù)存在的各種困難和挑戰(zhàn),堅持從實際出發(fā),立足于大數(shù)據(jù)的發(fā)展趨勢和中國發(fā)展變化的實際情況,敢于創(chuàng)新,走自主特色的道路,積極探索,才能深入推進(jìn)我國大數(shù)據(jù)國家戰(zhàn)略的偉大事業(yè),助力實現(xiàn)中華民族偉大復(fù)興的“中國夢”。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03