
城市大數(shù)據(jù)分析的價值展望(2)_數(shù)據(jù)分析師
3 城市大數(shù)據(jù)分析的保障性措施建議
3.1 與云基地的建設(shè)協(xié)同發(fā)展
各地云基地的建設(shè)意味著海量的數(shù)據(jù)將進行集中管理。其中存儲、運算服務(wù)伴隨云基地的設(shè)備到位就可以支持規(guī)模性增長,也為大數(shù)據(jù)分析奠定了基礎(chǔ),而大數(shù)據(jù)分析也使得多地的云基地建設(shè)有最切合的用武之地,不至于成為一朵“浮云”。
3.2 成立城市大數(shù)據(jù)中心
政府應(yīng)用數(shù)據(jù)存在敏感性、保密性等特點,部分甚至涉及國家安全與政府機密,存在較大的管理風(fēng)險,不便與其他數(shù)據(jù)混合管理。城市大數(shù)據(jù)挖掘將整合強大的存儲平臺和運算系統(tǒng),綜合分析跨地域、跨行業(yè)、跨部門的海量數(shù)據(jù),而群體事件發(fā)現(xiàn)、警情分析等功能需要較快速的反應(yīng)能力,因此,只有專門的設(shè)施與專業(yè)的團隊配備才能滿足這樣大規(guī)模、高敏捷的需求。
3.3 做好人文保障工作
要做好人文保障工作,必須做到其一是基本的安全問題,必須有系統(tǒng)化的策略進行安全和訪問控制。城市數(shù)據(jù)中心是最讓黑客們感興趣的潛在單點,因而要求最嚴(yán)格的安全。
其二是數(shù)據(jù)利用方面要小心謹慎,不能濫用。如移動電話數(shù)據(jù)可以在設(shè)備擁有者明確同意后,用于感知交通擁塞,但是不能作為超速駕駛的依據(jù),不能讓市民感覺身處“全景監(jiān)獄”。新模型的使用模式對自愿加入的個人及單位要盡可能透明化,日常分析利用時需確保數(shù)據(jù)中敏感隱私的剝離。
此外還有許多有待討論的問題,如是否可以“預(yù)測即懲罰”。若通過監(jiān)控個人的特征和行為發(fā)現(xiàn)恐怖分子,那么在恐怖活動未實施之前,能否對看上去證據(jù)確鑿的某個人實施控制?數(shù)據(jù)的記憶能力及對數(shù)據(jù)的接觸能力將加深“信息的貧富差距”,如何讓大數(shù)據(jù)走向信息互惠?[2]
3.4 頂層設(shè)計中融入大數(shù)據(jù)理念
未雨綢繆。在系統(tǒng)的建設(shè)初期就應(yīng)該集中考慮標(biāo)準(zhǔn)化、端口與互操作問題。不同的城市,甚至同一城市的不同機構(gòu),使用不同的模型管理信息。各個部門若形成信息孤島,加之大數(shù)據(jù)中存在的眾多半結(jié)構(gòu)化數(shù)據(jù)、無結(jié)構(gòu)數(shù)據(jù),將會進一步導(dǎo)致分析困難。因此在城市信息化的潮流中,應(yīng)首先進行以大數(shù)據(jù)為核心的頂層設(shè)計[3],瞄準(zhǔn)城市基礎(chǔ)架構(gòu)與服務(wù)中各利益相關(guān)者的需求,并注重標(biāo)準(zhǔn)規(guī)范建設(shè)。
3.5 解決關(guān)鍵技術(shù)問題
從國家近年來政策動向及科技基金來看,非常鼓勵大數(shù)據(jù)產(chǎn)業(yè)及相關(guān)的研究。各城市也應(yīng)當(dāng)在應(yīng)用、實踐的過程中,研究攻克大數(shù)據(jù)分析中技術(shù)方面的問題。
3.5.1 基礎(chǔ)技術(shù)問題
目前大數(shù)據(jù)分析所普遍采用的MapReduce分析技術(shù)在同等硬件條件下,性能遠低于并行數(shù)據(jù)庫;但并行數(shù)據(jù)庫在擴展性、容錯性的短板導(dǎo)致其無法“勝任”大數(shù)據(jù)分析的任務(wù)。于是,研究人員致力于整合二者的優(yōu)點,將諸如Vertica、HadoopDB、Teradata等數(shù)據(jù)庫對MapReduce和并行數(shù)據(jù)庫進行了集成,但解決方案還是基于各方的優(yōu)缺點進行折衷。例如,HadoopDB能實現(xiàn)關(guān)系數(shù)據(jù)庫的高性能和MapReduce的擴展性、容錯性,但同時也喪失了MapReduce低預(yù)處理代價和維護代價、關(guān)系數(shù)據(jù)庫動態(tài)數(shù)據(jù)重分布等正面特性[5]。
3.5.2 傳統(tǒng)分析手段改進
目前各領(lǐng)域采集到的數(shù)據(jù)85%以上是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)[6],但較為成熟的數(shù)據(jù)分析方法與技術(shù)主要還是針對結(jié)構(gòu)化數(shù)據(jù)的。以輿情分析為例,目前主要還是依賴主題檢測和追蹤、文本分類、觀點傾向性識別、自動摘要等基于文本信息識別的技術(shù)。隨著非結(jié)構(gòu)化、多樣性數(shù)據(jù)的爆炸式增長,對諸如聲音、視頻、地理位置等所產(chǎn)生的數(shù)據(jù)進行綜合分析是未來的發(fā)展趨勢,也是必須攻克的技術(shù)難點。
3.5.3 技術(shù)人員培養(yǎng)
大數(shù)據(jù)分析技術(shù)人員的缺乏也是制約發(fā)展的因素之一。目前數(shù)據(jù)挖掘、大數(shù)據(jù)分析行業(yè)的分析師比較缺乏,以互聯(lián)網(wǎng)行業(yè)為代表的各大公司展開了人才競爭,而城市級大數(shù)據(jù)分析要求較高,更增加了對技術(shù)人員的職業(yè)要求。所以各城市要注重大數(shù)據(jù)分析師的培養(yǎng),做好人員準(zhǔn)備。
CDA注冊數(shù)據(jù)分析師協(xié)會在順應(yīng)大數(shù)據(jù)、云計算的潮流下發(fā)起成立的職業(yè)簡稱。旨在加強國內(nèi)外乃至全球范圍內(nèi)正規(guī)化、科學(xué)化、專業(yè)化的數(shù)據(jù)分析人才隊伍建設(shè),進一步提升數(shù)據(jù)分析師的職業(yè)素養(yǎng)與能力水平,促進數(shù)據(jù)分析行業(yè)的高質(zhì)量持續(xù)快速發(fā)展。CDA數(shù)據(jù)分析師項目包括教育,咨詢,考試,認證,機構(gòu)招聘合作。CDA注冊數(shù)據(jù)分析師協(xié)會會員是來自學(xué)界、實務(wù)界,國內(nèi)大陸、臺灣及國外數(shù)據(jù)分析和數(shù)據(jù)挖掘相關(guān)領(lǐng)域頂尖的教授、專家.CDA數(shù)據(jù)分析師的就業(yè)前景可選擇于通訊、醫(yī)療、銀行、證券、保險、制造、商業(yè)、市場研究、科研、教育等多個行業(yè)和領(lǐng)域。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10