
大數(shù)據(jù)分析之數(shù)據(jù)孤島:你能看到它們嗎
從企業(yè)和CIO們開始嘗試數(shù)據(jù)挖掘以來,數(shù)據(jù)孤島就一直阻礙著商業(yè)智能效能的提高。數(shù)據(jù)孤島,換句話說昂貴的、需要費盡心血維護卻彼此無法兼容的數(shù) 據(jù)庫,指望從它們那兒發(fā)掘到偉大的知識,無疑于緣木求魚。也就是說,數(shù)據(jù)庫的數(shù)量和挖掘到的知識產量沒有任何關系。正如一位商業(yè)智能專家所說的,進進出出 的都是垃圾。
談到大數(shù)據(jù)分析-或者叫數(shù)據(jù)3V(類別、數(shù)量和增長率),則是個令大多數(shù)公司窒息的流行語。因為,據(jù)分析師Ted Friedman說,數(shù)據(jù)孤島整指數(shù)般的蔓延-就像瘟疫一樣。
“在你的公司,任何時間任何地方,都有數(shù)據(jù)孤島的存在。從大數(shù)據(jù)的角度看,簡直整個宇宙都充斥著數(shù)據(jù)孤島-在防火墻里,在web上,在‘云’端,還有那些 屬于其他企業(yè)、客戶和供應商的卻在你這兒出現(xiàn)的數(shù)據(jù),”Gartner主持信息管理咨詢的Friedman說道,“所有這些使得你更難打破數(shù)據(jù)孤島來挖掘 有意義的知識信息?!?/span>
那么,CIO在詮釋大數(shù)據(jù)的過程中能起到什么作用呢?和企業(yè)遇到的其他IT挑戰(zhàn)一樣,這個難題及其解決之道也圍繞 著人才、流程和技術而展開。CIO不僅需要為為員工培養(yǎng)新技能(包括招募數(shù)據(jù)科學家、分析師和架構師等),而且需要說服高層:大數(shù)據(jù)治理是需要高管甚至董 事會關注的重要命題。
突然變時髦的數(shù)據(jù)管理
對付大數(shù)據(jù)遭遇的數(shù)據(jù)孤島問題有一種 方法,就是孤立分析,重點突破。Gartner專門有一種信息估值過程來運用這種方法。“在龐大的數(shù)據(jù)海洋中,不同數(shù)據(jù)有著不同的價值,于是數(shù)據(jù)挖掘的目 標,就變成了定義怎樣的問題空間,然后在空間內深入分析,”Friedman說道,“就我看來,客戶往往將分析邊界定義得太過寬泛。”
為了突出重點,企業(yè)可以首先問自己這樣一個問題:我們到底要從數(shù)據(jù)中得到什么?這些數(shù)據(jù)和我們的業(yè)務有什么聯(lián)系?我們如何使用這些數(shù)據(jù)以獲得積極的回報?
隨著企業(yè)越來越關注潛伏在大數(shù)據(jù)中的價值信息,Gartner注意到越來越多的公司開始設立數(shù)據(jù)治理委員會。由業(yè)務干系人所組成,這些機構關注一切方面 -從哪些是重要的數(shù)據(jù)源、向什么技術投資,到各種和數(shù)據(jù)有關的問題,譬如數(shù)據(jù)質量、數(shù)據(jù)保留度、數(shù)據(jù)整合、數(shù)據(jù)安全性和信息隱私。
外部數(shù)據(jù)孤島的危險探索
除了少數(shù)IT專家外,也應該開放給其他職員大數(shù)據(jù)探索的權利,以最大程度從大數(shù)據(jù)中攫取價值。Gartner及其它專業(yè)人士擔心,很多組織急于從大數(shù)據(jù)中牟利,以至于忽視了IT治理的風險,從而付出了侵犯隱私、數(shù)據(jù)造假等問題而得到嚴懲的代價。
“在企業(yè)里,徹底的數(shù)據(jù)開放不切實際,”麻省Forrester首席分析師Boris Evelson說道,“有各種各樣的監(jiān)管問題和利益沖突。舉個例子,投行的行研師和交易員之間就絕對不可互犯雷池一步?!?/span>
在科羅拉多大學國家冰雪研究數(shù)據(jù)中心(NSIDC)和其數(shù)據(jù)收集伙伴美國航天局(NASA)看來,保護數(shù)據(jù)的完整是一項巨大的挑戰(zhàn),NSIDC的IT服 務經理David Gallaher如是說。David的主要任務,是收集、管理記錄著世界上所有冰凍地域的以PB級計算的科學數(shù)據(jù),并保證以可控的方式分發(fā)給需要的研究人 員?!拔覀冃枰屓藗儽M可能方便地獲取他們需要的數(shù)據(jù),但我們必須得保證他們不可能胡亂更改其中的任何一處,”正在接受地理學培訓的Gallaher表 示。另一方面,NSIDC的科學家們每次訪問數(shù)據(jù)后肯定會對其進行更新,所以數(shù)據(jù)管理的治理原則必須是“正確的人做正確的修改”,Gallaher強調 道。NSIDC目前正在和美國國家科學基金會合作完善其數(shù)據(jù)治理原則。
數(shù)據(jù)管理-只要多視圖,不要多拷貝
不是所有人同意大數(shù)據(jù)一定意味著更多的數(shù)據(jù)孤島這一說法。IBM大數(shù)據(jù)項目副總裁Anjul Bhambhri就宣稱,大數(shù)據(jù)其實能“幫助”CIO。
“現(xiàn)在,數(shù)據(jù)孤島能夠進行自我清理,”在一次針對其一年來為200多家公司清理數(shù)據(jù)孤島的訪談中,Bhambhri如是說。一家大型企業(yè)為郵件歸檔建立了 13個數(shù)據(jù)集市(單是法務部就使用了8個),因為當他們要訪問歸檔郵件時,他們等不及讓IT來處理。另一家公司的兩個部門分別為自己的web緩存建立了拷 貝?!耙浪麄兠刻炀陀?50億條緩存要處理,”Bhambhri說道。
新技術-當然,包括IBM的BI大數(shù)據(jù)產品-可讓企業(yè)在一個數(shù)據(jù) 倉庫中存儲和分析龐大的數(shù)據(jù)信息。因此,上述兩家公司只用保留一個活躍的數(shù)據(jù)歸檔,大可不必設立13個歸檔副本或150億web緩存?!澳愕臄?shù)據(jù)只用保存 于一處,來自多處的應用即可對數(shù)據(jù)同時進行訪問,因為數(shù)據(jù)在存儲層次的形式保持不變,”Bhambhri說道。然而,即使她和像她這樣的積極倡導大數(shù)據(jù)分 析的IT人士,也不斷提醒企業(yè),有效的大數(shù)據(jù)分析,需要對已有的IT系統(tǒng)框架進行徹底地改造。“能夠有效存儲數(shù)據(jù)是在正確的方向上前進了一大步,”她說 道,“但僅能存儲是不夠的,有效的分析還需要大量的算法。”
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03