
大數(shù)據(jù)項目部署的五大愿景
如果你正在嘗試構建大數(shù)據(jù)應用或分析系統(tǒng),你可能會清楚的意識到該領域缺少哪些功能。筆者將人們對大數(shù)據(jù)的愿景歸納為五大需求,分別是SQL(或SQL-like)分析、快速部署、高級分析、實時分析和網(wǎng)絡分析選件。
好消息是人們正在努力應對這些問題,SQL分析選件就是其中之一。大批數(shù)據(jù)管理和數(shù)據(jù)分析專家們對SQL非常熟悉,自然想要利用SQL知識搞清楚Hadoop集群和NoSQL數(shù)據(jù)庫中的數(shù)據(jù)。Apache Hadoop軟件的發(fā)行商都在規(guī)劃、測試,甚至已經(jīng)發(fā)布了SQL(或SQL-like)分析選件,用于分析存在于Hadoop集群里的數(shù)據(jù)。這些發(fā)行商包括Cloudera、EMC、Hortonworks、IBM、MapR和Teradata等。在NoSQL陣營中,10gen公司已經(jīng)對MongoDB的分析能力進行了改進,大數(shù)據(jù)廠商Acunu對Cassandra也做了同樣的改進。
部署和管理Hadoop集群和NoSQL數(shù)據(jù)庫對于大多數(shù)IT組織而言是一種全新的體驗,但似乎每個軟件更新帶來的部署和管理新特性都能夠讓生活變得更輕松。與此同時,EMC、HP、IBM、Oracle和Teradata等廠商計劃或已經(jīng)提供了一些工具,旨在幫助企業(yè)進行Hadoop快速部署。其他廠商將重點放在Hadoop框架組件的使用,如WibiData,提供簡化HBase的開源庫、模型和工具。
收集和利用大數(shù)據(jù)的重點是進行預測分析和其他高級分析,進而得到更明智的商業(yè)決策。但是在數(shù)據(jù)人才短缺的今天,企業(yè)正在尋求一種更簡便的方式支持復雜的分析過程。很多廠商和企業(yè)都在研究機器學習,這是因為它不依賴于專家,而是依賴數(shù)據(jù)和計算能力收集客戶行為數(shù)據(jù),并挖掘數(shù)據(jù)背后的商業(yè)模式。
大數(shù)據(jù)的3V原理的其中一個V是velocity(速度),但是很難用“實時”一詞來形容Hadoop,其弊端在于MapReduce的分析方法。MapR和HStreaming等廠商開始為Hadoop增加實時分析功能,其他廠商可能會效仿,尤其是那些事件流處理廠商。
排在第五位的大數(shù)據(jù)愿景是更簡便的網(wǎng)絡分析。目前,企業(yè)友好型圖形分析數(shù)據(jù)庫和工具不斷涌現(xiàn),它們采用了很多與Facebook相同的真正大規(guī)模的技術。這里提到的工具和技術很少有30年以上的歷史,不會像關系型數(shù)據(jù)庫和SQL查詢工具那樣成熟。但是有明確的跡象表明,大數(shù)據(jù)管理和分析的痛點正在迅速緩解。
通過很多關于大數(shù)據(jù)人才短缺的故事和報告,就可以得到這樣一個結論:大數(shù)據(jù)領域最迫切的需求是了解數(shù)據(jù)類型的數(shù)據(jù)科學家,他們也知道如何通過編寫自定義代碼、MapReduce作業(yè)和算法在大數(shù)據(jù)中獲取洞察力。但是,為何不讓擅長關系型數(shù)據(jù)庫、商業(yè)智能(BI)和分析工具的SQL專家處理更多繁重的工作呢?SQL專家的數(shù)量遠遠大于數(shù)據(jù)科學家,并且大多數(shù)SQL專家更急于擴大自己的職業(yè)潛力。
推動在Hadoop之上提供SQL分析能力,大數(shù)據(jù)的人才短缺只是其中一個原因。另一個原因是Apache Hive——Hadoop中的數(shù)據(jù)倉庫,它提供SQL-like查詢功能的有限子集,但是Hive是將SQL查詢轉化成MapReduce任務,這導致Hive的性能緩慢。
為了應對Hadoop之上SQL查詢范圍更廣、速度更快的需求,很多相關項目和方案陸續(xù)發(fā)布,如Cloudera Impala、EMC Pivotal HD中的HAWQ查詢特性、Hortonworks Stinger、IBM Big SQL、MapR支持的Apache Drill、Teradata SQL-H等。
即使是NoSQL陣營也在為更好的SQL-like查詢功能而努力。去年10gen公司為其MongoDB NoSQL數(shù)據(jù)庫新增了一個實時數(shù)據(jù)統(tǒng)計框架,該框架讓用戶直接在MongoDB中查詢數(shù)據(jù),而不需要編寫或者運行編譯的、面向批處理的MapReduce作業(yè)。Acunu公司也在做類似的工作,它已開發(fā)出一種SQL-like的AQL(Annotator Query Language)語言支持Cassandra查詢。
SQL查詢功能的發(fā)展僅僅是個開端。BI、分析工具和大數(shù)據(jù)平臺自身分析系統(tǒng)的脫穎而出,如Datameer、Hadapt、Karmasphere和Platfora等,它們提供了Hadoop之上的分區(qū)查詢、分析、數(shù)據(jù)可視化和監(jiān)控能力。
包含Hadoop和NoSQL數(shù)據(jù)庫在內的大數(shù)據(jù)平臺一直在努力簡化其部署和管理功能,每次軟件升級都會帶來新的管理特性和新的內置功能,例如10gen公司在最新發(fā)布的MongoDB中新增了內置文本搜索功能和預置監(jiān)控功能。Hortonwork Hadoop發(fā)行版針對微軟Windows的版本嵌入Active Directory(活動目錄)、System Center和虛擬化技術,用以簡化大數(shù)據(jù)的部署和管理。
在構建Hadoop集群的過程中,雖然沒有太多硬件方面的抱怨,但是EMC、IBM、Oracle和Teradata等硬件廠商推出Hadoop一體機,使Hadoop的部署更快速、更便捷。商用硬件的成本很高,但是Oracle稱如果算上每個組件的價格、配置和調整的時間、維護和升級工作、可以直接運行的Cloudera軟件,以及Oracle NoSQL數(shù)據(jù)庫,一體機的成本比自己部署價格更低。
真正復雜的Hadoop管理常常出現(xiàn)在軟件層面,而非硬件配置。例如HBase——Hadoop架構中日益重要的NoSQL數(shù)據(jù)庫,很多開發(fā)者認為很難在HBase中建模和分析數(shù)據(jù)。WibiData公司提供開源庫、模型和工具,使HBase中的數(shù)據(jù)更容易存儲、提取和分析。該理念是將HBase運行中的技術難點可重復化,因此在解決商業(yè)問題時節(jié)省大量工程師和數(shù)據(jù)科學家等人力資源,這一準則也可以應用于其他大數(shù)據(jù)平臺。
開發(fā)算法和預測模型是專業(yè)數(shù)據(jù)科學家的工作,但是他們既數(shù)量稀少,又需要支付高額報酬。因此,人才短缺是大數(shù)據(jù)、分析和商業(yè)智能廠商開發(fā)機器學習方法的原因之一。在光學字符識別、垃圾郵件過濾和計算機安全威脅檢測等應用程序中證實,機器學習使用的學習算法是數(shù)據(jù)本身訓練而來的。如果展示該算法掃描成千上萬個文本字符、未經(jīng)請求的電子郵件消息、病毒程序和惡意軟件等,的確能夠找到更多實例。
隨著機器學習的發(fā)展,訓練模型還能繼續(xù)在新的數(shù)據(jù)中學習。例如Amazon.com和Netflix公司利用算法發(fā)現(xiàn)顧客交易規(guī)律,并向他們推薦感興趣的書或電影。每當新書或者電影發(fā)行時,這些公司可以利用算法洞察數(shù)據(jù)中的偏好模式,推薦給相關顧客。
Apache Mahout是全球領先的部署機器學習基礎集群、分類、Hadoop協(xié)同過濾算法的項目,該技術同樣是由R統(tǒng)計編程語言支持的。支持或嵌入機器學習技術的廠商還包括Alpine數(shù)據(jù)實驗室、Birst、Causata、Lionsolver、Revolution Analytics等。
大數(shù)據(jù)分析上的另一個需求是實時性能。兩家初創(chuàng)廠商正試圖抓住這一機遇,分別是市場分析廠商Causata和實時Hadoop分析廠商HStreaming。
對于Causata而言,“實時”意味著在50毫秒以內作出決策。當你的顧客仍然在訪問網(wǎng)站和手機客戶端時,需要以這種速度更改內容、橫幅廣告和市場報價。Causata利用Hadoop的HBase NoSQL數(shù)據(jù)庫進行存儲,包括點擊流、活動響應數(shù)據(jù)和CRM記錄等與市場相關的數(shù)據(jù)。HBase并不擅長實時查詢,因此Causata在專有查詢引擎上運行基于Java的算法用以提升性能。
HStreaming所用的流處理技術類似于金融交易系統(tǒng)中的事件處理引擎,以及IBM(InfoSphere Streams)、Progress Software (Apama)、SAP (Sybase Aleri)、Tibco (Complex Event Processing)等技術。HStreaming能夠直接從不間斷數(shù)據(jù)源中提取數(shù)據(jù),如視頻監(jiān)控攝像頭、發(fā)射塔、傳感器等。該技術還提供了一種提取、轉換、加載(ETL)的形式,將數(shù)據(jù)存儲在Hadoop中,用于隨后的分析。HStreaming在視頻監(jiān)控、網(wǎng)絡優(yōu)化和移動廣告領域擁有最多應用,在這三種場景下,實時洞察力和行動力是必須的。
與HStreaming采取不同的策略,Hadoop軟件和服務提供商MapR宣布與Informatica成為合作伙伴,并將成為第一個也是唯一一個擁有實時能力的Hadoop軟件發(fā)行商,能夠在大數(shù)據(jù)平臺中以接近實時的速度傳送數(shù)據(jù)。MapR的Hadoop發(fā)行版的特色是無鎖存儲服務層,能夠與Informatica消息傳遞軟件共同運行,不斷將大規(guī)模數(shù)據(jù)傳送至Hadoop。結合即將推出的SQL-on-Hadoop選件,如MapR-favored Drill,大數(shù)據(jù)又將增加一個快速分析的選擇。
社交網(wǎng)絡為大數(shù)據(jù)貢獻了規(guī)模性和多樣性的數(shù)據(jù),社交網(wǎng)絡本身使用圖形數(shù)據(jù)庫和分析工具,通過研究“節(jié)點(nodes)”發(fā)現(xiàn)用戶關系網(wǎng)。這些節(jié)點代表人、公司、地點等,而邊緣(edges)代表各個節(jié)點中復雜的關系。
美國世紀投資公司利用圖形分析預測公司基金投資的業(yè)績,該公司使用的開源R統(tǒng)計編程語言和iGraph包由Revolution Analytics(分析力革命公司)提供軟件和支持,由此創(chuàng)建的圖形分析應用能夠跟蹤制造商和供應商之間的資金流。
如同蘋果公司與其芯片和屏幕的供應商或者汽車制造商與其零部件供應商之間的關系。美國世紀投資公司結合這些采購關系的公共和私有數(shù)據(jù),運用圖形分析獲得對供應商更清晰的認識,這些預測比基于公共財政報告數(shù)據(jù)的預測更準確。
其他支持圖形分析的開源技術還有Neo4j,這是Neo Technologies公司開發(fā)和支持的一款圖形數(shù)據(jù)庫。Neo4j適用于IT和電信網(wǎng)絡場景應對安全接入挑戰(zhàn)、在主數(shù)據(jù)管理應用中觀察數(shù)據(jù)之間關系的變化,以及在推薦引擎應用中根據(jù)好友的行為和關系計算客戶的需求。除此之外,開源圖形分析項目還包括Google Pregel和Apache Giraph,人們對圖形分析的興趣與日俱增。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03