
編譯 | Harris來源 | 機房360
如今,大數(shù)據(jù)越來越重要,因為企業(yè)需要處理來自多個來源的不斷增長的存儲數(shù)據(jù)。
采用大數(shù)據(jù)可以稱之為一場完美風暴。廉價的存儲和大量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的大量涌入,導致了諸多的大型數(shù)據(jù)工具得以開發(fā),幫助企業(yè)“解鎖”他們積累的數(shù)據(jù),從客戶記錄到產(chǎn)品性能的結(jié)果等更多的數(shù)據(jù)。
像傳統(tǒng)的商業(yè)智能(BI),這些新的大數(shù)據(jù)工具可以分析過去的趨勢,并幫助企業(yè)識別重要模式,如特定的銷售趨勢。許多大數(shù)據(jù)工具現(xiàn)在提供了一個新一代預測和規(guī)范性的見解,以及深埋在企業(yè)數(shù)據(jù)中心的所有數(shù)據(jù)。
對于人們面臨的挑戰(zhàn),調(diào)查機構(gòu)Gartner公司分析師道格·蘭尼表示,人們還是不要用擴展的基礎(chǔ)設(shè)施來處理所有這些數(shù)據(jù),而是從各種數(shù)據(jù)本身進行處理。
“對于真正的挑戰(zhàn),企業(yè)對自己和客戶的交易數(shù)據(jù)進行處理、整合,并共同構(gòu)建和理解輸入,加上來自合作伙伴和供應商的數(shù)據(jù),還有一些外源性數(shù)據(jù),如社會媒體的開放數(shù)據(jù)和聚合數(shù)據(jù)等等,而這些只是觸及了表面。”蘭尼在一封電子郵件中說表示。
大數(shù)據(jù)是一個大問題:您的網(wǎng)絡(luò)準備好了嗎?
盡管Gartner的客戶端通過一個2比1的比例說明各種數(shù)據(jù)是一個更大的問題,對他們來說數(shù)據(jù)增長的速度越來越快,而數(shù)據(jù)處理供應商將會繼續(xù)提供資金更大、更快的解決方案。
ConstellationResearch公司分析師道格·亨森特表示,大數(shù)據(jù)解決方案肯定是不斷發(fā)展變化的。
“在我的書中,2014年是發(fā)布SQLHadoop公告的一年,但今年企業(yè)和銷售商開始認識到大數(shù)據(jù)的機會不只是擴大傳統(tǒng)的BI和數(shù)據(jù)庫。”亨森特說,“因此,ApacheSpark開源框架和其他的分析方案已在2015年超越了SQL。2015年,數(shù)百家供應商和大公司開始采用ApacheSpark開源框架,IIBM公司擁抱是倡導其他分析選項最明顯的廠商,而其他致力于數(shù)據(jù)集成和大數(shù)據(jù)平臺的很多企業(yè)加入這個行列?!?/span>
事實上,大數(shù)據(jù)浪潮似乎來臨,每天都會供應商推出的各種解決方案,其中也包括一些相對全面的設(shè)計。盡管很難得到一個全面的名單,這四個工具應該出在用戶的應用清單中。
(1)數(shù)據(jù)科學家的H2O.ai
H2O.ai是初創(chuàng)公司Oxdata在2014年底推出的一個獨立開源機器學習平臺,主要服務于數(shù)據(jù)科學家和開發(fā)者,為其應用提供快速機器學習引擎。Oxdata公司表示,可以在商用硬件上對任何來源(如Hadoop,SQL)的數(shù)據(jù)進行處理分析,甚至在上千個網(wǎng)絡(luò)節(jié)點或亞馬遜的AWS云運行。個人可以嘗試并繼續(xù)免費使用H2O.ai。Oxdata公司將收取企業(yè)用戶的費用。
“很多公司使用Spark代替Hadoop短期記憶,這就像大數(shù)據(jù)的內(nèi)存一樣。”H2O公司市場營銷和增長副總裁奧列格·羅格斯科說,“在讀取你的短期記憶方面,h20.ai的功能超越了Spark,基本上提供了超快速的分析能力?!?/span>
羅格斯科說,H2O.ai是旨在提供預測分析的數(shù)據(jù)工具的一個新品種。他指出,SQL幫助推動了描述性數(shù)據(jù)分析的早期階段或“告訴我發(fā)生了什么”,其次是“預測期”的產(chǎn)品,看看發(fā)生了什么事,盡量幫助客戶預測接下來會發(fā)生什么-例如:庫存用完或產(chǎn)品突破等。
“我們在未來幾年將看到第三個階段是指令性的階段發(fā)揮作用,這個系統(tǒng)說,‘這是我的教訓,我認為未來會發(fā)生什么,你應該最大限度地實現(xiàn)目標?!绷_格斯科說,他還指出,谷歌地圖的主動建議替代路線的能力就是一個規(guī)范性解決方案的例子。
H20.ai將自己定位為各種行業(yè)數(shù)據(jù)科學家使用的一個預測工具和“盒子”。例如,網(wǎng)絡(luò)巨頭思科公司有6萬款預測購買決策的模型,該公司使用H2O.ai對這些模型評分。思科公司首席數(shù)據(jù)科學家表示,“其結(jié)果是太棒了,我們看到H2O.ai比我們的同類產(chǎn)品的性能要好3到7倍。在單獨建模評分方面,h2o.ai環(huán)境是upwards的10到15倍?!?/span>
(2)ThoughtSpot3–大數(shù)據(jù)應用
借助谷歌公司這樣的搜索引擎,很容易在網(wǎng)上搜到用戶需要的社交數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù),但企業(yè)數(shù)據(jù)一般難以查找,也更難以利用。為此,7位工程師共同成立了ThoughtSpot公司,目標是開發(fā)一個類似于谷歌的搜索引擎,用于查找商業(yè)數(shù)據(jù)。
該公司在谷歌公司成立初期就為其提供硬件設(shè)備,在企業(yè)啟用防火墻后提供超快搜索功能。ThoughtSpot結(jié)合了新搜索引擎的應用,它的功能是通過一個快速內(nèi)存數(shù)據(jù)庫來搜尋海量信息。該公司還計劃提供一個基于云的服務。
ThoughtSpot3起始售價為90000美元,是一種為企業(yè)快速尋找大數(shù)據(jù)的數(shù)據(jù)科學家依賴的工具?!拔覀円呀?jīng)看到企業(yè)使用該產(chǎn)品的數(shù)據(jù)科學家正在增加?!盩houghtSpot公司營銷副總裁史葛霍爾頓說,“二十億人都在搜索,但在工作中,我們?nèi)匀灰蕾囉跀?shù)據(jù)專家?!?/span>
霍爾頓在加利福尼亞公司總部PaloAlto進行了一個演示,顯示系統(tǒng)使用熟悉的搜索欄界面是如何工作的.剛剛發(fā)布的ThoughtSpot3.0具有一些新功能,包括“DataRank”的工作方式,類似于谷歌的PageRank和typeahead。該軟件使用機器學習算法建議的關(guān)鍵詞為客戶搜索,以加快這一進程。
Popcharts無疑是最酷的新功能。當你在搜索框中輸入“由東海岸銷售......”ThoughtSpot瞬間創(chuàng)建基于查詢相關(guān)的圖表,并利用機器學習給出10多個可以選擇的圖表。
另一個“即時”功能是AutoJoins,其目的是為一般都有數(shù)百個數(shù)據(jù)源的企業(yè)導航。AutoJoins使用ThoughtSpot的數(shù)據(jù)索引,通過索引模式和機器學習,以了解表格是否相關(guān),并在一秒內(nèi)呈現(xiàn)研究結(jié)果。
霍爾頓說,ThoughtSpot更側(cè)重于對歷史數(shù)據(jù)的傳統(tǒng)BI分析(速度超快,使用十分方便),其預測性和規(guī)范性分析功能會在未來的軟件中體現(xiàn)。
(3)Connotate軟件
Connotate公司是一家為美聯(lián)社、路透社、道瓊斯等大型公司對全球上千個網(wǎng)站的非結(jié)構(gòu)化數(shù)據(jù)進行實時分類和分析的企業(yè)。在Web數(shù)據(jù)抽取和監(jiān)控上,Connotate軟件是世界上最簡單、最合算的解決方案,以有效地利用海量數(shù)據(jù),從中挖掘出對企業(yè)增長有價值的信息,并可以進行高度可擴展性的數(shù)據(jù)監(jiān)控和數(shù)據(jù)收集。
Gartner公司分析師道格·萊尼表示,Connotate和BrightPlanet在他所列的大數(shù)據(jù)工具名單上,因為它們有助于從企業(yè)自身的數(shù)據(jù)庫和互聯(lián)網(wǎng)上收割和構(gòu)建豐富多彩的內(nèi)容。
“隨著數(shù)字化和經(jīng)濟增長,企業(yè)認識到只關(guān)注自己的數(shù)據(jù)不再是萬無一失的創(chuàng)新良方,他們越來越多地轉(zhuǎn)向外源數(shù)據(jù)(即公司外部的數(shù)據(jù))?!比R尼說。
Connotate公司表示,其從網(wǎng)頁抽取內(nèi)容的專利技術(shù)遠遠超出了網(wǎng)頁抓取或自定義腳本。取而代之的是對于網(wǎng)站工作如何使用機器學習采用一種直觀的視覺理解,Connotate公司表示,使其內(nèi)容提取“準確可靠,并且可擴展?!?/span>
據(jù)該公司介紹,Connotate平臺”可以很容易處理成百上千的網(wǎng)站和百萬兆字節(jié)?!辈⑻峁┡c業(yè)務相關(guān)的有針對性的信息。其提供的內(nèi)容采集平均成本比傳統(tǒng)方法少55%。
例舉一個使用案例,Connotate幫助銷售情報提供者從數(shù)千個醫(yī)院網(wǎng)站提取聯(lián)系人資料(姓名,職務,電話,電子郵件和隸屬關(guān)系),并建立一個全國性的醫(yī)生檔案數(shù)據(jù)庫。
Connotate公司表示,其大數(shù)據(jù)解決方案賣給了幾家大型制藥公司,并沒有花費額外的硬件或IT資源。大數(shù)據(jù)提取的規(guī)?;?,甚至可以提供50萬名醫(yī)生的數(shù)據(jù)。
(4)BrightPlanet工具
BrightPlanet公司也從網(wǎng)絡(luò)中提取數(shù)據(jù),該公司宣稱其搜索具有所謂的“深網(wǎng)”見解的能力。其深網(wǎng)可以挖掘那些具有密碼保護的網(wǎng)站和通常不會被傳統(tǒng)的搜索引擎索引的其他網(wǎng)站的數(shù)據(jù)。
BrightPlanet公司表示,其收集的數(shù)據(jù)條目數(shù)以百萬計,其中包括推特和新聞數(shù)據(jù)庫和醫(yī)學期刊的數(shù)據(jù),并可以根據(jù)企業(yè)的具體需求和條件進行過濾。
該公司為使用該軟件的數(shù)據(jù)采集工程師提供一個免費的數(shù)據(jù)即服務(DaaS)咨詢,并介紹他們的服務是一個不錯的選擇。咨詢的目的是幫助企業(yè)數(shù)據(jù)中心找到合適的收集數(shù)據(jù),并得到正確的格式,這樣客戶可以得到一個好主意的過程和結(jié)果。
最終用戶或客戶可以選擇哪些網(wǎng)站收獲的內(nèi)容。反過來,BrightPlanet公司又將其內(nèi)容進行充實。例如,像在社交媒體網(wǎng)站評論這樣的非結(jié)構(gòu)化數(shù)據(jù),通過一個自定義格式設(shè)計,使其在更便于使用的客戶端提交。
end
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
AI 浪潮下的生存與進階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導白皮書) 發(fā)布機構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04