
以下是我的理由:過去應(yīng)用程序通常是用一個操作數(shù)據(jù)庫組建來編寫的。應(yīng)用程序開發(fā)人員很少擔(dān)心分析是如何進行的——過去,這由其他人負責(zé)。他們只編寫操作應(yīng)用程序。
但是數(shù)據(jù)已經(jīng)變成了新型財富,而且應(yīng)用程序開發(fā)人員也已經(jīng)意識到如今應(yīng)用程序需要與快速數(shù)據(jù)流和分析進行交互充分利用可用數(shù)據(jù)。這就是高速數(shù)據(jù)的來 源以及為什么我說這是不可避免的。這些從EMC Digital Universe的報告和Mary Meeker在2013年的Internet Trends報告中都能體現(xiàn)出來。
因此,如果你正在建立類似這些運行在數(shù)據(jù)流之上的數(shù)據(jù)驅(qū)動應(yīng)用程序,你會需要什么呢?在與人們協(xié)作建立這些應(yīng)用程序中,一般可以歸結(jié)出五項需求并使之正確。當(dāng)然,你可以給出一些,然后人們來做。但是還是要讓應(yīng)用程序需求來驅(qū)動決策,而非受制于你所選擇的數(shù)據(jù)管理技術(shù)。
Fast Data應(yīng)用程序的五項需求:
如今很多有價值的數(shù)據(jù)的運行速度正在加快,它們以更多的來源和更快的頻率進入。這些數(shù)據(jù)源通常是任何正在建立的數(shù)據(jù)管道的核心。但是,僅僅是調(diào)查這些數(shù)據(jù)是不夠的。記住,應(yīng)用程序面對的是數(shù)據(jù)流,而且在另一端的事物通常在尋找的是某些交互的形式。
比如:VoltDB正推動大量的智能電網(wǎng)應(yīng)用程序,包括一項在UK部署5300萬個儀表的計劃(接入UK電網(wǎng))。當(dāng)你擁有如此大量的儀表且每秒有多個傳感器讀數(shù)的時候,你就會面臨嚴(yán)峻的數(shù)據(jù)獲取挑戰(zhàn)。此外,每個讀數(shù)需要檢查確定傳感器的狀態(tài)以及是否需要交互。
使用其他數(shù)據(jù)來決定如何回應(yīng)以上交互所描述的提升——它提供了你做決策所急需的語境。需要用一定數(shù)量的存儲數(shù)據(jù)來做出這些決策。如果一個事件的發(fā)生僅限于其表面意義,那你就會錯失事件發(fā)生的語境。要有能力來做出更好的決策,因為你對整個應(yīng)用程序可能了解的東西會是迷失的。
比如:當(dāng)我能夠?qū)⒁粋€儀表的讀數(shù)與其他十個連接相同變壓器的儀表讀數(shù)進行對比來確定變壓器問題,而不是僅僅是從一個位于家中的儀表進行判斷的時候,我們的傳感器讀數(shù)會變得信息更加豐富且有價值。
這里有另外一個例子可能會更為貼切。一位女士在商店購買香蕉。如果我們給出其他顧客在購買了香蕉的同時還購買了些什么的建議,這可能會是及時的建 議,但并不一定相關(guān);即,我們并不知道她購買香蕉是否是用來制作香蕉面包,或僅僅是作為水果。因此,如果我們是基于購買聚合數(shù)據(jù)給她提供的建議,那么這些 建議會是相關(guān)的,但是可能并不具備個性化。我們的建議需要語境才能具有相關(guān)性,他們需要及時且有用,并且還需要滿足顧客的個性需求。要滿足這三點——不加 權(quán)衡的做這些——我們需要在語境條件下在每個事件上加以行動,例如,存儲數(shù)據(jù)。獲取數(shù)據(jù)種子或是與其進行交互的能力意味著我們能夠準(zhǔn)確知道顧客想要什么, 在確切的時刻了解他/她的需求。
可以給大家講一個故事。記得在2011年首屆JasperWorld會議上。講述如何利用VoltDB來查看高速數(shù)據(jù)的集合和儀表盤。觀眾問:“當(dāng)然,你讓數(shù)據(jù)移動的那么快,那么你打算怎樣做來搞清楚它呢?”
但是要能夠理解高速數(shù)據(jù)超出了一個人查看儀表盤的范圍。有一樣?xùn)|西讓高速數(shù)據(jù)應(yīng)用程序與老派的OLTP比起來顯得與眾不同,就是在決策流程中引入了 實時分析。通過在高速數(shù)據(jù)引擎內(nèi)運行這些分析,會給操作決策提供信息。在進行決策的時候,此功能不僅僅是將單一事件納入語境,它讓決策信息更加充分。在大 數(shù)據(jù)中,甚至在生活中,語境就是一切。
比如:繼續(xù)拿我們的智能儀表舉例,我聽說變壓器在故障前會顯示一個特定的趨勢。而且那種電子元器件類型的故障會非常明顯。因此,如果可能的話,我們 想在真的發(fā)生之前確認這些即將到來的故障。這就是實時分析注入決策流程的經(jīng)典案例。如果一個變壓器30分鐘的歷史數(shù)據(jù)顯示了這樣的趨勢,那么就關(guān)閉它并重 定電力。
我們已經(jīng)明確地確信在涉及到21世紀(jì)的數(shù)據(jù)庫技術(shù)時,某一種方法并非萬靈丹。因此,當(dāng)某個快速操作數(shù)據(jù)庫正好適于用來勝任高速數(shù)據(jù)的工作,那么其他工具則最好是優(yōu)化用戶存儲和深入分析大數(shù)據(jù)處理。在這些系統(tǒng)間遷移數(shù)據(jù)是必要的需求。
然而,這不僅僅是數(shù)據(jù)的遷移。除了純粹的數(shù)據(jù)遷移,還需要考慮大數(shù)據(jù)和高速數(shù)據(jù)的集成:
處理大系統(tǒng)導(dǎo)入能力和高速數(shù)據(jù)到達率之間的阻抗失配;
系統(tǒng)間的可靠傳輸,包括持久性和緩沖,以及數(shù)據(jù)預(yù)處理,因此當(dāng)它到達數(shù)據(jù)湖就準(zhǔn)備好了被使用(集成,清洗,豐富)。
比如:來自于遍布整個國家的智能儀表的高速數(shù)據(jù)會迅速積累。這一歷史數(shù)據(jù)在展示季節(jié)性趨勢,還有諸如同比電網(wǎng)效率上有著明顯的價值。將這些數(shù)據(jù)遷移 至數(shù)據(jù)湖是至關(guān)重要的。但是,在數(shù)據(jù)到達數(shù)據(jù)湖之前會做有效性和安全性檢查并對數(shù)據(jù)進行清洗。越是將此更多的集成進數(shù)據(jù)管理產(chǎn)品,應(yīng)用程序所需要解決的問 題就會越少(“如果系統(tǒng)故障,我要如何保存數(shù)據(jù)?”“如果我的數(shù)據(jù)湖無法繼續(xù)獲取,我要從哪里溢出數(shù)據(jù)呢?”…)。
由BI報告生成并由數(shù)據(jù)專家分析的具有深刻洞察力的分析需要可操作化。這可以通過兩種方式來實現(xiàn):
通過分析系統(tǒng)所能支持的更多的人或設(shè)備來讓BI報告更具消費性,采用從分析中獲得的情報并將其遷移進操作系統(tǒng)。
第一條很容易描述。報告系統(tǒng)(如數(shù)據(jù)倉庫和Hadoop)在生成和計算報告方面做了不錯的工作。它們并不是設(shè)計用來在毫秒級延遲下提供這些報告給數(shù) 以千計的并發(fā)用戶的。要滿足此需求,很多客戶正在將這些分析結(jié)果遷移存儲至一個內(nèi)存操作組件,這樣就可以以高速數(shù)據(jù)的頻率和速度提供結(jié)果了。坦率的講,我 認為我們會在將來看到僅以此為目的的將這些分析存儲的內(nèi)存加速。
第二條則更為強大。我們從所有大數(shù)據(jù)處理中所獲得的知識應(yīng)該用于為決策提供信息。將這些知識遷移至可操作存儲便會有助于這些決策,由深入分析理解加以驅(qū)動,并為每個進入系統(tǒng)的事件可操作化。
比如:如果我們的系統(tǒng)到目前為止如所描述的工作,我們正在基于智能儀表和基于電網(wǎng)的讀數(shù)來進行可操作決策。我們正在使用來自當(dāng)前月的數(shù)據(jù)以訪問組件 趨勢,確定計費并提供電網(wǎng)管理。我們將數(shù)據(jù)導(dǎo)出至大數(shù)據(jù)系統(tǒng),在那里專家會探究季節(jié)性趨勢,并通過所收集的某些事件的數(shù)據(jù)來獲取信息。
我們說這些探索性分析已經(jīng)有所發(fā)現(xiàn),鑒于目前的電網(wǎng)規(guī)模,如果在夏末出現(xiàn)一個+10度的熱浪,電力就需要轉(zhuǎn)換或是從其他供應(yīng)商那里進行補充。這些知 識如今也可以用于我們的操作系統(tǒng),即如果我們遇到了+10度的熱浪,電網(wǎng)會根據(jù)當(dāng)前數(shù)據(jù)及歷史信息進行動態(tài)調(diào)整。我們已經(jīng)在電網(wǎng)內(nèi)部關(guān)閉了數(shù)據(jù)情報循環(huán)。
最后,我已經(jīng)在實際部署中見到了這些需求。不,并不是每個客戶都希望馬上解決所有五個方面。但是通過我經(jīng)歷的幾乎每個談話過程,大多數(shù)觀點都包括在 最終需求文檔中。掩蓋這些需求是有風(fēng)險的;我要警告人們不要因為想當(dāng)然的認為“我只是現(xiàn)在必須擔(dān)心獲取”而在高速數(shù)據(jù)組件上做出戰(zhàn)術(shù)性的決策。這是一個確 定的五步路徑來反應(yīng)這一架構(gòu),并且可能要比實際情況要快得多。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03