
互聯(lián)網(wǎng)業(yè)務(wù)和技術(shù)的發(fā)展迎來了信息革命新的高潮,所帶來的除了更加高效的生產(chǎn)和消費模式外,還帶來數(shù)據(jù)的爆炸式增長。移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)浪潮下的數(shù)據(jù)規(guī)模與產(chǎn)生速度更是前所未有地加快,相應(yīng)產(chǎn)生的數(shù)據(jù)存儲、處理、分析、展示的技術(shù)與工具也層出不窮。傳統(tǒng)企業(yè)已經(jīng)具備對現(xiàn)有系統(tǒng)流程和數(shù)據(jù)比較成熟的生產(chǎn)和獲取方式,然而如何對曾經(jīng)被忽視和丟棄的數(shù)據(jù),利用分布式、基于內(nèi)存等新型技術(shù),同時整合企業(yè)現(xiàn)有數(shù)據(jù)和分析結(jié)果來實現(xiàn)業(yè)務(wù)創(chuàng)新和增強,是急需解決的問題。
大數(shù)據(jù)的初始階段,價值往往呈現(xiàn)出稀疏的特點,企業(yè)常常需要“沙里淘金”。在當今時代,存儲海量數(shù)據(jù)的成本雖然已經(jīng)降低,但從海量數(shù)據(jù)中獲取價值卻是昂貴的,而要及時獲取價值則更加昂貴。因此,越來越多的企業(yè)選擇構(gòu)建大數(shù)據(jù)實時計算框架,以期從中獲得實時的數(shù)據(jù)洞見,“快數(shù)據(jù)”的概念也因此應(yīng)運而生。
什么是快數(shù)據(jù)?
大數(shù)據(jù)的概念本身比較抽象,一個比較有代表性的是 4V 定義,即認為大數(shù)據(jù)需滿足4個特點:規(guī)模性(Volume)、多樣性(Variety)、高速性(Velocity) 和價值性 (Value)。而快數(shù)據(jù)則是為了實現(xiàn)高速性(Velocity)而產(chǎn)生的?!翱臁眮碜砸恍┍娝苤姆▌t:時間就是金錢,數(shù)據(jù)的價值也具有時效性,數(shù)據(jù)的價值隨著時間折舊越快。下表給出了不同業(yè)務(wù)處理數(shù)據(jù)快慢的比較。
從數(shù)據(jù)分析的技術(shù)實現(xiàn)視角分析,目前的大數(shù)據(jù)處理可以分為如下三個類型:
復(fù)雜的批量數(shù)據(jù)處理(batch processing),常見的實現(xiàn)框架如Hadoop/Mapreduce,數(shù)據(jù)處理的時間跨度在數(shù)十分鐘到數(shù)小時之間。
增強的歷史數(shù)據(jù)的交互式查詢(inter-active query),常見的實現(xiàn)框架如Dremel/Impala,數(shù)據(jù)處理的時間跨度在數(shù)十秒到數(shù)分鐘之間。
基于實時事件數(shù)據(jù)流的數(shù)據(jù)處理(event streaming processing),常見的實現(xiàn)框架如Oracle CEP、Strom。數(shù)據(jù)處理的時間跨度在數(shù)百毫秒到數(shù)秒之間。
以上的三種方式,最符合快數(shù)據(jù)定義的是第三種?;趯崟r事件數(shù)據(jù)流的數(shù)據(jù)處理不光是能夠提供更快的數(shù)據(jù)處理效率,而是采用了一種完全不同于離線批處理的模式。這兩種處理模式,批處理(Batch Processing)是先存儲后處理(Store-then-process),而流處理則是直接處理(Straight-through processing)。這兩種處理模式相輔相成,在企業(yè)構(gòu)建大數(shù)據(jù)處理框架時都非常重要。一些成熟的企業(yè)在處理數(shù)據(jù)時,會把數(shù)據(jù)處理服務(wù)分成幾層。一方面是重要程度,一方面是處理時效要求,比如“快數(shù)據(jù)緊急”、“快數(shù)據(jù)不緊急”和“慢數(shù)據(jù)重要”等??鞌?shù)據(jù)從本質(zhì)上意味著數(shù)據(jù)處理接近實時決策的能力,改善業(yè)務(wù)決策所花費的時間,流處理模式則給系統(tǒng)業(yè)務(wù)創(chuàng)新帶來了更多的想象空間和創(chuàng)新空間。
快數(shù)據(jù)有怎樣的應(yīng)用場景?
人類社會的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了3個階段,正是數(shù)據(jù)產(chǎn)生方式的巨大變化才最終導(dǎo)致大數(shù)據(jù)的產(chǎn)生:
1、運營式系統(tǒng)階段。數(shù)據(jù)的產(chǎn)生大都為運營系統(tǒng)產(chǎn)生,數(shù)據(jù)也大都是運營相關(guān)的數(shù)據(jù)。這種數(shù)據(jù)的產(chǎn)生特點是被動的。
2、用戶創(chuàng)造內(nèi)容階段。互聯(lián)網(wǎng)的發(fā)展尤其是電子商務(wù)和Web2.0的發(fā)展帶來數(shù)據(jù)新的爆發(fā)階段?;ヂ?lián)網(wǎng)電子商務(wù)的發(fā)展產(chǎn)生了大量的用戶行為數(shù)據(jù),這完全不同于被動式運營系統(tǒng)所產(chǎn)生的數(shù)據(jù)。Web2.0的最重要標志就是用戶原創(chuàng)內(nèi)容(UGC, User Generated Content)。這個階段數(shù)據(jù)的產(chǎn)生特點是主動的。
3、感知式系統(tǒng)階段。今天我們正處于這個階段的起點。這個階段產(chǎn)生的核心原因在于移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展興起。隨著技術(shù)的發(fā)展, 智能手機、可穿戴設(shè)備以及微小的帶有處理功能的傳感器日益成熟,各種原來“死”的設(shè)備,現(xiàn)在都能自動生成、采集數(shù)據(jù),就連我們?nèi)祟?,也因為攜帶智能設(shè)備,每一次位置變化和設(shè)備使用都會產(chǎn)生大量可用于分析的數(shù)據(jù)。這種數(shù)據(jù)的產(chǎn)生特點是自動的。
簡單來說,數(shù)據(jù)產(chǎn)生歷了被動、主動和自動三個階段。這些被動、主動和自動的數(shù)據(jù)共同構(gòu)成了大數(shù)據(jù)的數(shù)據(jù)來源。
快數(shù)據(jù)可以在下面四大領(lǐng)域幫助企業(yè)客戶:
?幫助企業(yè)提升客戶體驗。傳統(tǒng)的被動型系統(tǒng)會丟棄很多與業(yè)務(wù)存儲以及統(tǒng)計分析無關(guān)的數(shù)據(jù)。而快數(shù)據(jù)能夠有機的和傳統(tǒng)數(shù)據(jù)以及Hadoop類型大數(shù)據(jù)進行有機的結(jié)合,幫助企業(yè)更好的建立全視角用戶視圖,開發(fā)出用戶驅(qū)動型的產(chǎn)品,提供客戶導(dǎo)向型的服務(wù)。快數(shù)據(jù)彌補了原來用單一數(shù)據(jù)庫和Hadoop平臺構(gòu)建全視角用戶視圖的制肘之處。
?幫助企業(yè)優(yōu)化運營。傳統(tǒng)企業(yè)IT運營往往缺乏把握在線營銷時機的能力。在客戶行為事件發(fā)生的恰當時機,以最了解客戶的形式展開營銷。同時,在社交媒體追蹤對地點、用戶和產(chǎn)品的提及信息,分析產(chǎn)品、用戶、品牌之間的關(guān)聯(lián),從而優(yōu)化其內(nèi)部產(chǎn)品與服務(wù)提供的準確性,進行跟有針對性的線上和線下(O2O)產(chǎn)品推薦是傳統(tǒng)企業(yè)最重要的運營能力創(chuàng)新
?幫助企業(yè)優(yōu)化資源。通過智能設(shè)備的數(shù)據(jù)采集技術(shù),可以實現(xiàn)企業(yè)對所需資源的精準優(yōu)化,優(yōu)化資源使用效率。在企業(yè)在運營過程中,用戶產(chǎn)品所需要的每一種資源的具體使用情況和分布等,企業(yè)都可以進行搜集分析,就如同“電子駕駛艙”一般,實現(xiàn)“點對點”的數(shù)據(jù)化、圖像化展現(xiàn)??鞌?shù)據(jù)讓企業(yè)的管理者管理優(yōu)化企業(yè)資源的方式從“T+1”進化到“T+0”,可以更直觀高效地管理自己的企業(yè)。
?幫助企業(yè)拓展服務(wù)??鞌?shù)據(jù)讓企業(yè)將自己的服務(wù)時機與地點拓展到客戶生命周期的每一個要點。企業(yè)還可以借助社交媒體中公開的海量數(shù)據(jù),通過快數(shù)據(jù)趨勢分析輿情偵聽技術(shù)、分析數(shù)據(jù)內(nèi)容之間的關(guān)聯(lián)度等,進而面向社會化用戶開展精細化服務(wù)。
如何分辨企業(yè)是否需要“快數(shù)據(jù)”?
隨著大數(shù)據(jù)已經(jīng)成為IT業(yè)界炙手可熱的話題,所有企業(yè)都希望盡早部署自己的大數(shù)據(jù)戰(zhàn)略,也希望通過“快數(shù)據(jù)”獲取實時數(shù)據(jù)分析能力。然而,如何分辨企業(yè)是真的需要“快數(shù)據(jù)”還是僅需要狹義的大數(shù)據(jù)解決方案?這里甲骨文提出快數(shù)據(jù)項目三問幫企業(yè)做出正確決策:
?數(shù)據(jù)分析的結(jié)果如何反作用于應(yīng)用系統(tǒng)?
?數(shù)據(jù)是連續(xù)不斷的而且有順序、窗口、時機等要素,是來源眾多的且有不同格式,數(shù)據(jù)量大但不關(guān)心存儲嗎?
?是否考慮三個第一:能否在第一時間,客戶的第一接觸點上,作出第一反應(yīng)?
如果企業(yè)可以正確認識以上問題并根據(jù)自身實際情況給出肯定的答案,那么“快數(shù)據(jù)”是企業(yè)的一個良好選擇。常見的快數(shù)據(jù)處理場景包括事件驅(qū)動營銷與推薦,基于位置的服務(wù),交互式營銷,客戶維系挽留,風險預(yù)測與評估,性能管理,媒體偵聽與響應(yīng),智能設(shè)備采集分析,金融量化交易與風險管理。
甲骨文認為,為了得到全面、透徹、完善的市場洞察,大數(shù)據(jù)應(yīng)完全覆蓋傳統(tǒng)數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、流式數(shù)據(jù)和快數(shù)據(jù),共同為企業(yè)構(gòu)建全數(shù)據(jù)視圖,提供全面的信息支撐。因此,“快數(shù)據(jù)”始終是甲骨文大數(shù)據(jù)解決方案中重要的一環(huán),也是未來的一大關(guān)鍵方向。(本文來自:CDA數(shù)據(jù)分析師培訓官網(wǎng))
甲骨文具備完整的數(shù)據(jù)“流程”方案:從Oracle大數(shù)據(jù)一體機、Oracle大數(shù)據(jù)連接器、Exadata數(shù)據(jù)庫云服務(wù)器、Exalytics商務(wù)智能云服務(wù)器,再到Oracle Endeca Information Discovery、Oracle實時決策、Oracle事件處理、R語言,尤其是強大的Oracle數(shù)據(jù)庫與中間件,構(gòu)成了大數(shù)據(jù)從捕獲、存儲、計算、處理、分析、發(fā)現(xiàn)、展現(xiàn)等全生命流程處理,能夠幫助企業(yè)有效應(yīng)對數(shù)據(jù)海洋,獲得分析洞見。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03