
大數(shù)據(jù)分析,利用向外擴展技術深入挖掘商業(yè)價值
大數(shù)據(jù)分析技術的價值在企業(yè)領域已經(jīng)非常明確。充分利用良好信息的能力一直是擺在IT部門面前的重要難題與挑戰(zhàn)。現(xiàn)在我們已經(jīng)擁有了足以解決這一難題的工具,接下來要做的就是想辦法使其為自己服務了。
方方面面的發(fā)展改進已經(jīng)讓從半結構化數(shù)據(jù)中獲取有價值信息成為可能。以Hadoop為代表的新型解決方案在構建層面就充分考慮到了要如何適應跨商用服務器集群的分布式運行環(huán)境。
新型分析工具與極大豐富的處理能力為我們敞開了一道大門,如今企業(yè)已經(jīng)能夠借此對龐大的業(yè)務及外部數(shù)據(jù)加以審視并獲取有價值結論。
從數(shù)據(jù)池當中挖掘有價值信息,從而實現(xiàn)知識提升的能力早已不算什么新鮮事。事實上,早在一個多世紀以前,這樣的處理方式就已經(jīng)成為科學與商務領域的支柱性機制——其誕生時間甚至遠早于計算機、數(shù)據(jù)庫以及其它主流技術成果。
舉例來說,來自倫敦的醫(yī)師John Snow曾在1854年記錄下霍亂疫情在倫敦蘇活區(qū)的具體病例爆發(fā)位置。他根據(jù)這些數(shù)據(jù)所繪制的疫情分布圖幫助醫(yī)護人員建立起霍亂與水源之間的病理性聯(lián)系,并確定寬待的一處公共水泵正是此次疾病的源頭。政府方面立即依數(shù)據(jù)指引采取了行動,從拆除該水泵開始一步步控制住了疾病的繼續(xù)蔓延。
Snow在十九世紀的研究成果可能被普遍視為“小數(shù)據(jù)”分析的勝利。當然,時至今日,萬眾矚目的焦點其實是“大數(shù)據(jù)”,這一新興詞匯指的是兩類數(shù)量龐大的數(shù)據(jù)集合——其一為由傳統(tǒng)數(shù)據(jù)庫負責打理的結構化數(shù)據(jù),其二則是以日志文件、位置數(shù)據(jù)、社交媒體內(nèi)容以及富媒體信息為代表的半結構化數(shù)據(jù)。
Gartner公司對大數(shù)據(jù)進行了更為準確的規(guī)范性定義,大家可以將其概括為“3V”概念,即:“高容量(volume)、高速率(velocity)以及/或者多類別(variety)信息,需要通過新型處理機制才能借此對決策制定、結論發(fā)現(xiàn)以及處理優(yōu)化起到輔助作用?!痹谶@里,“速率”指的是數(shù)據(jù)會以極高節(jié)奏進行內(nèi)容更新,而“類別”則代表大數(shù)據(jù)會顯示出多種格式及結構層級。
最終,大數(shù)據(jù)已經(jīng)成為IT部門不可忽視的一類沉重負擔——其數(shù)據(jù)存儲規(guī)模開始成倍擴大。如果不解決這一首要難題,企業(yè)根本無法從中提取到具備指導意義的實際價值。
大約十年之前,對如此規(guī)模的龐大數(shù)量集合、特別是半結構化數(shù)據(jù)進行分析處理簡直可以說是癡人說夢——即使是財力最為雄厚的企業(yè)也無從下手。能夠保存、整理并分析這類數(shù)據(jù)的工具根本不存在; 換言之,即使真實存在,其高昂的購買、部署與維護成本也會令企業(yè)望而卻步。
不過時至今日,方方面面的發(fā)展改進已經(jīng)讓從半結構化數(shù)據(jù)中獲取有價值信息成為可能。以Hadoop為代表的新型解決方案在構建層面就充分考慮到了要如何適應跨商用服務器集群的分布式運行環(huán)境。包括MongoDB、Cassandra、Couchbase、Neo4j在內(nèi)的多種開源NoSQL數(shù)據(jù)庫帶來了類似于規(guī)模經(jīng)濟的擴展機制:要添加更多計算與存儲容量,用戶只需在整套架構當中納入新的商用服務器即可——該架構能夠在面臨個別節(jié)點故障的情況下保證數(shù)據(jù)不致丟失。
大數(shù)據(jù)解決方案既能夠運行在內(nèi)部環(huán)境當中,又可以棲身在公有云平臺之上——后者也正是眾多大數(shù)據(jù)解決方案的主要指向目標。像Amazon EC2(全稱為彈性計算云,即Elastic Compute Cloud)這樣的商業(yè)云能夠根據(jù)實際需求提供成千上萬顆處理器計算核心以及幾乎不設上限的數(shù)據(jù)存儲容量。目前,只需一套網(wǎng)絡瀏覽器、一根網(wǎng)線外加一張個人信用卡,每位用戶都能以每小時1.70美元的實惠價格享受到具備32個虛擬CPU、60GB內(nèi)存以及600GB存儲容量的云基礎設施服務。
向外擴展計算允許數(shù)據(jù)科學家們通過分而治之的方式處理大數(shù)據(jù)計算難題,這種分布式處理幾乎能夠在瞬間從龐大的數(shù)據(jù)集中返回對應結果。與此同時,先進的分析與數(shù)據(jù)可視化技術則讓龐大而復雜的數(shù)據(jù)集變得易于理解,足以供不同領域的專家據(jù)此探尋更深層次的趨勢與規(guī)律。
大數(shù)據(jù)技術的市場規(guī)模近年來呈現(xiàn)出陡峭的上升曲線。根據(jù)IDC公布的2014預測報告顯示,大數(shù)據(jù)技術與服務市場將保持26%的年復合增長率、并于2018年達到415億美元的整體估值——這一速度基本相當于信息技術整體市場增幅的六倍。A.T.Kearney公司則預計,全球市場在大數(shù)據(jù)硬件、軟件以及服務領域所投入的開銷截至2018年將始終保持30%的年復合增長率。而到2018年,大數(shù)據(jù)服務與技術的整體市場規(guī)模將達到1140億美元。根據(jù)Wikkbon的統(tǒng)計,2014年大數(shù)據(jù)市場總體價值為285億美元,而這一數(shù)字在2015年將增長至501億美元。
大數(shù)據(jù)給企業(yè)業(yè)務帶來的助益可以說顯而易見。一方面,企業(yè)能夠從數(shù)據(jù)中獲取到原本只能經(jīng)由應用程序服務器或者(時間更久遠的)備份磁帶乃至文件柜提供的重要信息。最直觀的例子就是網(wǎng)站點擊流數(shù)據(jù)、系統(tǒng)事件日志以及其它一些重要記錄。這些數(shù)據(jù)隨后即可被全新的垂直應用程序體系所使用。
配合適當?shù)?a href='/map/shujukeshihua/' style='color:#000;font-size:inherit;'>數(shù)據(jù)可視化工具之后,大數(shù)據(jù)就能夠幫助各個領域的專業(yè)人士與有價值信息建立起更為直觀的聯(lián)系,并從中獲取到分析師們有可能忽略的重要模式。
不夸張地說,大數(shù)據(jù)所蘊藏的力量將只受到我們想象力的約束。下面舉幾個實例:
零售商已經(jīng)開始應用這項新技術
舉例來說,蘋果的iBeacon會對客戶的活動軌跡進行追蹤,而且追蹤對象并非哪些客戶進入了直營店、而是這些客戶在經(jīng)過店內(nèi)各檢測位置時正在做什么。其中包括他們在哪些產(chǎn)品或者演示內(nèi)容前駐足,具體駐足時間有多長等等。將這些數(shù)據(jù)整理起來,再結合他們最終所購買的產(chǎn)品,蘋果就能發(fā)現(xiàn)如何更加有效地對直營店組織以及產(chǎn)品的標注與銷售作出改革。
快捷腳本
快捷腳本每年能夠幫助醫(yī)生開具14億份處方。它會利用來自醫(yī)生辦公室、藥店、醫(yī)院以及實驗室的數(shù)據(jù)分析結果來診斷哪些病患有可能拒絕服藥或者不同藥品之間可能產(chǎn)生的副作用。
航班信息收集
在2013年進行的一次試點活動中,通用電氣公司對來自25條不同航線的15000次航班進行了完整的飛行信息收集,每次飛行產(chǎn)生的各項指標數(shù)據(jù)高達14GB。通用電氣最終將這些TB級別的飛行數(shù)據(jù)集整理起來,從而實現(xiàn)高達十倍的成本節(jié)約效果。到2015年,通用電氣計劃每年對100萬次航班進行監(jiān)控,其完整飛行操作數(shù)據(jù)總量將達到1500TB。
數(shù)據(jù)分析機制的應用已經(jīng)相當高效且演變速度極快,這甚至讓FTC(即美國聯(lián)邦貿(mào)易委員會)被迫向部分企業(yè)發(fā)出警告、稱大數(shù)據(jù)分析技術有可能給某些實施目標帶來公平性違反或導致特定群體受到損害。他們還特別強調(diào)了原本一直被認為是安全無害的某些常見數(shù)據(jù),例如電費單、點擊流數(shù)據(jù)、信用卡交易信息甚至是收費站記錄——這些如今都能夠在大數(shù)據(jù)分析的處理下得出新型結論,且極有可能令隱私受到侵犯。
目前大數(shù)據(jù)領域最令人興奮的要素就是找尋那些與業(yè)務緊密相關、但卻一直未被劃入收集范疇或者受到保存的數(shù)據(jù)源。從簡單層面講,這可能需要大家將現(xiàn)有銷售趨勢與關鍵性經(jīng)濟數(shù)據(jù)進行混合——或者采用時下最為流行的方式,在社區(qū)網(wǎng)絡站點上獲取與趨勢性議題相關的數(shù)據(jù)。這樣的處理機制讓個人隱私關注者們變得非常緊張。由外部數(shù)據(jù)供應商所提供的數(shù)據(jù)可能會描繪出細致程度驚人的隱私信息詳情。
隨著云計算變得愈發(fā)流行,能夠與數(shù)據(jù)分析機制相對接的可用數(shù)據(jù)源的數(shù)量也呈現(xiàn)出爆發(fā)式增長。其中包括對社交媒體數(shù)據(jù)、財務數(shù)據(jù)以及醫(yī)療數(shù)據(jù)的挖掘能力,這些數(shù)據(jù)通常都由經(jīng)過充分定義的API加以訪問,并能夠通過互聯(lián)網(wǎng)進行交付。盡管本身并不具備什么實際價值,但這類數(shù)據(jù)往往會在與其它時間序列型數(shù)據(jù)結合后帶來極具意義的關鍵性信息。舉例來說,我們可以通過對個人完整履歷的深入分析來推斷此人在未來幾年中犯罪入獄的可能性,預測某款新型產(chǎn)品線到底是瘋狂大賣還是無人問津,甚至檢測到某人或某個群體所攜帶的未確診健康問題將給人壽保險賠付成本帶來的顯著影響。
各供應商現(xiàn)在開始專門在企業(yè)商務智能體系內(nèi)提供這種按需數(shù)據(jù)服務,其中包括以谷歌及AWS為代表的大型IaaS以及PaaS云計算供應商。甚至政府機構也著手提供按需數(shù)據(jù),正如世界各地不斷涌現(xiàn)的數(shù)據(jù)供應商根據(jù)需求為企業(yè)用戶提供關鍵性商務智能服務支持一樣。事實上,經(jīng)營大數(shù)據(jù)分析服務的數(shù)據(jù)供應商群體的不斷擴大也反映出商務智能專家以及企業(yè)股東對于大數(shù)據(jù)分析中所蘊含潛在價值的肯定。
換句話來說,大數(shù)據(jù)分析并不屬于利基業(yè)務。它實際是一塊復雜的區(qū)域,在這里用戶可以從大量平臺當中作出選擇,而每種平臺都擁有著自己的優(yōu)勢與不足。事實上,大多數(shù)企業(yè)用戶在現(xiàn)有傳統(tǒng)數(shù)據(jù)庫之外,最終都會同時使用多種不同類型及品牌的新型數(shù)據(jù)庫方案。
最后,如今我們也擁有了能夠實現(xiàn)這一系列分析任務的能力。越來越多的自動化系統(tǒng)足以將大數(shù)據(jù)分析與業(yè)務流程結合在一起,從而允許運營系統(tǒng)以近實時方式對多種閾值設定作出響應。技術業(yè)界將這種機制稱為嵌入式分析,其中可能還引入了可編程、針對性配置方案或者足以支持此類服務的相關工具等。這些技術方案在業(yè)務環(huán)境下的作用實例包括分析實時交付的各項指標、將訂單路由至擁有更出色追蹤記錄的供應商或者利用已知的關鍵性預測數(shù)據(jù)整理出銷售趨勢展望、并借此以自動化方式制定生產(chǎn)計劃。
Hadoop可以說是目前處理大規(guī)模結構化與非結構數(shù)據(jù)的首選平臺。該技術方案采用分布式處理框架與開發(fā)環(huán)境,通常來講只有借助特定的應用程序開發(fā)技能才能對其加以高效利用。
數(shù)據(jù)處理流程與大數(shù)據(jù)分析即服務的崛起同樣起到了巨大而深遠的顛覆性作用。Amazon目前將其Kineses平臺作為數(shù)據(jù)處理流程方案,而谷歌則將數(shù)據(jù)處理流程引入了其BigQuery——也就是該公司打造的基于云的大數(shù)據(jù)產(chǎn)品。利用這種數(shù)據(jù)處理流技術,開發(fā)人員能夠每秒發(fā)送高達10萬行實時數(shù)據(jù),并以近實時方式對這些數(shù)據(jù)加以分析。這種能力對于那些要求使用實時信息的商務智能應用程序來說顯然至關重要。
現(xiàn)在最大的問題在于,專用型大數(shù)據(jù)分析工具到底能否在已經(jīng)具備商務分析基礎設施的企業(yè)當中確切起效。很多企業(yè)已經(jīng)制定了數(shù)據(jù)倉儲策略,而新型大數(shù)據(jù)解決方案則公然對其業(yè)已部署的傳統(tǒng)機制發(fā)起挑釁。與此同時,向新型數(shù)據(jù)分析基礎設施轉移意味著我們將面臨大量設計與實施方面的挑戰(zhàn),其中包括數(shù)據(jù)整合、數(shù)據(jù)安保、數(shù)據(jù)治理、數(shù)據(jù)可視化以及解決數(shù)據(jù)復雜性等等。
傳統(tǒng)商務智能的設計思路在于對結構化數(shù)據(jù)加以分析,從而提取出具備實用性的結論性信息。然而由于相關數(shù)據(jù)集往往太過陳舊或者規(guī)模有限,因此分析得出的結論也經(jīng)常存在局限性。此外,結構化數(shù)據(jù)僅僅是企業(yè)掌握的業(yè)務數(shù)據(jù)中的一小部分。不少分析人士估計,結構化數(shù)據(jù)在企業(yè)整體數(shù)據(jù)總量中的占比恐怕只有5%左右。
大數(shù)據(jù)技術的興起讓商務智能迎來了一系列關鍵性發(fā)展趨勢,相關方案包括以下幾種能力:
同時利用結構化與非結構化數(shù)據(jù),并將數(shù)據(jù)匯聚成單一的信息邏輯集、進而加以可視化處理。
在分析時引導結構變化,因此能夠通過對結構化或者非結構化物理數(shù)據(jù)的底層結構進行去耦來實現(xiàn)靈活性。
利用現(xiàn)有或者近實時數(shù)據(jù),允許關鍵性應用程序、業(yè)務流程以及相關人員查看到每分鐘進行更新的當前數(shù)據(jù)。
在云環(huán)境下訪問來自外部的數(shù)據(jù)源,因此能夠讓商務智能分析工具獲取到企業(yè)之外的數(shù)據(jù)、進而實現(xiàn)數(shù)據(jù)分析流程的強化或者改進。
甚至政府機構也著手提供按需數(shù)據(jù),正如世界各地不斷涌現(xiàn)的數(shù)據(jù)供應商根據(jù)需求為企業(yè)用戶提供關鍵性商務智能服務支持一樣。
將數(shù)據(jù)分析與業(yè)務流程及應用程序加以綁定,從而允許三者以無需人為干預的自動化方式實現(xiàn)問題處理。
大數(shù)據(jù)分析能夠通過將規(guī)模龐大且在復雜程度、格式以及時間線方面有所不同的數(shù)據(jù)整合成單一的結構化輸出結果,從而實現(xiàn)更出色的分析效果。大數(shù)據(jù)分析機制可以把文本、語音、流數(shù)據(jù)以及非結構化數(shù)據(jù)分析結合成統(tǒng)一結構,進而幫助企業(yè)通過動態(tài)分析模式從相關信息中獲取到不同角度的審視結論。這些模式能夠獲取一切適用于分析機制的數(shù)據(jù)形式,其中包括多維、單維、面向對象以及實時流程等等。
請大家記住,最為通行的趨勢在于最大程度匯聚結構化與非結構化數(shù)據(jù)。其中非結構化數(shù)據(jù)可能來自多種數(shù)據(jù)源類型,包括:
網(wǎng)絡頁面
視頻與音頻文件
文檔
來自設備或者其它數(shù)據(jù)庫的流數(shù)據(jù)
商務智能工具仍然在不斷演變,旨在進一步提升對大數(shù)據(jù)分析任務的支持能力。它們能夠提供更出色的數(shù)據(jù)可視化處理功能,從而對近實時信息以及類型更為廣泛的結構化與非結構化數(shù)據(jù)加以利用。簡單來說,只要數(shù)據(jù)本身擁有任何一種形式的電子格式,我們就有機會對其加以分析。
大數(shù)據(jù)分析機制可以把文本、語音、流數(shù)據(jù)以及非結構化數(shù)據(jù)分析結合成統(tǒng)一結構,進而幫助企業(yè)通過動態(tài)分析模式從相關信息中獲取到不同角度的審視結論。
大數(shù)據(jù)分析所面臨的關鍵性挑戰(zhàn)在于,規(guī)模日益龐大的數(shù)據(jù)源本身可能并不具備固有結構。我們將這些數(shù)據(jù)源匯聚至一套較為模糊且專為數(shù)據(jù)查詢所打造的結構周邊,而后將整體結構交付至數(shù)據(jù)分析API、服務或者商務智能工具,由后者負責處理數(shù)據(jù)可視化或者其它類型的交互式分析任務(詳見圖一)。
能夠提供趨勢性數(shù)據(jù)的社交媒體API或者服務
以公共數(shù)據(jù)服務為代表的外部數(shù)據(jù)源
傳統(tǒng)非結構化數(shù)據(jù),例如基于文本的早期數(shù)據(jù)庫
那么這一切到底是如何運作的?首先,非結構化與結構化數(shù)據(jù)會被收集到一套文件系統(tǒng)當中。在這里,我們考慮使用一套Hadoop分布式文件系統(tǒng)(簡稱HDFS)。
從理論層面講,HDFS的功能與其它大數(shù)據(jù)數(shù)據(jù)庫技術方案并沒有什么區(qū)別,不過我們可以在數(shù)據(jù)庫內(nèi)部利用多種不同機制對數(shù)據(jù)加以處理?;蛘?,大家可能會發(fā)現(xiàn)自己的大數(shù)據(jù)架構內(nèi)部使用多種數(shù)據(jù)庫技術??偠灾?,我們的具體需求決定了這一結構的實際狀況。
為數(shù)據(jù)賦予意義
當利用Hadoop進行大數(shù)據(jù)分析時,包括結構化與非結構化兩類數(shù)據(jù),這套分析引擎能夠在數(shù)秒之內(nèi)即向商務智能工具返回處理結果。大家可以利用商務智能工具來分析可視化數(shù)據(jù)、在企業(yè)應用程序內(nèi)部使用嵌入式分析機制或者利用數(shù)據(jù)分析API或服務分析業(yè)務流程。
在Hadoop當中,數(shù)據(jù)以塊的形式被保存在Hadoop集群當中的不同節(jié)點內(nèi)部(見圖一)。這套文件系統(tǒng)會為這些數(shù)據(jù)塊創(chuàng)建多套副本,并通過可靠的方式將其發(fā)布至整個集群、旨在實現(xiàn)理想的檢索速度。數(shù)據(jù)塊的大小可謂多種多樣,但一般來說HDFS的典型數(shù)據(jù)塊大小為128MB,且會被復制到集群內(nèi)的多個節(jié)點之上。
我們?nèi)祟愑脩糁惶幚砦募@就意味著在其進入文件系統(tǒng)之前、相關內(nèi)容往往并不屬于嚴格意義上的結構化形式。接下來數(shù)據(jù)映射機制開始起效,通過對這些非結構化內(nèi)容的處理為其定義出與內(nèi)容相關的核心元數(shù)據(jù)。由于分析工具或者其它數(shù)據(jù)使用方可能會對元數(shù)據(jù)提出不同類型的要求,因此這些非結構化數(shù)據(jù)往往會被不斷重復映射、從而調(diào)整至最理想的分析狀態(tài)。
在某些情況下,我們還需要Hadoop Hive的協(xié)助。Hive是一套數(shù)據(jù)倉庫系統(tǒng),能夠對保存在Hadoop集群當中的大型數(shù)據(jù)集進行數(shù)據(jù)匯總、臨時性查詢以及分析。Hive提供的機制允許我們根據(jù)數(shù)據(jù)進行結構規(guī)劃,并利用一款名為HiveQL的類似于SQL的語言進行數(shù)據(jù)查詢。其接口取決于大家的實際需求以及所使用商務智能工具的數(shù)據(jù)整合能力。
另一套選項則是Apache Pig。Pig是一款面向Hadoop的高層平臺,用于創(chuàng)建MapReduce規(guī)劃。它會對來自MapReduce引擎的規(guī)劃方案進行抽象化處理。與Hive類似,Pig同樣利用自己的獨特語言與數(shù)據(jù)進行交互。
總體而言,當我們通過一款商務智能工具執(zhí)行查詢時,整個過程將分為以下步驟:
運轉中的結構
商務智能工具所使用的結構可以專門針對數(shù)據(jù)分析目的所創(chuàng)建。相關信息存在于文件系統(tǒng)集群當中,而元數(shù)據(jù)則根據(jù)用例所需要的支持方式被映射至對應內(nèi)容。這就為用戶帶來了一類更具動態(tài)以及靈活特性的商務智能解決方案。
這是一類非常常見的場景,而大家所選擇的商務智能工具當中可能包含多種不同類型的具體方案。很多商務智能工具使用的映射機制能夠使數(shù)據(jù)擁有如存儲在傳統(tǒng)關系型數(shù)據(jù)庫中的效果。此類工具還能發(fā)揮大數(shù)據(jù)技術的大量原生性功能優(yōu)勢,其中包括在對象利用等分析模型中以不同方式對結構化與非結構化數(shù)據(jù)加以處理的能力。
某些商務智能工具能夠將經(jīng)過總結或者匯聚的數(shù)據(jù)載入至一套臨時性多維“立方(cube)”結構當中(詳見圖三)。這就允許分析人員以最具實用性的方式對來自大數(shù)據(jù)系統(tǒng)的信息進行可視化處理。
這種模式的差異之處在于,現(xiàn)在結構化與非結構化兩類數(shù)據(jù)都能進行可視化處理。此外,新型與經(jīng)過擴展的分析機制也能夠借助這類可用性數(shù)據(jù)的交付而成為現(xiàn)實,例如:
報告或者描述性分析
建?;蛘哳A測性分析
集群化
關聯(lián)性分組
在大數(shù)據(jù)分析領域,最重要的一點在于新型思維方式正在不斷興起。如今數(shù)據(jù)已經(jīng)可以由任何有意對其加以審視的人進行探索。我們的視野已經(jīng)不再局限于有限的自有業(yè)務數(shù)據(jù)范疇,惟一束縛我們實現(xiàn)數(shù)據(jù)整理及編輯的因素就只有想象力這一項。除此之外,我們的分析模式,例如預測性模式,在數(shù)據(jù)完整性的不斷提升之下足以提供更為理想的處理結果。
對于大數(shù)據(jù)的高度關注可以說貫穿于整個垂直業(yè)界當中,但專業(yè)知識與投資額度卻呈現(xiàn)出廣泛而且差異化顯著的分散態(tài)勢(詳見圖四)。教育、醫(yī)療以及交通行業(yè)在2012年成為最為積極的大數(shù)據(jù)技術受眾。
到如今的2014年,我們的關注重點開始轉向將數(shù)據(jù)交付給在業(yè)務流程中扮演操作角色的工作人員,或者利用數(shù)據(jù)在分析機制與應用程序或業(yè)務流程之間建立起直接關聯(lián)。這意味著在正確的時間將正確的數(shù)據(jù)交給正確的使用者。對于大數(shù)據(jù)分析系統(tǒng)的構建者——通常采用我們之前所提到的各類技術方案——這意味著大家需要從原本企業(yè)領導者所關注的商務智能角度轉向實際操作人員更為關注的功能性層面。
數(shù)據(jù)維度
商務智能工具利用大量分析模型與結構對大數(shù)據(jù)加以分析。在這種情況下,數(shù)據(jù)將被載入至一套多維臨時性模型當中,并在這里以多種方式進行可視化處理。
您所在的企業(yè)是否已經(jīng)在相關技術方案領域進行投資,旨在通過特殊設計
根據(jù)Gartner公司的調(diào)查,幾乎所有垂直行業(yè)都開始在大數(shù)據(jù)分析領域進行投資,其中教育、交通與醫(yī)療行業(yè)投入態(tài)度最為積極。
在多數(shù)情況下,這意味著支持實時或者近實時數(shù)據(jù)分析機制。最直觀的例子就是倉儲經(jīng)理需要通過一份包含未來幾個月庫存預估情況的預測性報告來部署執(zhí)勤人員,或者是醫(yī)師根據(jù)病患整體追蹤數(shù)據(jù)來判斷當前患者是否會對某種藥物產(chǎn)生不良反應。我們甚至有能力利用來自工業(yè) 機器人的匯總數(shù)據(jù)來評估未來四千個小時內(nèi)整套系統(tǒng)是否會出現(xiàn)運作故障。
大家不妨考慮以下幾種用例:
大數(shù)據(jù)分析能夠幫助企業(yè)以更為具體且準確的方式對自身業(yè)務狀況進行審視,其中自然包括業(yè)務流程的生產(chǎn)效率。分析機制能夠在數(shù)據(jù)可視化方案中以高亮效果標注出業(yè)務流程當中未達到既定標準的部分。
舉例來說,在數(shù)據(jù)可視化技術的輔助下,企業(yè)用戶可以從細節(jié)角度觀察銷售流程記錄以及出貨步驟,并了解其與其它業(yè)務流程及客戶滿意度之間的關系。對整個業(yè)務流程加以優(yōu)化能夠大大降低意外狀況,從而保證業(yè)務合作關系的穩(wěn)定發(fā)展。
在與企業(yè)運營應用程序相結合之后,嵌入式大數(shù)據(jù)分析機制能夠帶來可觀的商業(yè)價值。舉例來說,一家企業(yè)可以將出貨應用與分析信息相結合,從而在數(shù)TB規(guī)模的多年出貨記錄PDF文件當中整理出按時交貨記錄。這類數(shù)據(jù)也可以由來自外部數(shù)據(jù)源的信息構成,例如客戶在社交媒體或者博客中表現(xiàn)出的抱怨情緒。
醫(yī)療系統(tǒng)往往會通過多種不同格式在不同位置保存我們的信息,這就導致分析機制往往很難甚至無法將此類數(shù)據(jù)作為單一信息集群加以處理。但在大數(shù)據(jù)分析機制的幫助下,我們?nèi)缃窨梢詫⑺薪Y構化與非結構化醫(yī)療數(shù)據(jù)收集起來,并將其作為單一集群供商務智能工具加以分析。這能夠幫助醫(yī)療專家以預期療效為基準對病患歷史數(shù)據(jù)及療法進行審視,從而大大提高其設計療法成功治愈疾病的可能性。
零售企業(yè)需要通過對特定市場及客戶的深入了解來構建起屬于自身的獨特競爭優(yōu)勢。在這方面,大數(shù)據(jù)分析同樣擁有極為可觀的潛在價值。由其驅動的商務智能工具可以創(chuàng)建出對應模型,通過收集自龐大非結構化數(shù)據(jù)的預測性數(shù)據(jù)點來評估一款產(chǎn)品獲得成功的可能性。
這類數(shù)據(jù)當中可能包含對現(xiàn)有客戶群體的人口統(tǒng)計信息,并將其與過去曾經(jīng)獲得成功的產(chǎn)品作出模式比對,進而歸納出哪些氣候模式能夠確切影響到產(chǎn)品的市場接受情況(例如在氣溫極低的寒冬,羽絨服往往會大受歡迎)。這種思路旨在為零售企業(yè)中的核心決策者提供經(jīng)過深度剖析的數(shù)據(jù)處理結論,從而了解應該對哪些產(chǎn)品進行大力宣傳、優(yōu)惠銷售或者對其展示位置進行調(diào)整。
交通系統(tǒng)的核心訴求在于效率提升。舉例來說,航空公司在設定航線時需要選擇最平順而且最有利可圖的路線。在大數(shù)據(jù)分析機制的幫助下,決策者們可以利用包含有關鍵性預測指標、能夠真實反映收集自外部數(shù)據(jù)源的數(shù)據(jù)集的歷史信息評估哪些路線最具商業(yè)開拓價值。
大數(shù)據(jù)分析允許航空公司從政府機關手中收集到多年以來積累下來的飛行數(shù)據(jù),其中包括起飛位置、乘客數(shù)量以及按時抵達記錄等等。他們隨后可以將來自其它航空公司的價格信息與這部分數(shù)據(jù)進行比對。在預測性數(shù)據(jù)中,他們還可以添加過去幾年中潛在乘客對目的地的網(wǎng)絡搜索次數(shù),再加上這些地點在社交媒體中被提及的頻率。通過將這些數(shù)據(jù)模型交付給商務智能工具,航空公司即可非常明確地找出可行而且能夠切實帶來收益的全新航線,甚至還包括未來機票的銷售情況乃至建議售價。
為了盡可能發(fā)揮大數(shù)據(jù)分析機制的潛能,大家需要將自身從傳統(tǒng)商務智能與數(shù)據(jù)倉庫體系當中解放出來。遺憾的是,創(chuàng)造商務智能方案的技術人員往往傾向于將傳統(tǒng)商務智能機制強行納入全新大數(shù)據(jù)世界(這顯然有些格格不入)。這樣一來,他們就會錯失發(fā)揮這一新型技術巨大能量的機會甚至遭遇慘痛的失敗。
除此之外,大數(shù)據(jù)技術市場目前確實呈現(xiàn)出相當嚴重的碎片化與復雜化態(tài)勢。作為發(fā)展的早期階段,每家廠商都在打造純Hadoop類型的實施方案; 但時至今日,企業(yè)用戶已經(jīng)意識到自身特定需求必須由針對特定目的打造的數(shù)據(jù)庫來實現(xiàn),其中包括內(nèi)存內(nèi)、NoSQL或者其它一些專注于特殊功能的數(shù)據(jù)庫技術,例如性能、大規(guī)模數(shù)據(jù)存儲或者與公有云供應商的對接能力等。
將公有云作為大數(shù)據(jù)技術主機的方案既帶來良好的發(fā)展機遇,同時也造成了不少難題。大數(shù)據(jù)技術通常采用以云為基礎的多租戶機制,此外也為用戶提供能夠運行在內(nèi)部環(huán)境下的版本。盡管公有云在可擴展性與成本效益方面具備相當程度的優(yōu)勢,但企業(yè)仍然需要為其安全性及合規(guī)性保障操心費力。此外,當下的大部分數(shù)據(jù)都散布于其原本生成之處,且需要由托管在公有云內(nèi)部的大數(shù)據(jù)系統(tǒng)加以逐一收集。
也就是說,大數(shù)據(jù)分析對于企業(yè)業(yè)務的可觀助力極具價值、不容忽視。大多數(shù)企業(yè)需要就當下開始著手建立自己的大數(shù)據(jù)發(fā)展戰(zhàn)略,或者是對幾年前所打造的現(xiàn)有大數(shù)據(jù)戰(zhàn)略作出更新及調(diào)整。為了達成這一目標,下面我們一同來看在企業(yè)內(nèi)部實施大數(shù)據(jù)分析方面的幾點建議:
1. 從技術角度出發(fā)了解核心業(yè)務的實際需求,并以此為基礎創(chuàng)建業(yè)務用例。確保我們的注意力始終集中在戰(zhàn)略價值層面——例如如何更好地理解歷史業(yè)務記錄——以及戰(zhàn)術價值層面——例如如何在未來幾年內(nèi)顯著降低庫存成本。
2. 對自己的數(shù)據(jù)源加以定義。它們在哪里?它們到底是什么?如何最具效率地與數(shù)據(jù)源對接并根據(jù)需要進行內(nèi)容復制?這意味著確切定義數(shù)據(jù)整合問題,從而順利將其從A點轉移至B點。
3. 定義已知用例,其中包括未來要用到的、能夠切實理解數(shù)據(jù)內(nèi)容的分析模型。
4. 創(chuàng)建一套概念驗證機制,用于深入了解技術方案本身以及將該技術引入企業(yè)環(huán)境可能帶來的復雜性難題。
5. 考慮性能表現(xiàn)、安全性以及數(shù)據(jù)治理方面的問題。這些問題通過會受到忽視,但在成功的實施體系中卻又不可或缺。
6. 投入時間與金錢對商務智能技術的功能與特性進行評估。商務智能與數(shù)據(jù)可視化方案的作用是為大家開啟審視數(shù)據(jù)的窗口,而任何局限性都會大大影響到數(shù)據(jù)價值的挖掘與發(fā)揮。
7.嚴格定義成功指標。在使用大數(shù)據(jù)分析技術的一年之后評估哪些元素正常運行,哪些卻未能順利起效。無需引發(fā)太多破壞性影響,我們就能對技術項目作出調(diào)試。
8. 最后,確保為這項技術創(chuàng)建一套發(fā)展路線圖。其中應當包含目前的使用方式以及短期與長期業(yè)務規(guī)劃。了解與計劃實施的技術相關的重要發(fā)展趨勢,其中包括可選方案、底層技術以及可能獲得成功的方案供應商,最后還要加上哪些選項最適合自身企業(yè)在未來的發(fā)展需要。
大數(shù)據(jù)分析技術的價值在企業(yè)領域已經(jīng)非常明確。充分利用良好信息的能力一直是擺在IT部門面前的重要難題與挑戰(zhàn)?,F(xiàn)在我們已經(jīng)擁有了足以解決這一難題的工具,接下來要做的就是想辦法使其為自己服務了。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03