
從目標到技術再到實踐!大數(shù)據(jù)之可視化分析
大數(shù)據(jù)可以用在很多場景中,但是不管怎么應用,對于用戶來說,需要將我們加工處理后的數(shù)據(jù),進行可視化的展現(xiàn),那么大數(shù)據(jù)如何進行可視化分析的呢?今天小編就給大家?guī)泶髷?shù)據(jù)之可視化分析技術。
一、 實例目標
大數(shù)據(jù)開啟了一個前所未有的信息大爆炸時代,在當今的環(huán)境中,大數(shù)據(jù)已經(jīng)將我們對分析的認識從向后分析變成了向前分析,同時向我們提出了數(shù)據(jù)采集、分析和使用等難題。
大數(shù)據(jù)需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增量率和多樣化的信息資產(chǎn)。大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉庫應用,具有數(shù)據(jù)量大、查詢分析復雜等特點。
大數(shù)據(jù)的海量數(shù)據(jù)信息帶來更多的是數(shù)據(jù)價值,但是我們不能忽視數(shù)據(jù)分析的重要性。提高數(shù)據(jù)分析的效率,對大數(shù)據(jù)信息進行剔除、篩選,建立大數(shù)據(jù)戰(zhàn)略體系,其首要實現(xiàn)的是數(shù)據(jù)分析,因為企業(yè)對各類數(shù)據(jù)的解讀與應用都必須是在有價值的數(shù)據(jù)上進行,只有通過對所需要數(shù)據(jù)的全面準確分析,形成數(shù)據(jù)流規(guī)模,這樣的數(shù)據(jù)結果對決策行為才有指導性作用。
本章就是建立大數(shù)據(jù)的可視化分析模型,通過從網(wǎng)頁中直接提取結構性數(shù)據(jù),對人物建立索引,以幫助信息工作者對其進行分類檢索。主要實現(xiàn)以下幾個功能需求:
(1)具有數(shù)據(jù)采集功能,可以完成金融行業(yè)公司(如證券交易公司)的系統(tǒng)數(shù)據(jù)庫所需要數(shù)據(jù)抽取、統(tǒng)計、轉換、入庫,建立先進、安全、穩(wěn)定、可管理、可擴展以及能夠滿足大規(guī)模的企業(yè)級應用需要的數(shù)據(jù)庫基礎環(huán)境。
(2)提供基于web的數(shù)據(jù)可視化分析,通過靈活的動態(tài)圖表展示對數(shù)據(jù)進行多角度、深層次的分析展示,滿足從公司到營業(yè)部到客戶經(jīng)理的各級業(yè)務決策管理崗位的數(shù)據(jù)分析要求。
二、 技術關鍵
數(shù)據(jù)可視化是指對大型數(shù)據(jù)庫或者數(shù)據(jù)倉庫中的數(shù)據(jù)的可視化,其基本思想是將數(shù)據(jù)庫中的每一個數(shù)據(jù)作為單個圖形元素表示,大量的數(shù)據(jù)集構成數(shù)據(jù)圖像,同時將數(shù)據(jù)的各個屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對數(shù)據(jù)進行更深入的觀察和分析。
在數(shù)據(jù)的可視化方面,主要的研究方向是將數(shù)據(jù)庫或者數(shù)據(jù)倉庫中的數(shù)據(jù),從不同的抽象層次將屬性、維度進行聯(lián)合指揮,以不同的呈現(xiàn)形式展現(xiàn)給用戶,這被稱為“前端展示”。
可視化可從三個層次上進行實現(xiàn),同時對應三種處理方式,即后處理、跟蹤和駕馭。在實現(xiàn)的過程中涉及到計算機圖形學、圖像處理、人機交互、網(wǎng)絡通訊等領域的許多技術問題。
數(shù)據(jù)可視化技術的主要特點是:
(1)交互性。用戶可以方便地以交互的方式管理和開發(fā)數(shù)據(jù)。
(2)多維性。可以看到表示對象或事件的數(shù)據(jù)的多個屬性或變量,數(shù)據(jù)可以按每一維的值,將其分類、排序、組合和顯示。
(3)可視性。數(shù)據(jù)可以用圖象、曲線、二維圖形、三維體和動畫來顯示。并可對其模式和相互關系進行可視化分析。
2.1 數(shù)據(jù)采集
數(shù)據(jù)采集(有時縮寫為DAQ或DAS),又稱為“數(shù)據(jù)獲取”或“數(shù)據(jù)收集”,是指對現(xiàn)實世界進行采樣,以便產(chǎn)生可供計算機處理的數(shù)據(jù)的過程。通常,數(shù)據(jù)采集過程之中包括為了獲得所需信息,對于信號和波形進行采集并對它們加以處理的步驟。數(shù)據(jù)采集系統(tǒng)的組成元件當中包括用于將測量參數(shù)轉換成為電信號的傳感器,而這些電信號則是由數(shù)據(jù)采集硬件來負責獲取的。
根據(jù)能夠分析的業(yè)務數(shù)據(jù)集的特征和內部的結構,數(shù)據(jù)可視化工具被分成兩個主要的類別:多維可視化和專門的層次和地形可視化。
2.2 數(shù)據(jù)分析
數(shù)據(jù)分析是指為了提取有用信息和形成結論而對數(shù)據(jù)加以詳細研究和概括總結的過程。數(shù)據(jù)分析與數(shù)據(jù)挖掘密切相關,但數(shù)據(jù)挖掘往往傾向于關注較大型的數(shù)據(jù)集,較少側重于推理,且常常采用的是最初為另外一種不同目的而采集的數(shù)據(jù)。在統(tǒng)計學領域,有些人將數(shù)據(jù)分析劃分為描述性統(tǒng)計分析、探索性數(shù)據(jù)分析以及驗證性數(shù)據(jù)分析;其中,探索性數(shù)據(jù)分析側重于在數(shù)據(jù)之中發(fā)現(xiàn)新的特征,而驗證性數(shù)據(jù)分析則側重于已有假設的證實或證偽。
數(shù)據(jù)分析的類型包括:
(1)探索性數(shù)據(jù)分析:是指為了形成值得假設的檢驗而對數(shù)據(jù)進行分析的一種方法,是對傳統(tǒng)統(tǒng)計學假設檢驗手段的補充。該方法由美國著名統(tǒng)計學家約翰·圖基命名。
(2)定性數(shù)據(jù)分析:又稱為“定性資料分析”、“定性研究”或者“質性研究資料分析”,是指對諸如詞語、照片、觀察結果之類的非數(shù)值型數(shù)據(jù)(或者說資料)的分析。
數(shù)據(jù)可視化分析,從常用和實用的維度來看,有5中分析方法:
(1) 面積&尺寸可視化
對同一類圖形(例如柱狀、圓環(huán)和蜘蛛圖等)的長度、高度或面積加以區(qū)別,來清晰的表達不同指標對應的指標值之間的對比。這種方法會讓瀏覽者對數(shù)據(jù)及其之間的對比一目了然。制作這類數(shù)據(jù)可視化圖形時,要用數(shù)學公式計算,來表達準確的尺度和比例。
(2) 顏色可視化
通過顏色的深淺來表達指標值的強弱和大小,是數(shù)據(jù)可視化設計的常用方法,用戶一眼看上去便可整體的看出哪一部分指標的數(shù)據(jù)值更突出。
(3) 圖形可視化
在我們設計指標及數(shù)據(jù)時,使用有對應實際含義的圖形來結合呈現(xiàn),會使數(shù)據(jù)圖表更加生動的被展現(xiàn),更便于用戶理解圖表要表達的主題。
(4) 地域空間可視化
當指標數(shù)據(jù)要表達的主題跟地域有關聯(lián)時,我們一般會選擇用地圖為大背景。這樣用戶可以直觀的了解整體的數(shù)據(jù)情況,同時也可以根據(jù)地理位置快速的定位到某一地區(qū)來查看詳細數(shù)據(jù)。
(5) 概念可視化
通過將抽象的指標數(shù)據(jù)轉換成我們熟悉的容易感知的數(shù)據(jù)時,用戶便更容易理解圖形要表達的意義。
2.3 數(shù)據(jù)治理
數(shù)據(jù)治理涵蓋為特定組織機構之數(shù)據(jù)創(chuàng)建協(xié)調一致的企業(yè)級視圖(enterprise view)所需的人員、過程和技術,數(shù)據(jù)治理旨在:
(1)增強決策制定過程中的一致性與信心
(2)降低遭受監(jiān)管罰款的風險
(3)改善數(shù)據(jù)的安全性
(4)最大限度地提高數(shù)據(jù)的創(chuàng)收潛力
(5)指定信息質量責任
2.4 數(shù)據(jù)管理
數(shù)據(jù)管理,又稱為“數(shù)據(jù)資源管理”,包括所有與管理作為有價值資源的數(shù)據(jù)相關的學科領域。對于數(shù)據(jù)管理,DAMA所提出的正式定義是:“數(shù)據(jù)資源管理是指用于正確管理企業(yè)或機構整個數(shù)據(jù)生命周期需求的體系架構、政策、規(guī)范和操作程序的制定和執(zhí)行過程”。這項定義相當寬泛,涵蓋了許多可能在技術上并不直接接觸低層數(shù)據(jù)管理工作(如關系數(shù)據(jù)庫管理)的職業(yè)。
2.5 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是指對大量數(shù)據(jù)加以分類整理并挑選出相關信息的過程。數(shù)據(jù)挖掘通常為商業(yè)智能組織和金融分析師所采用;不過,在科學領域,數(shù)據(jù)挖掘也越來越多地用于從現(xiàn)代實驗與觀察方法所產(chǎn)生的龐大數(shù)據(jù)集之中提取信息。
數(shù)據(jù)挖掘被描述為“從數(shù)據(jù)之中提取隱含的,先前未知的,潛在有用信息的非凡過程”,以及“從大型數(shù)據(jù)集或數(shù)據(jù)庫之中提取有用信息的科學”。與企業(yè)資源規(guī)劃相關的數(shù)據(jù)挖掘是指對大型交易數(shù)據(jù)集進行統(tǒng)計分析和邏輯分析,從中尋找可能有助于決策制定工作的模式的過程。
三、實現(xiàn)過程
3.1 技術原理
數(shù)據(jù)實現(xiàn)可視化的整體的流程如下:
3.1.1 捕獲數(shù)據(jù)流
實時數(shù)據(jù)流使用scrapers、collectors、agents、listeners捕獲,并且存儲在數(shù)據(jù)庫中。數(shù)據(jù)庫通常是hbase或者nosql數(shù)據(jù)庫,例如,Cassandra、MongoDB,或者有時候是你只是hadoopHive。關系數(shù)據(jù)庫不適合這種高展現(xiàn)的分析。
3.1.2 數(shù)據(jù)流處理
數(shù)據(jù)流可以通過許多方式處理,比如,分裂、合并、計算以及與外部數(shù)據(jù)源結合。這些工作由一個容錯分布式數(shù)據(jù)庫系統(tǒng),比如,Storm、Hadoop,這些都是比較常用的大數(shù)據(jù)處理框架。但是他們卻不是實時數(shù)據(jù)分析的理想選擇。因為他們依賴MapReduce面向批量的處理。不過Hadoop2.0允許使用其他計算算法代替MapReduce,這樣使得Hadoop在實時分析系統(tǒng)中運用又進了一步。處理之后,數(shù)據(jù)就可以很可視化組件讀取了。
3.1.3 數(shù)據(jù)可視化組件讀取處理過的數(shù)據(jù)
處理過的數(shù)據(jù)以結構化的格式(比如JSON或者XML)存儲在NoSQL數(shù)據(jù)庫中,被可視化組件讀取。在大多數(shù)情況下,這會是一個嵌入到一個內部BI系統(tǒng)的圖表庫,或者成為像Tableau這種更加廣泛的可視化平臺的一部分。處理過的數(shù)據(jù)在JSON/XML文件中的刷新頻率,稱為更新時間間隔。
3.1.4 可視化前端展現(xiàn)
可視化組件從結構數(shù)據(jù)文件(JSON/XML),在圖表界面繪制一個圖表、儀表或者其他可視化行為。處理過的數(shù)據(jù)在客戶端展現(xiàn)的頻率叫做刷新間隔時間。在一些應用程序中,比如帶有圖表渲染功能的股票交易應用程序,會預先設置基于數(shù)據(jù)流的觸發(fā)功能。
3.2 系統(tǒng)實現(xiàn)整體過程
以金融行業(yè)的某證券公司為例,對該公司的可視化系統(tǒng)的實現(xiàn)進行分析,系統(tǒng)的組成框架圖如下所示:
本系統(tǒng)包括數(shù)據(jù)采集和數(shù)據(jù)可視化分析兩大部分。其中數(shù)據(jù)采集包括客戶端數(shù)據(jù)采集、營業(yè)部數(shù)據(jù)采集、公司數(shù)據(jù)采集、滬深指數(shù)采集;數(shù)據(jù)可視化分析包括客戶數(shù)據(jù)分析、營業(yè)部數(shù)據(jù)分析、公司數(shù)據(jù)分析。
3.3 數(shù)據(jù)采集子系統(tǒng)
3.3.1 數(shù)據(jù)采集
數(shù)據(jù)采集子系統(tǒng)的主要功能是對業(yè)務數(shù)據(jù)及其他外部數(shù)據(jù)源數(shù)據(jù)進行數(shù)據(jù)抽取、清洗、轉換等操作后形成統(tǒng)一標準的數(shù)據(jù),存放在數(shù)據(jù)庫中。這里的數(shù)據(jù)采集,包括客戶數(shù)據(jù)采集、營業(yè)部數(shù)據(jù)采集、公司分析數(shù)據(jù)采集和滬深股市數(shù)據(jù)采集。
(1) 客戶數(shù)據(jù)采集
這里采集的數(shù)據(jù)有:客戶基本資料表,客戶資金情況表,客戶股票庫存明細表、客戶資金流水、客戶股票交易流水燈。經(jīng)過數(shù)的采集、清理、數(shù)據(jù)集成生成一個便于數(shù)據(jù)分析的數(shù)據(jù)庫,包括為所有客戶的年初資產(chǎn)(資金額+股票市值)、傭金貢獻、現(xiàn)金存取頻率及差額、盈虧情況和交易操作頻率。
(2) 營業(yè)部數(shù)據(jù)采集
營業(yè)部數(shù)據(jù)采集所有的庫表與客戶數(shù)據(jù)采集所用的庫表類似,只是根據(jù)需要將統(tǒng)一營業(yè)部的客戶數(shù)據(jù)按屬性進行了匯總、計算和轉換,生成該營業(yè)部每日的客戶數(shù)、客戶資產(chǎn)總值、交易量匯總、交易品種匯總等。
(3) 公司分析數(shù)據(jù)采集
公司分析所需的數(shù)據(jù),是根據(jù)營業(yè)部數(shù)據(jù)的再次匯總。
(4) 滬深股市數(shù)據(jù)采集
這里包含上海和深圳股市每日指數(shù)(開盤、收盤、最高、最低)、成交量、成交額等。
3.3.2 數(shù)據(jù)處理
為了確保各變量在分析中的地位相同,可以對數(shù)據(jù)進行數(shù)據(jù)變換:中心化與標準變換。
(1)中心化
就是使各種屬性的觀測值都有相同的基點。
(2) 標準化
就是在中心化的基礎上再作變換,使各種屬性的變換范圍相等。常用的有標準差標準化變換。
3.4 數(shù)據(jù)分析子系統(tǒng)
這里的數(shù)據(jù)分析子系統(tǒng),我們以客戶分析為例進行闡述實現(xiàn)過程。
(1)客戶資產(chǎn)與交易分布圖:將所有該營業(yè)部的客戶按照:有交易有資產(chǎn);有交易無資產(chǎn);無交易有資產(chǎn);無交易無資產(chǎn)分為四類,并顯示各類別客戶資產(chǎn)總值、交易總量、人數(shù)合計及其占比。
數(shù)據(jù)來源:營業(yè)部客戶信息表。
計算方法:對該營業(yè)部資產(chǎn)=資金+市值、交易量,客戶數(shù)據(jù)分類求和,并計算各類別客戶數(shù)據(jù)占比。
圖標類型:餅圖或環(huán)圖
(2)營業(yè)部價值客戶分布圖:顯示營業(yè)部不同資產(chǎn)、不同傭金的客戶的分別,并顯示其盈虧狀況。
數(shù)據(jù)來源:營業(yè)部客戶信息表
計算方法:對客戶傭金、資產(chǎn)(資金+市值)、盈虧字段數(shù)據(jù)進行中心化和標準化后輸出。
圖標類型:氣泡圖。X軸可以表示資產(chǎn)區(qū)間,Y軸表示傭金區(qū)間。氣泡紅色表示盈利,藍色表示虧損,氣泡大小表示盈虧程度。
(3客戶價值分類分析:從客戶信息表中將所有產(chǎn)生傭金的客戶按照傭金排序,前1%為“最重要的客戶”,之后的4%為主要客戶,之后的15%為大客戶,剩余的80%的客戶為小客戶。分類分指標分析四類客戶特性。
數(shù)據(jù)來源:客戶信息表
計算方法:分類對客戶數(shù)量、傭金求和,對資產(chǎn)、資金、市值、傭金,交易次數(shù)、資金存取差額、存取次數(shù)、盈虧求平均值。
圖表類型:棒圖
四、價值分析
利用可視化,可以進行數(shù)據(jù)的預測和便于領導層進行管理決策。同時,利用可視化技術,可以實現(xiàn)以下幾點:
(1) 多維疊加式數(shù)據(jù)可視化應用
此類應用多用于社交網(wǎng)絡或者生活消費類應用與數(shù)字地圖的疊。基于地理位置的網(wǎng)絡數(shù)據(jù)信息分享傳播具有某種互動娛樂性。比如在微信中,用戶可以依靠對方和自己的距離信息來篩選好友;在大眾點評上,可以基于地理信息輕松找到附近的酒店、餐廳,用戶可以在地圖上對店鋪進行留言評價,還可以在地圖的對應位置留下圖片供其他用戶參考。此類數(shù)據(jù)可視化應用中,用戶所獲取的視覺信息不再是單一維度而是多維的。
(2) 即時的數(shù)據(jù)關聯(lián)趨勢可視化服務
通過對若干存在關聯(lián)性的可視化數(shù)據(jù)進行比較重,能夠挖掘出數(shù)據(jù)之間的重要關聯(lián)或者是呈現(xiàn)一個有理有據(jù)的數(shù)據(jù)發(fā)展趨勢。在大數(shù)據(jù)環(huán)境下,這種數(shù)據(jù)可視化服務已經(jīng)能夠輕松做到即時生成,即數(shù)據(jù)采集完成后就可以立刻生成可視化方案。這類服務能即時的為用戶創(chuàng)建出數(shù)據(jù)可視化,同時又能快捷、便利的揭示出數(shù)據(jù)間的關聯(lián)和趨勢。
(3) 全媒體多平臺的數(shù)據(jù)可視化展示
大數(shù)據(jù)時代不僅處理著海量的數(shù)據(jù),同時也加工、傳播、分享它們。在智能手機、平板電腦和車載電腦等平臺日漸普及的當下,新的交互手段將成為數(shù)據(jù)可視化的趨勢。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03