
大數(shù)據(jù)分析和建模工具領(lǐng)域的“超級(jí)英雄”
在過去的十年里,大數(shù)據(jù)的崛起讓一大批供應(yīng)商嘗試?yán)?/span>大數(shù)據(jù)的優(yōu)勢(shì)研發(fā)新的數(shù)據(jù)分析工具。
在固有分析工具進(jìn)行更新?lián)Q代的同時(shí),新興分析工具則宣稱它們才是 “潮流新品”,廣大用戶不清楚市面上有哪些分析工具。為機(jī)構(gòu)資源尋找合適投資的分析工具就像盲人瞎馬,是個(gè)高風(fēng)險(xiǎn)的賭博。
假設(shè)你是一個(gè)擁有大量信息的信息總監(jiān),并且需要解決一個(gè)業(yè)務(wù)問題。要從分析工具琳瑯滿目的分析市場(chǎng)中找出最適合公司的工具組合看似很難,其實(shí)不然。分析工具主要有兩種:數(shù)據(jù)存儲(chǔ)和建模工具。廣義的數(shù)據(jù)存儲(chǔ)是:存儲(chǔ)數(shù)據(jù)以供未來(lái)使用的任意硬件和軟件組合。它們也許各有特點(diǎn),但通常擁有數(shù)據(jù)存儲(chǔ)和檢索的基本功能。建模工具由硬件和軟件組成,對(duì)數(shù)據(jù)進(jìn)行整合以得出規(guī)律。傳統(tǒng)開發(fā)人員首先專注于數(shù)據(jù)存儲(chǔ),數(shù)據(jù)學(xué)家則利用建模工具進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘。要根據(jù)自身定位找出適合的工具就要從這兩種分析工具中挑選出合適的組合。這兩種分析工具可細(xì)分為七個(gè)不同的類別,每一類都有它獨(dú)特的優(yōu)勢(shì)和強(qiáng)大功能。要解決你公司的問題,就要對(duì)這些工具進(jìn)行正確分組。
分析工具有:
傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS): 正如它的字面意思,它代表人們?cè)谶^去 30 年里所指的數(shù)據(jù)庫(kù)。盡管這些數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)處理量比不上一些新型技術(shù),但在所有的分析工具中,它們擁有最完善的功能集,數(shù)據(jù)分析最透徹并且涉及的知識(shí)最規(guī)范。
超級(jí)英雄的首位英雄: 美國(guó)隊(duì)長(zhǎng),當(dāng)之無(wú)愧的領(lǐng)導(dǎo)分析工具,雖然相比起其它分析工具來(lái)略顯過時(shí),但 RDBMS 仍然擁有強(qiáng)大功能,并能出色完成任務(wù)。
適用情況: 需要解決的問題并不是最麻煩的,但你需要一些成熟可靠的分析工具,讓員工能盡快上手。
非傳統(tǒng)數(shù)據(jù)庫(kù)(DB): 這組數(shù)據(jù)庫(kù)包含眾多非 SQL 語(yǔ)言(代表“不使用 SQL 語(yǔ)言”或”不僅使用 SQL 語(yǔ)言”)的新型分析工具。這些工具除了運(yùn)用關(guān)系數(shù)據(jù)庫(kù)的基礎(chǔ)——關(guān)系模型外,還能用于保持中小型數(shù)據(jù)(即以兆字節(jié)或千兆字節(jié)計(jì)算)流暢加載,并且在使用得當(dāng)?shù)那闆r下,能加載以兆兆字節(jié)或帕特字節(jié)計(jì)算的數(shù)據(jù)。這類數(shù)據(jù)庫(kù)通常是跨硬件的源代碼開放軟件工具;其供應(yīng)商通過出售包含產(chǎn)品支持的企業(yè)特別版軟件獲利。
超級(jí)英雄代表人物 : 黑寡婦,她引用卓越的處理技術(shù)處理大型數(shù)據(jù),是該方面的專家。同時(shí),也能實(shí)現(xiàn)不同功能間的快速轉(zhuǎn)換。
適用情況: 希望運(yùn)用一個(gè)新型的框架擴(kuò)大數(shù)據(jù)規(guī)模,想要引用一種專門處理某類數(shù)據(jù)問題的技術(shù),同時(shí)想嘗試引用新技術(shù)來(lái)博取大眾眼球。
大規(guī)模并行處理(MPP)關(guān)系數(shù)據(jù)庫(kù): 如果把傳統(tǒng)的 RDBMS 比作可靠的中型轎車,那么 MPP 關(guān)系數(shù)據(jù)庫(kù)就是汽車界的布加迪威龍(Bugatti Veyrons):擁有最強(qiáng)勁的馬力和極高的價(jià)格。這類數(shù)據(jù)庫(kù)與傳統(tǒng)的 RDBMS 組一樣,都以關(guān)系模型為基礎(chǔ),卻包含卓越的硬件和軟件工程,性能和容量大幅提升。因?yàn)閾碛性擁?xiàng)技術(shù),通常供應(yīng)商只出售該數(shù)據(jù)庫(kù)就能處理各類問題,因此其安裝及維護(hù)費(fèi)用可能十分昂貴。
超級(jí)英雄代表人物 : 鋼鐵俠,本來(lái)是普通的東西(普通人,RDBMS),注入大量的資金和技術(shù),就成為英雄(身穿鐵甲的家伙,MPP 關(guān)系數(shù)據(jù)庫(kù))。
適用情況: 與供應(yīng)商關(guān)系良好,愿意付出一大筆資金,且不希望對(duì)數(shù)據(jù)存儲(chǔ)的方式進(jìn)行任何重大改變。
Hadoop 和 NoSQL:Hadoop 是市面上能買到的擁有最大數(shù)據(jù)存儲(chǔ)容量的數(shù)據(jù)庫(kù)?;谘呕⒕W(wǎng)站(Yahoo!)和谷歌網(wǎng)站(Google)的搜索結(jié)果,當(dāng)需要處理最大容量的信息時(shí),就要求助于 Hadoop。這方面的產(chǎn)品通常包含了與數(shù)據(jù)錄入,數(shù)據(jù)管理和數(shù)據(jù)傳輸有關(guān)的應(yīng)用程序的整個(gè)計(jì)算機(jī)系統(tǒng)。
超級(jí)英雄代表人物 : 綠巨人,雖然不能盡善盡美,但如果需要大容量、高性能,他是不二之選。
適用情況: 需要存儲(chǔ)和處理各類所有數(shù)據(jù)。
建模工具:
成熟的建模工具: 這類建模工具旨在利用統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘方法處理數(shù)據(jù),從而得出分析洞見。最初的用戶是科學(xué)家和統(tǒng)計(jì)學(xué)家,現(xiàn)在用戶群已增至包含企業(yè)用戶。這些工具可以處理小型數(shù)據(jù)集,但通??梢詳U(kuò)大使用范圍,或用來(lái)控制更強(qiáng)大的新一代平臺(tái)。
超級(jí)英雄代表人物:20 世紀(jì) 60 年代的蝙蝠俠——不可否認(rèn)他有點(diǎn)落后于時(shí)代,但他擁有幾乎每一項(xiàng)你所能想到的功用。
適用情況: 需要使用一種功能強(qiáng)大且為每一個(gè)員工所熟悉的技術(shù)。例如,你的團(tuán)隊(duì)有多名能快速利用 Pandas 數(shù)據(jù)包進(jìn)行數(shù)據(jù)分析的 Python 開發(fā)人員,或者擁有一支完全掌握內(nèi)外關(guān)鍵流程、經(jīng)驗(yàn)豐富的 SAS 建模團(tuán)隊(duì)。
平臺(tái): 大數(shù)據(jù)平臺(tái)是定義廣泛的應(yīng)用和基礎(chǔ)設(shè)施類別,旨在提供非常特定的功能。由于以具成本效益的方式維護(hù)大數(shù)據(jù)環(huán)境非常困難,大數(shù)據(jù)平臺(tái)大受歡迎。在本情況中,平臺(tái)精簡(jiǎn)必要的數(shù)據(jù)操作,讓用戶專注于“企業(yè)任務(wù)”。這些解決方案通常包含數(shù)據(jù)集成、分析和可視化。
超級(jí)英雄代表人物:X 教授——他擁有超乎想象的強(qiáng)大功能,豐富的感應(yīng)能力,但只限于在特定范圍內(nèi)。
適用情況: 需要解決的問題極為清晰,希望運(yùn)用一種功能齊全的高超技術(shù)為特定問題提供最優(yōu)解決方案。
新一代建模工具: 新一代的建模工具興起于上一年代末,是專門為并行數(shù)據(jù)處理而開發(fā)的。雖然這類工具仍處于新興階段,但正努力開發(fā)能對(duì)大規(guī)模數(shù)據(jù)進(jìn)行接近實(shí)時(shí)分析的技術(shù)(達(dá)到如分析小型數(shù)據(jù)一樣簡(jiǎn)單的地步),致力于取代已經(jīng)成熟的建模工具。
超級(jí)英雄代表人物:21 世紀(jì)的蝙蝠俠——同樣是一種建模工具,但擁有更新、更強(qiáng)大的功能,甚至達(dá)到令人敬畏的技術(shù)高度。當(dāng)然,由于他更現(xiàn)實(shí),因此功能較為專一。
適用情況: 面對(duì)前所未見的任務(wù),希望有最先進(jìn)的技術(shù)協(xié)助。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10