
大數(shù)據(jù)彈性應(yīng)用開發(fā)的八項(xiàng)基本原則_數(shù)據(jù)分析師培訓(xùn)
大數(shù)據(jù)應(yīng)用正在從概念走向現(xiàn)實(shí),而企業(yè)在大數(shù)據(jù)應(yīng)用開發(fā)時,軟件的彈性(Resilient)正在成為決定大數(shù)據(jù)應(yīng)用成敗的關(guān)鍵因素。彈性差的應(yīng)用無法應(yīng)對大規(guī)模的數(shù)據(jù)集,在測試和運(yùn)營中也缺乏透明度,而且也不安全。
避免大數(shù)據(jù)應(yīng)用在生產(chǎn)環(huán)境中掉鏈子的最佳辦法就是在開發(fā)階段就開發(fā)彈性應(yīng)用,例如:魯棒、經(jīng)過測試、可改變、可審計(jì)、高安全、可監(jiān)控。
可以說,開發(fā)出彈性大數(shù)據(jù)應(yīng)用既是一個技術(shù)工作,也是一個哲學(xué)問題。Concurrent的Supreet Oberoi近日撰文提出大數(shù)據(jù)應(yīng)用開發(fā)八大基本原則, 編譯如下:
一、為彈性大數(shù)據(jù)應(yīng)用描繪一個藍(lán)圖
第一步是為企業(yè)大數(shù)據(jù)應(yīng)用創(chuàng)建一個系統(tǒng)的架構(gòu)和方法,要處理什么數(shù)據(jù)?那些類型的分析最重要?軟件架構(gòu)需要承載那些指標(biāo)、審計(jì)、安全和運(yùn)營功能?
另外一些需要考慮的問題:那些技術(shù)最關(guān)鍵?哪些技術(shù)只是圖一時之便?你的藍(lán)圖需要準(zhǔn)確評估當(dāng)前架構(gòu)的問題所在。
二、數(shù)據(jù)規(guī)模不再是問題
如果應(yīng)用無法處理更大規(guī)模的數(shù)據(jù)集,那么它就缺乏彈性,彈性應(yīng)用應(yīng)當(dāng)能夠處理任意規(guī)模的數(shù)據(jù)集(包括數(shù)據(jù)深度、廣度、頻度等),數(shù)據(jù)彈性還只對新技術(shù)的兼容,缺乏彈性的應(yīng)用需要不斷配置修改應(yīng)用來適應(yīng)不斷更新的大數(shù)據(jù)技術(shù),對于企業(yè)來說是時間、資源和金錢上的無底洞。
三、透明度
對于復(fù)雜應(yīng)用來說,查找擴(kuò)展性等彈性相關(guān)問題還很難實(shí)現(xiàn)自動化。關(guān)鍵是鎖定問題的根源所在:是代碼、數(shù)據(jù)還是架構(gòu)抑或網(wǎng)絡(luò)問題?并非每個應(yīng)用都要具備這種透明度,但大一些的平臺應(yīng)當(dāng)具備足夠的透明度,讓所有開發(fā)者和運(yùn)營人員都能在問題發(fā)生時立刻找到根源并采取措施。
一旦發(fā)現(xiàn)問題,最為關(guān)鍵的是將找到應(yīng)用行為對應(yīng)的代碼——最好是通過發(fā)現(xiàn)問題的監(jiān)控應(yīng)用。大多數(shù)情況下,訪問代碼會涉及到多個開發(fā)人員,執(zhí)行起來流程將非常曲折。
四、抽象,事關(guān)高效和簡潔
彈性應(yīng)用總是面向未來的,通常采用抽象層來簡化開發(fā)、提升效率,允許采用不同的技術(shù)實(shí)現(xiàn)。作為架構(gòu)的一部分,彈性開發(fā)的抽象層能夠避免開發(fā)者陷入技 術(shù)實(shí)現(xiàn)的細(xì)節(jié)泥潭中。簡潔性則能方便數(shù)據(jù)科學(xué)家使用應(yīng)用訪問所有類型的數(shù)據(jù)源。如果沒有抽象技術(shù),產(chǎn)品的生產(chǎn)力會大打折扣,修改成本增高,而用戶則為復(fù)雜 性所困擾。
五、安全:審計(jì)與合規(guī)
彈性應(yīng)用能自我審計(jì),能夠顯示誰使用了應(yīng)用,誰有權(quán)限使用,訪問了哪些數(shù)據(jù)以及政策如何實(shí)施。在應(yīng)用開發(fā)階段就將這些功能考慮進(jìn)去是應(yīng)對日益增長的大數(shù)據(jù)隱私、安全、治理和控制挑戰(zhàn)的關(guān)鍵所在。
六、完整度與測試驅(qū)動的開發(fā)
彈性應(yīng)用的一個基本要求就是不能遺失任何數(shù)據(jù),數(shù)據(jù)完整性的喪失往往會導(dǎo)致嚴(yán)重的后果,例如金融企業(yè)會因?yàn)槌绦虼a弄丟了一兩行交易數(shù)據(jù)而在反洗錢或金融欺詐調(diào)查中遭受處罰。
七、數(shù)據(jù)便攜性
不斷發(fā)展的業(yè)務(wù)需求驅(qū)動技術(shù)不斷做出改變,因此,大數(shù)據(jù)應(yīng)用也應(yīng)當(dāng)能夠在多個平臺和產(chǎn)品上運(yùn)行。最終的目標(biāo)是讓最終用戶能夠通過SQL和標(biāo)準(zhǔn)API 訪問數(shù)據(jù)(無論是否實(shí)時)。例如,一個先進(jìn)的大數(shù)據(jù)平臺應(yīng)當(dāng)允許原本由Hadoop存儲MapReduce處理的數(shù)據(jù),轉(zhuǎn)移到Spark或Tez中進(jìn)進(jìn)行 處理,而且這個過程不需要或盡可能少地改動代碼。
八、不要搞個人“巫術(shù)”
大數(shù)據(jù)應(yīng)用的開發(fā)不應(yīng)當(dāng)依賴某個高手的個人才華,代碼應(yīng)當(dāng)在多個開發(fā)者之間分享、評估和保有。這個策略讓整個團(tuán)隊(duì),而不是個人,對應(yīng)用質(zhì)量負(fù)責(zé)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11