182tv成人午夜福利,成人免费午夜性大片,国产成人精品亚洲午夜

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

用大數(shù)據(jù)思維做運維監(jiān)控是怎樣一種體驗

2017-04-30

用大數(shù)據(jù)思維做運維監(jiān)控是怎樣一種體驗

工程數(shù)據(jù)，譬如工單數(shù)量，SLA可用性，基礎資源，故障率，報警統(tǒng)計

業(yè)務數(shù)據(jù)，譬如業(yè)務DashBoard,Trace調用鏈，業(yè)務拓撲切換，業(yè)務指標，業(yè)務基準數(shù)據(jù)，業(yè)務日志挖掘

當然，這篇文章談的是運維都有哪些數(shù)據(jù)，哪些指標，以及數(shù)據(jù)呈現(xiàn)。并沒有談及如何和大數(shù)據(jù)相關的架構做整合，從而能讓這些數(shù)據(jù)真的變得活起來。

比較湊巧的是，原先百度的桑文峰的分享也講到日志的多維度分析，吃完飯的時候，一位優(yōu)酷的朋友也和我探討了關于業(yè)務監(jiān)控的的問題。而我之前發(fā)表在肉餅鋪子里的一篇文章《大數(shù)據(jù)給公司帶來了什么》也特地提到了大數(shù)據(jù)對于整個運維的幫助，當時因為這篇內容的主旨是羅列大數(shù)據(jù)的用處，自然沒法細講運維和大數(shù)據(jù)的整合這一塊。

上面的文字算引子，在步入正式的探討前，有一點我覺得值得強調：

雖然這里講的是如何將大數(shù)據(jù)思維/架構應用于運維，平臺化運維工作，但是和大數(shù)據(jù)本質上沒有關系，我們只是將大數(shù)據(jù)處理的方式和思想應用在運維工作上。所以，即使你現(xiàn)在所在的公司沒有數(shù)據(jù)團隊支撐，也是完全可以通過現(xiàn)有團隊完成這件事情的。

1 運維監(jiān)控現(xiàn)狀

很多公司的運維的監(jiān)控具有如下特質：

只能監(jiān)控基礎運維層次，通過zabbix等工具提供服務器,CPU,內存等相關的監(jiān)控。這部分重要，但確實不是運維的核心。

對業(yè)務的監(jiān)控是最復雜的，而現(xiàn)在很多公司的要么還處于Shell腳本的刀耕火種階段，要么開發(fā)能力較強，但是還是東一榔頭西一棒子，不同的業(yè)務需要不同的監(jiān)控系統(tǒng)，人人都可以根據(jù)的自己的想法開發(fā)一個監(jiān)控的工具也好，系統(tǒng)也好，平臺也好?？傊潜容^凌亂的。

使用第三方的監(jiān)控平臺。這個似乎在Rails/NodeJS/Pythone相關語系開發(fā)的產品中比較常見。我不做過多評價，使用后冷暖自知。

當然也有抽象得很好的，比如點評網(wǎng)的運維監(jiān)控據(jù)說就做得相當好，運維很閑，天天沒事就根據(jù)自己的監(jiān)控找開發(fā)的茬，讓開發(fā)持續(xù)改進。不過他們的指導思想主要有兩個：

運維自動化。怎么能夠實現(xiàn)這個目標就怎么搞，這嚴重依賴于搞的人的規(guī)劃能力和經驗。

抽象化，根據(jù)實際面臨的問題做出抽象，得到對應的系統(tǒng)，比如需要發(fā)布，于是又發(fā)布系統(tǒng)，需要管理配置文件，所以有配管系統(tǒng)，需要日志分析所以有了有日志分析系統(tǒng)。然而這樣是比較零散的。

有點扯遠，我們還是focus在監(jiān)控上。

如果以大數(shù)據(jù)的思維去思考，我們應該如何做好監(jiān)控這件事情?

2 羅列出你的數(shù)據(jù)源

《大數(shù)據(jù)對于運維的意義》這篇文章也講了，主要有工程數(shù)據(jù)，業(yè)務數(shù)據(jù)。所有的數(shù)據(jù)源都有一個共性，就是日志。無論文本的也好，二進制的也好。所以日志是整個信息的源頭。日志包含的信息足以讓我們追查到下面幾件事情：

系統(tǒng)健康狀況監(jiān)控

查找故障根源

系統(tǒng)瓶頸診斷和調優(yōu)

追蹤安全相關問題

從日志我們可以挖掘出什么?

我覺得抽象起來就一個：指標。

指標可以再進行分類：

業(yè)務層面，如團購業(yè)務每秒訪問數(shù)，團購券每秒驗券數(shù)，每分鐘支付、創(chuàng)建訂單等

應用層面，每個應用的錯誤數(shù)，調用過程，訪問的平均耗時，最大耗時，95線等

系統(tǒng)資源層面：如cpu、內存、swap、磁盤、load、主進程存活等

網(wǎng)絡層面：如丟包、ping存活、流量、tcp連接數(shù)等

每個分類里的每個小點其實都是一個指標。

3 如何統(tǒng)一實現(xiàn)

千萬不要針對具體問題進行解決，大數(shù)據(jù)架構上的一個思維就是：我能夠提供一個平臺讓大家方便解決這些問題么? 而不是，這個問題我能解決么?

先來看看架構圖：

因為目前我負責應用層的研發(fā)，業(yè)務還比較少，主要就需要監(jiān)控三個系統(tǒng)：

推薦

搜索

統(tǒng)一查詢引擎

所以監(jiān)控的架構設計略簡單些。如果你希望進行日志存儲以及事后批量分析，則可以采用淘寶的這套架構方式：

稍微說明下，日志收集Agent可以使用Flume,鷹眼Storm集群，其實就是Storm集群，當然有可能是淘寶內部Java版的，Storm(或第一幅圖的SparkStreaming)做兩件事情。

將日志過濾，格式化，或存儲起來

進行實時計算，將指標數(shù)據(jù)存儲到HBase里去

到目前為止，我們沒有做任何的開發(fā)，全部使用大數(shù)據(jù)里通用的一些組件。至于這些組件需要多少服務器，就看對應的日志量規(guī)模了，三五臺到幾百臺都是可以的。

需要開發(fā)的地方只有兩個點，有一個是一次性的，有一個則是長期。

先說說一次性的，其實就是大盤展示系統(tǒng)。這個就是從HBase里取出數(shù)據(jù)做展示。這個貌似也有開源的一套，ELK。不過底層不是用的HBase存儲，而是ES。這里就不詳細討論。

長期的則是SparkStreaming(淘寶是使用Storm，我建議用SparkStreaming,因為SparkStreaming可以按時間窗口，也可以按量統(tǒng)一做計算)，這里你需要定義日志的處理邏輯，生成我上面提到的各項指標。

這里有一個什么好處呢，就是平臺化了，對新的監(jiān)控需求響應更快了，開發(fā)到上線可能只要幾個小時的功夫。如果某個系統(tǒng)某天需要一個新的監(jiān)控指標，我們只要開發(fā)個SparkStreaming程序，丟到平臺里去，這事就算完了。

第一幅圖的平臺我是已經實現(xiàn)了的。我目前在SparkStreaming上只做了三個方面比較基礎的監(jiān)控，不過應該夠用了。

狀態(tài)碼大盤。 HTTP響應碼的URL(去掉query參數(shù))排行榜。比如你打開頁面就可以看到發(fā)生500錯誤的top100的URL，以及該URL所歸屬的系統(tǒng)。

響應耗時大盤。 URL請求耗時排行榜。比如你打開頁面就可以看到5分鐘內平均響應耗時top100的URL(去掉query參數(shù))。

還有就是Trace系統(tǒng)。類似Google的Dapper,淘寶的EagleEye。給出一個唯一的UUID,可以追蹤到特定一個Request的請求鏈路。每個依賴服務的響應情況，比如響應時間。對于一個由幾個甚至幾百個服務組成的大系統(tǒng)，意義非常大，可以方便的定位出到底是那個系統(tǒng)的哪個API的問題。這個最大的難點是需要統(tǒng)一底層的RPC/HTTP調用框架，進行埋點。因為我使用的是自研的ServiceFramework框架，通訊埋點就比較簡單。如果是在一個業(yè)務線復雜，各個系統(tǒng)使用不同技術開發(fā)，想要做這塊就要做好心理準備了。

現(xiàn)在，如果你想要監(jiān)控一個系統(tǒng)是不是存活，你不在需要取寫腳本去找他的pid看進程是不是存在，系統(tǒng)發(fā)現(xiàn)在一定的周期內沒有日志，就可以認為它死了。而系統(tǒng)如果有異常，比如有大量的慢查詢，大盤一定能展示出來。

描述到這，我們可以看到，這套架構的優(yōu)勢在哪：

基本上沒有需要自己開發(fā)的系統(tǒng)。從日志收集，到日志存儲，到結果存儲等，統(tǒng)統(tǒng)都是現(xiàn)成的組件。

可擴展性好。每個組件都是集群模式的，沒有單點故障。每個組件都是可水平擴展的，日志量大了，加機器就好。

開發(fā)更集中了。你只要關注日志實際的分析處理，提煉指標即可。

4 大數(shù)據(jù)思維

對于運維的監(jiān)控，利用大數(shù)據(jù)思維，需要分三步走：

找到數(shù)據(jù)

分析定義從數(shù)據(jù)里中我能得到什么

從大數(shù)據(jù)平臺中挑選你要的組件完成搭積木式開發(fā)

所有系統(tǒng)最可靠的就是日志輸出，系統(tǒng)是不是正常，發(fā)生了什么情況，我們以前是出了問題去查日志，或者自己寫個腳本定時去分析。現(xiàn)在這些事情都可以整合到一個已有的平臺上，我們唯一要做的就是定義處理日志的的邏輯。

這里有幾點注意的：

如果你擁有復雜的產品線，那么日志格式會是一個很痛苦的事情。以為這中間Storm(或者SparkStreaming)的處理環(huán)節(jié)你需要做大量的兼容適配。我個人的意見是，第一，沒有其他更好的辦理，去兼容適配吧，第二，推動大家統(tǒng)一日志格式。兩件事情一起做。我一個月做不完，那我用兩年時間行么?總有一天大家都會有統(tǒng)一的日志格式的。

如果你的研發(fā)能力有富余,或者有大數(shù)據(jù)團隊支撐，那么可以將進入到SparkStreaming中的數(shù)據(jù)存儲起來，然后通過SparkSQL等做即席查詢。這樣，有的時候原先沒有考慮的指標，你可以直接基于日志做多維度分析。分析完了，你覺得好了，需要固化下來，那再去更新你的SparkStreaming程序。

后話

我做上面第一幅圖架構實現(xiàn)時，從搭建到完成SparkStreaming程序開發(fā)，到數(shù)據(jù)最后進入HBase存儲，大概只花了一天多的時間。當然為了完成那個Trace的指標分析，我修改ServiceFramework框架大約改了兩三天。因為Trace分析確實比較復雜。當然還有一個比較消耗工作量的，是頁面可視化，我這塊自己還沒有能力做，等招個Web開發(fā)工程師再說了。

CDA數(shù)據(jù)分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

大數(shù)據(jù) 數(shù)據(jù)架構 SQL 數(shù)據(jù)可視化

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇圖論在大數(shù)據(jù)分析中的作用！

下一篇CDA認證再升一檔！與國家共同推進大數(shù)據(jù)人才培養(yǎng)標準教育事業(yè)！

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

免密碼登錄

提交首次登錄驗證后自動注冊

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

用大數(shù)據(jù)思維做運維監(jiān)控是怎樣一種體驗

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉換 ...

【CDA干貨】MySQL 大表拆分與關聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結構數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結構數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結構數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務 ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到決策 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

用大數(shù)據(jù)思維做運維監(jiān)控是怎樣一種體驗

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉換 ...

【CDA干貨】MySQL 大表拆分與關聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結構數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結構數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結構數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務 ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到決策 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...