
大數(shù)據(jù)的初期大家都在拼什么?拼集群規(guī)模,節(jié)點(diǎn)數(shù)量,拼存儲能力,拼調(diào)度能力。此時企業(yè)展示技術(shù)能力的時候一般都會強(qiáng)調(diào)什么集群規(guī)模過萬,存儲能力過百P,每天執(zhí)行數(shù)十萬的job。
在大數(shù)據(jù)初期,人們基本不太在意,數(shù)據(jù)的存儲成本,執(zhí)行性能和響應(yīng)速度。更在意的的是構(gòu)建初始的大數(shù)據(jù)環(huán)境,讓數(shù)據(jù)更大,以及對大數(shù)據(jù)的掌控能力。
隨著這方面的技術(shù)越來越成熟,人們會對數(shù)據(jù)的時效性,查詢響應(yīng)時間要求越來越高。在這個時期出現(xiàn)了許多預(yù)處理技術(shù),比方說storm,hbase等,以及一些對性能優(yōu)化的一些處理方法比如說基于嵌套列存儲技術(shù)的google dremel,apache drill,impala等,但這些僅僅能在某一領(lǐng)域滿足人們的時效性要求,通用性不強(qiáng),只能說是預(yù)處理技術(shù)和列存儲,并不能滿足通用的低延遲的即席查詢要求。
目前開源的mdrill技術(shù)以及騰訊自主研發(fā)的hermer目前的索引的索引量只能達(dá)到千億規(guī)模,萬億規(guī)模以上的成功案例還沒有,糾其原因有兩點(diǎn)
其一是索引存儲在本地硬盤,他對容災(zāi),異常的恢復(fù)的處理邏輯,進(jìn)程異常后的任務(wù)遷移成本制約了其索引規(guī)模的大小。
其二是受限其調(diào)度系統(tǒng)的實(shí)現(xiàn),管理的事情太多,既要管理索引,又要管理心跳,也要維護(hù)容災(zāi),導(dǎo)致調(diào)度系統(tǒng)的機(jī)器規(guī)模上不來。
索引管理,容災(zāi)心跳管理,計(jì)算資源管理三者將來必須分離。否則萬億以上的目標(biāo)別想。
其三內(nèi)嵌過多的來源代碼,比如說jstorm,solr等等,他們的架構(gòu)制約了拓展性。
隨著yarn技術(shù)的趨于成熟以及在hdfs中的索引技術(shù)的成熟和性能的提升,低延遲的萬億規(guī)模的索引技術(shù)有了希望。
第一,yarn分配的資源不在像之前那樣還要維護(hù)索引狀態(tài),存儲位置,僅僅負(fù)責(zé)對索引的檢索和寫入,單獨(dú)的索引管理將以服務(wù)的形式獨(dú)立出來,yarn的資源不在固定的處理某個索引,而是聽從索引管理服務(wù)的安排。這樣的放權(quán)也給外部更多的靈活的空間
第二,索引與editlog直接存放在hdfs,容災(zāi)交給成熟的hdfs去管理,也不要再說索引在hdfs中性能差了,那是過去,現(xiàn)在性能還是不錯的。
第三,獨(dú)立的索引管理,讓索引更靈活。
將索引從原有的進(jìn)程中抽出,每個進(jìn)程可以處理多個索引,提升進(jìn)程的利用率。單獨(dú)的索引管理,針對不同的業(yè)務(wù),更容易靈活的變通。
第四,基于這個版本的大索引不在像之前單獨(dú)對外提供服務(wù),會更加的開放,對外提供了很多拓展功能,現(xiàn)有的hive以及spark可以很方便的通過類似 inputformat的方式直接使用大索引。同時可以方便的將hdfs,hbase,hive,實(shí)時的消息隊(duì)列比如說kafka,metaq等系統(tǒng)方便的導(dǎo)入導(dǎo)出。
試想下,spark在利用上這個大索引后,一個幾萬億的數(shù)據(jù),幾秒鐘就返回結(jié)果,而且還支持了很多的復(fù)雜查詢,是不是很值得期待呢。
同志們,我們嘗試的已經(jīng)夠多,是時候開啟新的大索引技術(shù)之路,求更多的戰(zhàn)友組隊(duì)。
“夢想還是要有的”,大索引未來我看好你哦。(文章來源:CDA數(shù)據(jù)分析師)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時用t.test,何時用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07