
大數(shù)據(jù)引擎,李彥宏的新大陸_數(shù)據(jù)分析師
百度在大數(shù)據(jù)領(lǐng)域邁出一大步。在昨天的百度技術(shù)開(kāi)放日上,李彥宏現(xiàn)身并推出了百度大數(shù)據(jù)引擎。簡(jiǎn)單地將,大數(shù)據(jù)引擎將百度在大數(shù)據(jù)的數(shù)據(jù)、能力和技術(shù)開(kāi)放給行業(yè),行業(yè)嘗嘗距離甚遠(yuǎn)的大數(shù)據(jù)盛宴,百度則尋到了一個(gè)新的增長(zhǎng)點(diǎn)。
大數(shù)據(jù)引擎三件套
一年前,BAT紛紛開(kāi)挖大數(shù)據(jù),一年后BAT在大數(shù)據(jù)應(yīng)用上均取得了一些成績(jī)?,F(xiàn)在百度則率先將其大數(shù)據(jù)能力開(kāi)放出來(lái),百度大數(shù)據(jù)引擎一共分三個(gè)部分。
開(kāi)放云:百度的大規(guī)模分布式計(jì)算和超大規(guī)模存儲(chǔ)云。過(guò)去的百度云主要面向開(kāi)發(fā)者,大數(shù)據(jù)引擎的開(kāi)放云則是面向有大數(shù)據(jù)存儲(chǔ)和處理需求的“大開(kāi)發(fā)者”。
百度的開(kāi)放云擁有超過(guò)1.2萬(wàn)臺(tái)的單集群,超過(guò)阿里飛天計(jì)劃的5k集群。百度開(kāi)放云還擁有CPU利用率高、彈性高、成本低等特點(diǎn)。百度是全球首家大規(guī)模商用ARM服務(wù)器的公司,而ARM架構(gòu)的特征是能耗小和存儲(chǔ)密度大,同時(shí)百度還是首家將GPU(圖形處理器)應(yīng)用在機(jī)器學(xué)習(xí)領(lǐng)域的公司,實(shí)現(xiàn)了能耗節(jié)省的目的。
數(shù)據(jù)工廠(chǎng):開(kāi)放云是基礎(chǔ)設(shè)施和硬件能力,你可以把數(shù)據(jù)工廠(chǎng)理解為百度將海量數(shù)據(jù)組織起來(lái)的軟件能力。就像數(shù)據(jù)庫(kù)軟件的位置一樣。只不過(guò)數(shù)據(jù)工廠(chǎng)是被用作處理TB級(jí)甚至更大的數(shù)據(jù)。
百度數(shù)據(jù)工廠(chǎng)支持單詞百TB異構(gòu)數(shù)據(jù)查詢(xún),支持SQL-like以及更復(fù)雜的查詢(xún)語(yǔ)句,支持各種查詢(xún)業(yè)務(wù)場(chǎng)景。同時(shí)百度數(shù)據(jù)工廠(chǎng)還將承載對(duì)于TB級(jí)別大表的并發(fā)查詢(xún)和掃描,大查詢(xún)、低并發(fā)時(shí)每秒可達(dá)百GB,在業(yè)界已經(jīng)是很領(lǐng)先的能力了。
百度大腦:有了大數(shù)據(jù)處理和存儲(chǔ)的基礎(chǔ)之后,還得有一套能夠應(yīng)用這些數(shù)據(jù)的算法。圖靈獎(jiǎng)獲得者N.Wirth(沃斯)提出過(guò)“程序=數(shù)據(jù)結(jié)構(gòu)+算法”的理論。如果說(shuō)百度大數(shù)據(jù)引擎是一個(gè)程序,那么它的數(shù)據(jù)結(jié)構(gòu)就是數(shù)據(jù)工廠(chǎng)+開(kāi)放云,而算法則對(duì)應(yīng)到百度大腦。
百度大腦將百度此前在人工智能方面的能力開(kāi)放出來(lái),主要是大規(guī)模機(jī)器學(xué)習(xí)能力和深度學(xué)習(xí)能力。此前它們被應(yīng)用在語(yǔ)音、圖像、文本識(shí)別,以及自然語(yǔ)言和語(yǔ)義理解方面,被應(yīng)用在不少App,還通過(guò)百度Inside等平臺(tái)開(kāi)放給了智能硬件?,F(xiàn)在這些能力將被用來(lái)對(duì)大數(shù)據(jù)進(jìn)行智能化的分析、學(xué)習(xí)、處理、利用。百度深度神經(jīng)網(wǎng)絡(luò)擁有200億個(gè)參數(shù),是全球規(guī)模最大的,它擁有獨(dú)立的深度學(xué)習(xí)研究院(IDL)和較早的布局,在人工智能上百度已經(jīng)快了一步,現(xiàn)在貢獻(xiàn)給業(yè)界表明了它要開(kāi)放的決心。
大數(shù)據(jù)引擎究竟是什么?
百度將基礎(chǔ)設(shè)施能力、軟件系統(tǒng)能力以及智能算法技術(shù)打包在一起,通過(guò)大數(shù)據(jù)引擎開(kāi)放出來(lái)之后,擁有大數(shù)據(jù)的行業(yè)可以將自己的數(shù)據(jù)接入到這個(gè)引擎進(jìn)行處理。同時(shí),一些企業(yè)在沒(méi)有大數(shù)據(jù)的情況下,還可以使用百度的數(shù)據(jù)以及大數(shù)據(jù)成果。
從架構(gòu)來(lái)看,企業(yè)或組織也可以只選擇三件套中的一樣使用,例如數(shù)據(jù)存放在自己的云,但要運(yùn)用百度大腦的一些智能算法應(yīng)該也是支持的。
舉幾個(gè)例子可能你更加清楚百度大數(shù)據(jù)引擎究竟是什么。
許多政府部門(mén)擁有海量大數(shù)據(jù)——大數(shù)據(jù)經(jīng)典之作《大數(shù)據(jù)》也是在講美國(guó)政府的大數(shù)據(jù)。但政府部門(mén)幾乎都沒(méi)有大數(shù)據(jù)處理和挖掘技術(shù)。交通部門(mén)有車(chē)聯(lián)網(wǎng)、物聯(lián)網(wǎng)、路網(wǎng)監(jiān)控、船聯(lián)網(wǎng)、碼頭車(chē)站監(jiān)控等地方的大數(shù)據(jù),衛(wèi)生部門(mén)擁有流感法定報(bào)告數(shù)據(jù)、全國(guó)流感樣病例哨點(diǎn)監(jiān)測(cè)和病原學(xué)監(jiān)測(cè)數(shù)據(jù),公安部門(mén)有大量的視頻監(jiān)控?cái)?shù)據(jù)。如果這些數(shù)據(jù)與百度的搜索記錄、全網(wǎng)數(shù)據(jù)、LBS數(shù)據(jù)結(jié)合,在利用百度大數(shù)據(jù)引擎的大數(shù)據(jù)能力,則可以實(shí)現(xiàn)智能路徑規(guī)劃、運(yùn)力管理、流感預(yù)測(cè)、疫苗接種指導(dǎo)、安防追逃等等。
許多企業(yè)也擁有海量大數(shù)據(jù)——通信、金融、物流、制造、農(nóng)業(yè)等行業(yè)。不過(guò),它們幾乎都沒(méi)有大數(shù)據(jù)能力,坐擁海量數(shù)據(jù)卻一籌莫展。這時(shí)候如果能夠應(yīng)用百度大數(shù)據(jù)引擎,則可以對(duì)海量數(shù)據(jù)進(jìn)行可靠低成本的存儲(chǔ),進(jìn)行智能化的由淺入深的價(jià)值挖掘。在百度技術(shù)開(kāi)放日上,中國(guó)平安便介紹了如何利用百度的大數(shù)據(jù)能力加強(qiáng)消費(fèi)者理解和預(yù)測(cè),細(xì)分客戶(hù)群制定個(gè)性化產(chǎn)品和營(yíng)銷(xiāo)方案。
可以看出,大數(shù)據(jù)引擎的輸入實(shí)際上是百度擁有的大數(shù)據(jù)以及行業(yè)已有的大數(shù)據(jù),而輸出則是各種行業(yè)應(yīng)用成果,也就是大數(shù)據(jù)的“價(jià)值”。如果要為百度大數(shù)據(jù)引擎想一個(gè)SLOGAN,可以是“把大數(shù)據(jù)交給我們即可”。
百度大數(shù)據(jù)引擎的出現(xiàn)并非一日之功。大數(shù)據(jù)技術(shù)本身已發(fā)展數(shù)年,而百度在大數(shù)據(jù)方面也進(jìn)行了不少布局,例如百度云、深度學(xué)習(xí)、計(jì)算中心等等。同時(shí)與中國(guó)平安和一些政府部門(mén)此前也已進(jìn)行一些大數(shù)據(jù)應(yīng)用的初步嘗試。
與一些類(lèi)似項(xiàng)目的對(duì)比
在百度之前,業(yè)界已經(jīng)有一些類(lèi)似的思路,即有一些大數(shù)據(jù)能力的企業(yè)視圖將自己在基礎(chǔ)能力或者軟件方面的優(yōu)勢(shì)釋放出來(lái)。
Google:大數(shù)據(jù)時(shí)代的奠基者。對(duì)應(yīng)到百度開(kāi)放云,它有舉世聞名的數(shù)據(jù)中心以及基于Colossus的云;對(duì)應(yīng)到百度數(shù)據(jù)工廠(chǎng),Google近年來(lái)為迎接大數(shù)據(jù)時(shí)代不斷改造核心技術(shù),包括比MapReduce批處理索引系統(tǒng)搜索更快的Caffeine,專(zhuān)為BigTable設(shè)計(jì)的分布式存儲(chǔ)Colossus比GFS還要先進(jìn),Dremel和PowerDrill管理和分析大數(shù)據(jù),以及Instant和Pregel。對(duì)應(yīng)到百度大腦,Google提供的大數(shù)據(jù)分析智能應(yīng)用包括客戶(hù)情緒分析、交易風(fēng)險(xiǎn)(欺詐分析)、產(chǎn)品推薦、消息路由、診斷、客戶(hù)流失預(yù)測(cè)、法律文案分類(lèi)、電子郵件內(nèi)容過(guò)濾、政治傾向預(yù)測(cè)、物種鑒定等多個(gè)方面。技術(shù)有Big Query、趨勢(shì)圖等。
可以說(shuō)Google與百度的思路最為接近,不過(guò)Google目前還未將它的大數(shù)據(jù)能力打包起來(lái)以一個(gè)新“引擎”的方式共享。毫無(wú)疑問(wèn),這在不久之后就會(huì)發(fā)生。
亞馬遜:云計(jì)算的奠基者。亞馬遜是IaaS(基礎(chǔ)設(shè)施即服務(wù)),與阿里云非常相似。亞馬遜在用戶(hù)交易、個(gè)人偏好、經(jīng)濟(jì)領(lǐng)域的大數(shù)據(jù)能力可能比Google還要優(yōu)秀,也被一些人視作這是亞馬遜與Google競(jìng)爭(zhēng)的唯一機(jī)會(huì)。亞馬遜目前更多還是在云領(lǐng)域做貢獻(xiàn),雖然也有Redshift的方案,但在數(shù)據(jù)工廠(chǎng)和人工智能的開(kāi)放上進(jìn)展慢一些。
阿里巴巴:
亞馬遜對(duì)應(yīng)回中國(guó)自然是阿里巴巴。阿里云是國(guó)內(nèi)最早的獨(dú)立運(yùn)作的云部門(mén)。數(shù)據(jù)則是阿里三大核心戰(zhàn)略之一,大數(shù)據(jù)也被擺到了阿里十分重要的位置,不懂技術(shù)的馬云經(jīng)常談及大數(shù)據(jù)都有人調(diào)侃他應(yīng)該改名Data Ma。阿里在大數(shù)據(jù)基礎(chǔ)設(shè)施領(lǐng)域確實(shí)取得了突飛猛進(jìn)的進(jìn)展,飛天、Apsara、跨機(jī)房5K集群都是知名的大數(shù)據(jù)項(xiàng)目,應(yīng)對(duì)雙十一、余額寶規(guī)模取現(xiàn)預(yù)測(cè)、廣告業(yè)務(wù)高速增長(zhǎng)等業(yè)務(wù)場(chǎng)景也證明了阿里的大數(shù)據(jù)能力。
阿里大數(shù)據(jù)的思路便是做大數(shù)據(jù)的集市,讓阿里系之外的大數(shù)據(jù)能夠跑在阿里苦心搭建的大數(shù)據(jù)機(jī)器上運(yùn)轉(zhuǎn)起來(lái)。不久之前阿里與東軟合作,后者的業(yè)務(wù)未來(lái)都將部署在阿里云。這意味著東軟客戶(hù)的數(shù)據(jù)很可能會(huì)進(jìn)入阿里的大數(shù)據(jù)體系??梢源_定阿里將會(huì)推出類(lèi)似大數(shù)據(jù)引擎的平臺(tái),將大數(shù)據(jù)能力完全開(kāi)放出來(lái)。
相比百度,阿里在“數(shù)據(jù)工廠(chǎng)”這塊應(yīng)該是各有所長(zhǎng),在數(shù)據(jù)基礎(chǔ)領(lǐng)域以及業(yè)務(wù)理解方面有著電商領(lǐng)域的專(zhuān)注,但人工智能這塊跟百度比肯定會(huì)有不小差距。語(yǔ)音、圖像和自然語(yǔ)言理解,阿里并沒(méi)有多少積累,它更擅長(zhǎng)處理結(jié)構(gòu)化的數(shù)據(jù)。
其他電商玩家如京東和蘇寧也有類(lèi)似的云,與阿里和百度完全不在一個(gè)級(jí)別就不比較了。
Salesforce等軟件公司:
Salesforce近兩年收購(gòu)了超過(guò)5家與社交大數(shù)據(jù)相關(guān)的營(yíng)銷(xiāo)公司,目的是獲取更多的數(shù)據(jù)。其他的軟件廠(chǎng)商和方案廠(chǎng)商也有大數(shù)據(jù)引擎方面的布局,EMC、Oracle有對(duì)應(yīng)的大數(shù)據(jù)處理軟件,IBM有大數(shù)據(jù)行業(yè)方案,英特爾入股大了數(shù)據(jù)初創(chuàng)企業(yè)Cloudera,Cloudera推出的Impala比Google Dremel還要快。Intel還推出了基于Hidoop的“大數(shù)據(jù)引擎”,加州伯克利大學(xué)AMPLab開(kāi)發(fā)了名為Shark 的大數(shù)據(jù)分析系統(tǒng)。
回到國(guó)內(nèi),華為在去年發(fā)布了大數(shù)據(jù)平臺(tái)產(chǎn)品FusionInsight,還有百分點(diǎn)科技這樣的基于大數(shù)據(jù)的推薦服務(wù)公司。而“天河2號(hào)”等獨(dú)立超級(jí)計(jì)算機(jī)也對(duì)外宣稱(chēng)它們的超級(jí)計(jì)算能力將會(huì)逐步開(kāi)放出來(lái)。
不過(guò),軟件公司、方案公司以及超級(jí)計(jì)算機(jī)都無(wú)法做到像百度一樣將大數(shù)據(jù)作為一種云端能力打包開(kāi)放出來(lái),也無(wú)法同時(shí)具備基礎(chǔ)設(shè)施、數(shù)據(jù)工廠(chǎng)和智能算法的開(kāi)放能力。尤其是“百度大腦”這部分,很少有其他具備這樣的“數(shù)據(jù)智能”的能力。
百度將用互聯(lián)網(wǎng)的方式來(lái)做開(kāi)放的大數(shù)據(jù)引擎。它不可能采取與軟件方案公司一樣的“一竿子買(mǎi)賣(mài)”方式進(jìn)行合作。而是將大數(shù)據(jù)引擎做成一個(gè)開(kāi)放平臺(tái),形成標(biāo)準(zhǔn)的接口,讓每個(gè)行業(yè)不同企業(yè)可以根據(jù)自身需求各取所需。而它的首要目的是獲取數(shù)據(jù),然后是考慮變現(xiàn)。
變現(xiàn)方式可能是增值服務(wù)、收費(fèi)云、數(shù)據(jù)分析結(jié)果、技術(shù)咨詢(xún)等方式,這將改變百度盈利模式過(guò)渡依賴(lài)“搜索廣告”的現(xiàn)狀。有消息稱(chēng),大數(shù)據(jù)已經(jīng)給Google每天帶來(lái)2300萬(wàn)美元的收入,一年約為82億美元。這已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)百度2013年51億美金的年收入了。因此,如果百度大數(shù)據(jù)引擎能夠成功,很可能會(huì)為之帶來(lái)源源不斷的數(shù)據(jù)以及現(xiàn)金流?;诖?,可以認(rèn)為大數(shù)據(jù)引擎是百度的新大陸,是李彥宏一直在尋找的“百度的微信”。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話(huà)題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10