
百度高級(jí)副總裁王勁: 一朵花的大數(shù)據(jù)之旅_數(shù)據(jù)分析師
百度正在傳統(tǒng)的搜索技術(shù)之外,利用“大數(shù)據(jù)+云計(jì)算”打造另一個(gè)驅(qū)動(dòng)公司發(fā)展的新引擎——百度高級(jí)副總裁王勁接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)如是說(shuō)。
百度大腦是“云計(jì)算+大數(shù)據(jù)”的載體:其由硬件和軟件兩部分組成,硬件部分是由云計(jì)算中心和服務(wù)器組成,軟件部分是由大數(shù)據(jù)和人工智能算法組成。無(wú)論百度推薦引擎、BaiduEye,還是百度面對(duì)商家的直達(dá)號(hào),均依賴(lài)百度大腦作為技術(shù)基礎(chǔ),是一切前端應(yīng)用的backoffice。
王勁認(rèn)為,百度的核心競(jìng)爭(zhēng)力在于人工智能和大數(shù)據(jù)的結(jié)合。可能的場(chǎng)景是:用手機(jī)拍一朵花的照片,上傳給百度,百度大腦把它轉(zhuǎn)化成“0101”的數(shù)字流,然后輸入到深度神經(jīng)網(wǎng)絡(luò)里,經(jīng)過(guò)層層的分析、復(fù)雜的學(xué)習(xí)算法和大數(shù)據(jù)比對(duì),最后還原并識(shí)別出它是一朵花,并告訴用戶(hù)這朵花的名字,隨后在百度百科里找到花的屬性。
如何獲得大數(shù)據(jù)?在百度看來(lái),與第三方伙伴合作是較快獲取大規(guī)模數(shù)據(jù)的方式之一。此前百度曾和中科院花卉研究所對(duì)接,獲得花卉種類(lèi)等近二十萬(wàn)條的數(shù)據(jù)。在電商領(lǐng)域,國(guó)內(nèi)京東、當(dāng)當(dāng)、蘑菇街等電商平臺(tái)伙伴向百度提供消費(fèi)數(shù)據(jù),同時(shí)獲得百度入口的流量。當(dāng)然,目前百度尚沒(méi)有阿里巴巴系統(tǒng)的數(shù)據(jù)。
《大數(shù)據(jù)時(shí)代》作者舍恩伯格的判斷是,目前正處在大數(shù)據(jù)時(shí)代的早期。對(duì)于百度來(lái)說(shuō),其通過(guò)搜索引擎積累了大量的數(shù)據(jù)“金礦”,人工智能則給予百度“挖礦”的能力。
百度做大數(shù)據(jù),更是通過(guò)搜索引擎在為人工智能鋪路。但并非所有的數(shù)據(jù)金礦都在百度手中,微信、微博等社交數(shù)據(jù)是一個(gè)例子,阿里巴巴手中的電商數(shù)據(jù)是另一個(gè)例子。
“百度在革自己的命”
《21世紀(jì)》:百度大腦研究現(xiàn)在進(jìn)展如何?目前人工智能的研究方面在國(guó)際上處于什么位置?
王勁:人工智能一直到2010年都沒(méi)有什么突破,當(dāng)它的準(zhǔn)確率不高的時(shí)候,它就無(wú)法應(yīng)用。一直到這兩年有了深度學(xué)習(xí)的新算法,這個(gè)新算法才被用到人工智能上,突破了以前很多瓶頸。在這個(gè)方面,百度是做得最早的,百度在全球都是在這方面進(jìn)行投入的最早公司之一,我們跟國(guó)際最領(lǐng)先的公司在同一個(gè)起跑線上。
《21世紀(jì)》:人工智能從70年代、80年代末初就開(kāi)始做了,為什么一直就沒(méi)做起來(lái)?
王勁:在那個(gè)時(shí)候確實(shí)面臨技術(shù)的瓶頸。人工智能在我讀書(shū)的時(shí)候是規(guī)則制定階段,人工智能要制定很多規(guī)則。深度學(xué)習(xí)以及機(jī)器學(xué)習(xí)的好處是,只要把模型建起來(lái)以后,就可讓計(jì)算機(jī)自主學(xué)習(xí)、拼命去迭代。
百度現(xiàn)在擁有10億規(guī)模的連接,人最多只能用幾百個(gè)參數(shù),我們沒(méi)辦法做人工的判斷。百度就把大數(shù)據(jù),把規(guī)則制定好,數(shù)學(xué)模型和算法做好,得出結(jié)果,人不需要知道為什么是這個(gè)結(jié)果。人工智能好就好在不需要程序員是每行每業(yè)的專(zhuān)家。這是為什么人工智能在這兩年有一個(gè)飛速的發(fā)展。
另一個(gè)原因則是語(yǔ)音識(shí)別技術(shù)的飛速發(fā)展,過(guò)去兩年,語(yǔ)音識(shí)別率從70%提高到了95%。今天兩個(gè)自然人在講話(huà),其識(shí)別準(zhǔn)確率差不多是98%。去年百度才剛剛到90%,現(xiàn)在就可以達(dá)到95%以上,接近自然人對(duì)話(huà)。
《21世紀(jì)》:推薦引擎的功能,現(xiàn)在的搜索引擎是不是也能做到?
王勁:搜索引擎也可以看成是一種推薦引擎,過(guò)去的搜索引擎給用戶(hù)提供很多的結(jié)果。那時(shí)候搜索引擎都認(rèn)為,搜得的結(jié)果越多越好。推薦引擎跟它做的正相反,最好只給用戶(hù)一個(gè)最相關(guān)的結(jié)果。推薦引擎需要在人工智能再上一個(gè)臺(tái)階以后才可以做到。只有對(duì)用戶(hù)有了更多了解,如時(shí)間、地點(diǎn)、人物的更多數(shù)據(jù),才可以真正實(shí)現(xiàn)個(gè)性化推薦,成為真正的推薦引擎。
你可以看到這是新一代的技術(shù),也可以看到百度是在革自己的命。
越開(kāi)放會(huì)越強(qiáng)
《21世紀(jì)》:百度如何和線下的商場(chǎng)合作?也就是說(shuō),百度的大數(shù)據(jù)怎樣考慮應(yīng)用場(chǎng)景?
王勁:拿銀泰和百度的合作來(lái)說(shuō),戴上Baidu Eye到銀泰的人,年齡、性別、在哪一些貨架停留的時(shí)間最長(zhǎng),商品有多少人買(mǎi)了,有多少人不買(mǎi),這些銀泰需要的數(shù)據(jù),百度就可以幫它拿到并做出分析。
百度投資了一家室內(nèi)定位的公司。通過(guò)室內(nèi)定位,知道消費(fèi)者在這個(gè)商場(chǎng)里面的走動(dòng)軌跡,上述數(shù)據(jù)也都能夠用百度大腦算出來(lái)。銀泰可以通過(guò)數(shù)據(jù)進(jìn)行商業(yè)決策,比如說(shuō),該怎么安排消費(fèi)者在商場(chǎng)的路線,怎么導(dǎo)航能夠讓這個(gè)商場(chǎng)最優(yōu)化,再把到商場(chǎng)里面的購(gòu)買(mǎi)行為全部打通,未來(lái)購(gòu)物體驗(yàn)會(huì)非常不一樣。
大數(shù)據(jù)、百度大腦、推薦引擎是環(huán)環(huán)相扣的,最根本的是你要有基礎(chǔ)架構(gòu),軟硬件能力都要很強(qiáng),數(shù)據(jù)要足夠多,還有關(guān)鍵的是人才。大數(shù)據(jù)+百度大腦+推薦引擎,這三件要素加起來(lái),百度就能夠和傳統(tǒng)產(chǎn)業(yè)合在一起,打開(kāi)一個(gè)局面。
《21世紀(jì)》:很多公司對(duì)人工智能前景的描繪都非常好,以后它服務(wù)于企業(yè)還要克服哪些困難?
王勁:例如數(shù)據(jù)安全和用戶(hù)隱私,這些是我們跟傳統(tǒng)企業(yè)要一起來(lái)努力的。百度希望把技術(shù)和平臺(tái)都開(kāi)放出來(lái),各行各業(yè)可以把他們的服務(wù)跟百度對(duì)接,形成共贏。
百度大數(shù)據(jù)可以變得越來(lái)越大,人工智能和大數(shù)據(jù)引擎是越用越好用。計(jì)算機(jī)里叫深度學(xué)習(xí),通過(guò)數(shù)據(jù)把它訓(xùn)練得越來(lái)越準(zhǔn)。我們希望越來(lái)越多的人能用人工智能,這是我們這些大數(shù)據(jù)引擎開(kāi)放出來(lái)的一個(gè)重要的原因。另外,越開(kāi)放它也會(huì)越強(qiáng)。
《21世紀(jì)》:百度將如何跟政府機(jī)構(gòu)進(jìn)行合作?
王勁:百度有很多的機(jī)會(huì)跟政府機(jī)構(gòu)合作,包括和全球的機(jī)構(gòu)。在公益事業(yè)上,如醫(yī)療,百度能夠政府降低疾病的發(fā)生率,減少污染,找到污染源,對(duì)流行病,以及其他各樣疾病的防控等等。再有中小企業(yè)景氣指數(shù)預(yù)測(cè),找出它的規(guī)律來(lái),這可以幫助我們政府調(diào)整政策。
百度剛剛與聯(lián)合國(guó)在一些綠色產(chǎn)業(yè)方面進(jìn)行了大數(shù)據(jù)方面的合作。
人工智能剛剛起步
《21世紀(jì)》:你怎么看待百度在PC時(shí)代的數(shù)據(jù)優(yōu)勢(shì),以及在移動(dòng)互聯(lián)時(shí)代面臨的挑戰(zhàn)?
王勁:我們認(rèn)為移動(dòng)互聯(lián)網(wǎng)是一個(gè)機(jī)會(huì)。有一個(gè)證據(jù),百度今天在移動(dòng)端獲得的收益超過(guò)30%,在中國(guó)互聯(lián)網(wǎng)企業(yè)當(dāng)中這是相當(dāng)高的。我們有非常多的數(shù)據(jù),這些數(shù)據(jù)加起來(lái)我們能夠做精準(zhǔn)的推薦,這種推薦就是不搜即得。這方面,百度的技術(shù)有優(yōu)勢(shì)。
移動(dòng)互聯(lián)網(wǎng)在生產(chǎn)非常大量的數(shù)據(jù),百度數(shù)據(jù)處理能力和人工智能能力很強(qiáng),這對(duì)我們又是一個(gè)很好的機(jī)會(huì),這個(gè)時(shí)代才剛剛開(kāi)始,這對(duì)大家來(lái)說(shuō)既是挑戰(zhàn),也是機(jī)會(huì)。
百度依托在人工智能、大數(shù)據(jù)技術(shù)上的優(yōu)勢(shì),打造核心競(jìng)爭(zhēng)力,即人工智能與大數(shù)據(jù)的結(jié)合。
《21世紀(jì)》:目前來(lái)看,深度學(xué)習(xí)技術(shù)如何改善百度的用戶(hù)體驗(yàn)和客戶(hù)的投資回報(bào)率?
王勁:百度今天的盈利建立在推廣技術(shù)上,絕大部分的收入也是從這上面來(lái)的。它有一個(gè)指標(biāo)是點(diǎn)擊率,如何做到推廣的東西人們更需要,推薦的東西更靠譜,非常大比例的是由我們百度大腦實(shí)現(xiàn)的。
《21世紀(jì)》:人工智能最大的發(fā)展障礙是安全和隱私?
王勁:這不一定是最大的障礙,技術(shù)能力也需要不斷提升。百度有一個(gè)通用的技術(shù)平臺(tái),還需要跟每一個(gè)傳統(tǒng)行業(yè)學(xué)習(xí)。比如說(shuō)我們跟海底撈合作,他是行業(yè)專(zhuān)家,我們給他一個(gè)數(shù)據(jù),這個(gè)數(shù)據(jù)對(duì)他來(lái)說(shuō)很有價(jià)值,而我只知道這是數(shù)據(jù)。
今天很多東西剛剛開(kāi)始,它像滾雪球一樣越滾越大,越早跟百度合作會(huì)越好,百度如果把這個(gè)技術(shù)越早完善,快速迭代,這其實(shí)也是一個(gè)機(jī)會(huì)。
人工智能還在剛剛起步的階段,但是它有一個(gè)美好的未來(lái)。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03