
百度高級副總裁王勁: 一朵花的大數(shù)據(jù)之旅_數(shù)據(jù)分析師
百度正在傳統(tǒng)的搜索技術(shù)之外,利用“大數(shù)據(jù)+云計算”打造另一個驅(qū)動公司發(fā)展的新引擎——百度高級副總裁王勁接受21世紀(jì)經(jīng)濟報道記者采訪時如是說。
百度大腦是“云計算+大數(shù)據(jù)”的載體:其由硬件和軟件兩部分組成,硬件部分是由云計算中心和服務(wù)器組成,軟件部分是由大數(shù)據(jù)和人工智能算法組成。無論百度推薦引擎、BaiduEye,還是百度面對商家的直達號,均依賴百度大腦作為技術(shù)基礎(chǔ),是一切前端應(yīng)用的backoffice。
王勁認(rèn)為,百度的核心競爭力在于人工智能和大數(shù)據(jù)的結(jié)合??赡艿膱鼍笆牵河檬謾C拍一朵花的照片,上傳給百度,百度大腦把它轉(zhuǎn)化成“0101”的數(shù)字流,然后輸入到深度神經(jīng)網(wǎng)絡(luò)里,經(jīng)過層層的分析、復(fù)雜的學(xué)習(xí)算法和大數(shù)據(jù)比對,最后還原并識別出它是一朵花,并告訴用戶這朵花的名字,隨后在百度百科里找到花的屬性。
如何獲得大數(shù)據(jù)?在百度看來,與第三方伙伴合作是較快獲取大規(guī)模數(shù)據(jù)的方式之一。此前百度曾和中科院花卉研究所對接,獲得花卉種類等近二十萬條的數(shù)據(jù)。在電商領(lǐng)域,國內(nèi)京東、當(dāng)當(dāng)、蘑菇街等電商平臺伙伴向百度提供消費數(shù)據(jù),同時獲得百度入口的流量。當(dāng)然,目前百度尚沒有阿里巴巴系統(tǒng)的數(shù)據(jù)。
《大數(shù)據(jù)時代》作者舍恩伯格的判斷是,目前正處在大數(shù)據(jù)時代的早期。對于百度來說,其通過搜索引擎積累了大量的數(shù)據(jù)“金礦”,人工智能則給予百度“挖礦”的能力。
百度做大數(shù)據(jù),更是通過搜索引擎在為人工智能鋪路。但并非所有的數(shù)據(jù)金礦都在百度手中,微信、微博等社交數(shù)據(jù)是一個例子,阿里巴巴手中的電商數(shù)據(jù)是另一個例子。
“百度在革自己的命”
《21世紀(jì)》:百度大腦研究現(xiàn)在進展如何?目前人工智能的研究方面在國際上處于什么位置?
王勁:人工智能一直到2010年都沒有什么突破,當(dāng)它的準(zhǔn)確率不高的時候,它就無法應(yīng)用。一直到這兩年有了深度學(xué)習(xí)的新算法,這個新算法才被用到人工智能上,突破了以前很多瓶頸。在這個方面,百度是做得最早的,百度在全球都是在這方面進行投入的最早公司之一,我們跟國際最領(lǐng)先的公司在同一個起跑線上。
《21世紀(jì)》:人工智能從70年代、80年代末初就開始做了,為什么一直就沒做起來?
王勁:在那個時候確實面臨技術(shù)的瓶頸。人工智能在我讀書的時候是規(guī)則制定階段,人工智能要制定很多規(guī)則。深度學(xué)習(xí)以及機器學(xué)習(xí)的好處是,只要把模型建起來以后,就可讓計算機自主學(xué)習(xí)、拼命去迭代。
百度現(xiàn)在擁有10億規(guī)模的連接,人最多只能用幾百個參數(shù),我們沒辦法做人工的判斷。百度就把大數(shù)據(jù),把規(guī)則制定好,數(shù)學(xué)模型和算法做好,得出結(jié)果,人不需要知道為什么是這個結(jié)果。人工智能好就好在不需要程序員是每行每業(yè)的專家。這是為什么人工智能在這兩年有一個飛速的發(fā)展。
另一個原因則是語音識別技術(shù)的飛速發(fā)展,過去兩年,語音識別率從70%提高到了95%。今天兩個自然人在講話,其識別準(zhǔn)確率差不多是98%。去年百度才剛剛到90%,現(xiàn)在就可以達到95%以上,接近自然人對話。
《21世紀(jì)》:推薦引擎的功能,現(xiàn)在的搜索引擎是不是也能做到?
王勁:搜索引擎也可以看成是一種推薦引擎,過去的搜索引擎給用戶提供很多的結(jié)果。那時候搜索引擎都認(rèn)為,搜得的結(jié)果越多越好。推薦引擎跟它做的正相反,最好只給用戶一個最相關(guān)的結(jié)果。推薦引擎需要在人工智能再上一個臺階以后才可以做到。只有對用戶有了更多了解,如時間、地點、人物的更多數(shù)據(jù),才可以真正實現(xiàn)個性化推薦,成為真正的推薦引擎。
你可以看到這是新一代的技術(shù),也可以看到百度是在革自己的命。
越開放會越強
《21世紀(jì)》:百度如何和線下的商場合作?也就是說,百度的大數(shù)據(jù)怎樣考慮應(yīng)用場景?
王勁:拿銀泰和百度的合作來說,戴上Baidu Eye到銀泰的人,年齡、性別、在哪一些貨架停留的時間最長,商品有多少人買了,有多少人不買,這些銀泰需要的數(shù)據(jù),百度就可以幫它拿到并做出分析。
百度投資了一家室內(nèi)定位的公司。通過室內(nèi)定位,知道消費者在這個商場里面的走動軌跡,上述數(shù)據(jù)也都能夠用百度大腦算出來。銀泰可以通過數(shù)據(jù)進行商業(yè)決策,比如說,該怎么安排消費者在商場的路線,怎么導(dǎo)航能夠讓這個商場最優(yōu)化,再把到商場里面的購買行為全部打通,未來購物體驗會非常不一樣。
大數(shù)據(jù)、百度大腦、推薦引擎是環(huán)環(huán)相扣的,最根本的是你要有基礎(chǔ)架構(gòu),軟硬件能力都要很強,數(shù)據(jù)要足夠多,還有關(guān)鍵的是人才。大數(shù)據(jù)+百度大腦+推薦引擎,這三件要素加起來,百度就能夠和傳統(tǒng)產(chǎn)業(yè)合在一起,打開一個局面。
《21世紀(jì)》:很多公司對人工智能前景的描繪都非常好,以后它服務(wù)于企業(yè)還要克服哪些困難?
王勁:例如數(shù)據(jù)安全和用戶隱私,這些是我們跟傳統(tǒng)企業(yè)要一起來努力的。百度希望把技術(shù)和平臺都開放出來,各行各業(yè)可以把他們的服務(wù)跟百度對接,形成共贏。
百度大數(shù)據(jù)可以變得越來越大,人工智能和大數(shù)據(jù)引擎是越用越好用。計算機里叫深度學(xué)習(xí),通過數(shù)據(jù)把它訓(xùn)練得越來越準(zhǔn)。我們希望越來越多的人能用人工智能,這是我們這些大數(shù)據(jù)引擎開放出來的一個重要的原因。另外,越開放它也會越強。
《21世紀(jì)》:百度將如何跟政府機構(gòu)進行合作?
王勁:百度有很多的機會跟政府機構(gòu)合作,包括和全球的機構(gòu)。在公益事業(yè)上,如醫(yī)療,百度能夠政府降低疾病的發(fā)生率,減少污染,找到污染源,對流行病,以及其他各樣疾病的防控等等。再有中小企業(yè)景氣指數(shù)預(yù)測,找出它的規(guī)律來,這可以幫助我們政府調(diào)整政策。
百度剛剛與聯(lián)合國在一些綠色產(chǎn)業(yè)方面進行了大數(shù)據(jù)方面的合作。
人工智能剛剛起步
《21世紀(jì)》:你怎么看待百度在PC時代的數(shù)據(jù)優(yōu)勢,以及在移動互聯(lián)時代面臨的挑戰(zhàn)?
王勁:我們認(rèn)為移動互聯(lián)網(wǎng)是一個機會。有一個證據(jù),百度今天在移動端獲得的收益超過30%,在中國互聯(lián)網(wǎng)企業(yè)當(dāng)中這是相當(dāng)高的。我們有非常多的數(shù)據(jù),這些數(shù)據(jù)加起來我們能夠做精準(zhǔn)的推薦,這種推薦就是不搜即得。這方面,百度的技術(shù)有優(yōu)勢。
移動互聯(lián)網(wǎng)在生產(chǎn)非常大量的數(shù)據(jù),百度數(shù)據(jù)處理能力和人工智能能力很強,這對我們又是一個很好的機會,這個時代才剛剛開始,這對大家來說既是挑戰(zhàn),也是機會。
百度依托在人工智能、大數(shù)據(jù)技術(shù)上的優(yōu)勢,打造核心競爭力,即人工智能與大數(shù)據(jù)的結(jié)合。
《21世紀(jì)》:目前來看,深度學(xué)習(xí)技術(shù)如何改善百度的用戶體驗和客戶的投資回報率?
王勁:百度今天的盈利建立在推廣技術(shù)上,絕大部分的收入也是從這上面來的。它有一個指標(biāo)是點擊率,如何做到推廣的東西人們更需要,推薦的東西更靠譜,非常大比例的是由我們百度大腦實現(xiàn)的。
《21世紀(jì)》:人工智能最大的發(fā)展障礙是安全和隱私?
王勁:這不一定是最大的障礙,技術(shù)能力也需要不斷提升。百度有一個通用的技術(shù)平臺,還需要跟每一個傳統(tǒng)行業(yè)學(xué)習(xí)。比如說我們跟海底撈合作,他是行業(yè)專家,我們給他一個數(shù)據(jù),這個數(shù)據(jù)對他來說很有價值,而我只知道這是數(shù)據(jù)。
今天很多東西剛剛開始,它像滾雪球一樣越滾越大,越早跟百度合作會越好,百度如果把這個技術(shù)越早完善,快速迭代,這其實也是一個機會。
人工智能還在剛剛起步的階段,但是它有一個美好的未來。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10