
搜索引擎的大數(shù)據(jù)時代_數(shù)據(jù)分析師
近日百度和藥監(jiān)局達(dá)成戰(zhàn)略合作,百度將使用藥監(jiān)局的的藥品數(shù)據(jù)為人們提供用藥相關(guān)的查詢。百度為這批數(shù)據(jù)付出的代價并未提及。天下沒有免費的午餐,藥監(jiān)局雖然是要造福于民,但是這批數(shù)據(jù)顯然不會白給。這意味著搜索引擎為數(shù)據(jù)買單的時代已經(jīng)到來。筆者今天想談?wù)勱P(guān)于搜索和數(shù)據(jù)關(guān)系的一些看法。注意,大數(shù)據(jù)離我們太遠(yuǎn),這不是談大數(shù)據(jù)。
360與即刻此前已達(dá)成戰(zhàn)略合作,共同運營食品安全和曝光欄欄目外,且360將與即刻共享藥監(jiān)局的數(shù)據(jù)。再前,360搜索引擎通過云云搜索接入了微博搜索結(jié)果,再之前,Google購買Twitter數(shù)據(jù)以提供Twitter搜索結(jié)果。
谷歌不作惡,干的事情是“整合全球信息,使人人皆可訪問并從中受益”和“加速信息流動”。百度簡單可依賴,干的事情是“讓人們最便捷地獲取信息,找到所求”。不同的表示,搜索引擎本質(zhì)卻是一致的:幫助人們找到想要的信息。伴隨著社會化和移動互聯(lián)網(wǎng)的浪潮,網(wǎng)絡(luò)上的數(shù)據(jù)爆炸式的增長。如何應(yīng)對這些爆炸的數(shù)據(jù),既是搜索引擎面臨的挑戰(zhàn),也是搜索引擎?zhèn)兊臋C(jī)遇。
具體分析如下:
一、比暗網(wǎng)更暗的大數(shù)據(jù)網(wǎng)
聚合所有網(wǎng)絡(luò)上的信息,一直是有抱負(fù)的搜索引擎的夢想,但這是不可能完成的任務(wù)。
94年Dr.Jill Ellsworth便提出”暗網(wǎng)“的概念。指存儲在網(wǎng)絡(luò)數(shù)據(jù)庫里、不能通過超鏈接訪問,不屬于那些可以被標(biāo)準(zhǔn)搜索引擎索引的表面網(wǎng)絡(luò)。暗網(wǎng)的規(guī)模也遠(yuǎn)超我們的想象,據(jù)科學(xué)家研究,人類信息只有不到1%的實現(xiàn)了WEB化,而WEB化的網(wǎng)頁中,搜索引擎能抓取的大概為1%500。
不能抓取的既有網(wǎng)站本身非主觀的問題(不符合網(wǎng)頁規(guī)范,對搜素引擎不友好等),也有網(wǎng)站本身的主觀屏蔽的問題,如淘寶、優(yōu)酷等網(wǎng)站屏蔽百度的爬蟲既是這類。搜索引擎在解決這兩類問題上已經(jīng)做過很多努力。包括爬蟲爬取技術(shù)的優(yōu)化、合法SEO的推動以及類似百度阿拉丁計劃。
百度的阿拉丁計劃通過提供接口的方式,第三方網(wǎng)站主動接入自己的結(jié)構(gòu)化數(shù)據(jù),用戶在搜索時即可在結(jié)果前面看到這些信息。百度期望阿拉丁燈神可以“照亮”暗網(wǎng)。與此類似的計劃還有Google的OneBox,360的oneBox(360這名字取的)。但在暗網(wǎng)的問題還未解決之際,一個更暗的網(wǎng)已經(jīng)到來。
1、越來越多的私有化的WEB化數(shù)據(jù)。
電商網(wǎng)站、BBS、知乎問答、互動百科、豆瓣電影等內(nèi)容便是屬于此類。垂直網(wǎng)站在達(dá)到一定規(guī)模后,擁有與搜索引擎博弈的能力時,便可屏蔽搜索引擎的爬蟲,將自己的數(shù)據(jù)“私有化“。垂直網(wǎng)站提供的搜索功能,可以用個性化的搜索功能和獨有的挖掘能力,提供更好的搜索體驗。甚至上升為垂直搜索引擎,如知乎搜索。另外一種垂直搜索引擎即是綜合其他垂直的結(jié)構(gòu)化數(shù)據(jù),提供搜索服務(wù),如去哪兒、一淘。
筆者相信隨著WEB的發(fā)展,垂直搜索是未來搜索引擎細(xì)分的一個方向,且將對傳統(tǒng)搜索引擎構(gòu)成威脅。類似手機(jī)上瀏覽器和原生APP之間的關(guān)系:瀏覽器和APP流量對半分。我們把傳統(tǒng)搜索引擎如百度看成這一個瀏覽器,那么垂直搜索引擎便是APP。垂直搜索引擎也如APP一樣正在滋長壯大。且他們具有的核心優(yōu)勢都是:個性化VS統(tǒng)一的優(yōu)勢。
如果說WEB數(shù)據(jù)私有化使前面提到的“WEB化的信息,能抓?。翰荒茏ト〉募s為1:500”這個比率發(fā)生變化。下面要談的將影響“不到1%的信息WEB化”的1%。
2、巨量增長的沒有WEB化的數(shù)據(jù)。
隨著10多年的發(fā)展,PC互聯(lián)網(wǎng)已積累大量的數(shù)據(jù);而在移動互聯(lián)網(wǎng)的浪潮下,APP、云應(yīng)用、社交和物聯(lián)網(wǎng)讓數(shù)據(jù)爆炸式增長。對搜索引擎來說,這些數(shù)據(jù)幾乎都是不可見的。
人工整理的數(shù)據(jù):
藥監(jiān)局的數(shù)據(jù)就是例子。這類數(shù)據(jù)集中存在于政府部門、機(jī)構(gòu)組織和一些企業(yè)手里。他們手里即掌握著民眾關(guān)心的權(quán)威民生數(shù)據(jù),又暫時沒有將這些數(shù)據(jù)通過網(wǎng)站開放出來。與此類似的擁有數(shù)據(jù)的還有交通部門、環(huán)保部門、旅游局、衛(wèi)生局、教育局等民眾關(guān)注的各個領(lǐng)域。經(jīng)過十多年的信息化建設(shè),這些數(shù)據(jù)想必已經(jīng)達(dá)到可觀的量級。
另外,“我查查”的條形碼數(shù)據(jù)也可歸為此類。我查查團(tuán)隊創(chuàng)業(yè)初期,數(shù)百人團(tuán)隊在全國商場收集商品條形碼數(shù)據(jù)。我查查有一定規(guī)模后,用戶才主動為其添加條形碼數(shù)據(jù)。
社交產(chǎn)生的數(shù)據(jù):
這里的社交網(wǎng)絡(luò)不僅僅指微博或人人網(wǎng)。QQ聊天也是一種社交。郵件也是一種社交?;⑿峋W(wǎng)也是一種社交。甚至短信通信也是一種社交。我們不妨將這稱為“暗社交”。這些社交過程又產(chǎn)生了大量的信息,尤其是分享行為。一定程度上部分社交網(wǎng)站的數(shù)據(jù)是WEB化的,但是它們是封閉的。這部分?jǐn)?shù)據(jù)正在巨量增長,而搜索引擎對他們無能為力。Facebook可以通過Graph Search搜索自己的數(shù)據(jù),微博有微博搜索,人人的,以及“暗社交”的數(shù)據(jù),誰來搜索?
APP產(chǎn)生的數(shù)據(jù):
搜狗王小川曾經(jīng)拋出過“WEB已死”的說法。移動互聯(lián)網(wǎng)已經(jīng)不再是由WEB通過超鏈接互相連接的網(wǎng)絡(luò)。APP之間通過接口互相鏈接,APP上的不同用戶通過QQ好友關(guān)系、微信圈、微博關(guān)注關(guān)系、手機(jī)號碼等方式互相鏈接。而傳統(tǒng)搜索引擎正是基于超鏈接的。帶來的問題實際問題就是,搜素引擎如何搜索啪啪等APP的數(shù)據(jù)?
個人云應(yīng)用產(chǎn)生的數(shù)據(jù):
個人云應(yīng)用主要是解決多屏同步的問題。這讓更多用戶選擇將數(shù)據(jù)保存在云端。在不同設(shè)備上賬號認(rèn)證后下載并使用這些數(shù)據(jù)。這類應(yīng)用除了同步通訊錄、收藏夾這類私密性強的數(shù)據(jù)外,還有印象筆記、網(wǎng)易云閱讀等類型的大文本數(shù)據(jù)。個人云應(yīng)用將越來越多。若干年后,筆者認(rèn)為OFFICE提供云同步功能也不是沒可能。這些數(shù)據(jù),搜索引擎無能為力。
物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù):
車聯(lián)網(wǎng)、監(jiān)控錄像、電子抄表、水文監(jiān)測等物聯(lián)網(wǎng)應(yīng)用每時每刻也在產(chǎn)生大量的數(shù)據(jù)。這個行業(yè)還沒爆發(fā)。爆發(fā)的時候,應(yīng)用也不會局限與此?;ヂ?lián)網(wǎng)鏈接網(wǎng)頁,移動互聯(lián)網(wǎng)鏈接天下蕓蕓眾生,而物聯(lián)網(wǎng),鏈接天下萬物?,F(xiàn)在中國的手機(jī)用戶數(shù)突破11億。蕓蕓眾生基本已連起來。不過相比11億,物聯(lián)網(wǎng)用戶數(shù)則是一個驚人的量級。這些“用戶”也將產(chǎn)生大量的數(shù)據(jù)。這些數(shù)據(jù)將來是否要被人類搜索,以什么形式搜索,搜索的結(jié)果是什么?
二、大數(shù)據(jù)如何流動
百度的阿拉丁計劃曾經(jīng)一度擁有吸收結(jié)構(gòu)化數(shù)據(jù)的魔力,眾多結(jié)構(gòu)化數(shù)據(jù)如天氣預(yù)報、圖書信息等都主動去接入百度框計算。以便從百度獲取流量和用戶。垂直網(wǎng)站們也一度通過SEO提升百度排名。而這個形勢正在逆轉(zhuǎn)。結(jié)構(gòu)化數(shù)據(jù)不再主動流到百度。垂直網(wǎng)站們趨于將這些數(shù)據(jù)私有化,或者有限地開放給部分搜索引擎。
云云搜索由雄心勃勃的Google工程師出來創(chuàng)立,最初立意于做社交搜索。此時FACEBOOK的GraphSearch還不為大家所知。但是云云搜索現(xiàn)在走向了為新浪、即刻等公司提供搜索技術(shù)服務(wù)的方向。云云搜索之所以在自己的社交搜索上沒有起色,歸根結(jié)底就是從搜索切入社交是癡人說夢,因為沒有用戶,就沒有社交,也就沒有社交搜素依賴的數(shù)據(jù)。云云需要的社交數(shù)據(jù)在微博。所以,云云投奔微博而去。
百度搜索做了10多年,在如何吸引用戶登錄上做出很多努力,但仍然沒有形成自己的賬號體系。Google煞費苦心的GooglePlus也無法撼動Facebook在社交網(wǎng)絡(luò)的地位。同類的例子還有BING。2012年10月沈向陽接受采訪時說BING戰(zhàn)略是社交搜索、實體搜索(移動搜索)和地圖。而現(xiàn)在,BING中國主要方向已變?yōu)橛⑽乃阉鳌?/span>
1、遠(yuǎn)離搜索引擎的數(shù)據(jù)
搜索需要的大數(shù)據(jù)掌握在誰手里呢?垂直網(wǎng)站正將其數(shù)據(jù)私有化,社交網(wǎng)站天生私有化,云應(yīng)用提供商替保存著用戶的私有數(shù)據(jù),APP的數(shù)據(jù)因為沒有WEB化也是私有化的,當(dāng)然還有一部分?jǐn)?shù)據(jù)掌握在政府、組織、普通企業(yè)手里。
數(shù)據(jù)一度主動流向搜素引擎,而現(xiàn)在結(jié)構(gòu)化的數(shù)據(jù),尤其是有價值的結(jié)構(gòu)化數(shù)據(jù)正在慢慢遠(yuǎn)離搜索引擎,流向一個私有的領(lǐng)地。這將產(chǎn)生數(shù)據(jù)的滾雪球效應(yīng):有數(shù)據(jù)的地方,數(shù)據(jù)會越來越多;沒有數(shù)據(jù)的地方,必須為獲得數(shù)據(jù)付出比蜘蛛爬取更多的代價。
2、搜索引擎將退化,或者改變位置?
傳統(tǒng)綜合搜索引擎接下來要解決的不是“加速信息流動”,因為很多信息都夠不著。這也更加突出Google+以及gmail等可以收集數(shù)據(jù)的應(yīng)用對Google未來的意義?;蛟S未來的搜素引擎,百度這種傳統(tǒng)的網(wǎng)頁搜索引擎將退化為“垂直網(wǎng)頁搜索引擎”。因為網(wǎng)頁數(shù)據(jù)只是網(wǎng)絡(luò)數(shù)據(jù)的一部分,一小部分。這里再次借用王小川的話“WEB已死”。
當(dāng)然,還有一種可能是搜索引擎仍然可以夠著這些數(shù)據(jù),有償獲取。其在生態(tài)圈中的位置的變化。搜索吃了免費數(shù)據(jù)10多年,接下來,搜索引擎要更多地為數(shù)據(jù)買單。藥監(jiān)局只是一個開始。
三、大數(shù)據(jù)對搜索的價值
人類已經(jīng)到了離開信息不能活的地步。數(shù)據(jù)大爆炸,按照達(dá)爾文生物進(jìn)化論,人類的信息吸收、篩選和處理的能力應(yīng)該也會進(jìn)化。人們對信息的需求并不會退化,反而會更加饑渴。而搜索引擎需要解決的問題,不再是幫助人們從海量信息里面找到結(jié)果。而是,在海量結(jié)果里面找到唯一??焖僬业綔?zhǔn)確的答案比找到更多的答案更重要。
1、結(jié)構(gòu)化數(shù)據(jù)對搜索的價值。
結(jié)構(gòu)化數(shù)據(jù)和網(wǎng)頁數(shù)據(jù)相比,更能滿足第一點:找準(zhǔn)唯一答案。網(wǎng)頁分析是靠文本匹配。結(jié)構(gòu)化數(shù)據(jù)的分析即支持內(nèi)容提供者的主動接入,也支持搜索引擎的個性化精準(zhǔn)分析。這兩種方式都會增加內(nèi)容提供者或者搜索引擎的成本,但是付出帶來的回報是用戶快速得到準(zhǔn)確的唯一的答案。
2、大數(shù)據(jù)挖掘是搜索引擎的機(jī)會。
不再僅僅是加速信息流動,如果只做第一點提的結(jié)構(gòu)化數(shù)據(jù)接入和展示又太簡單。搜素引擎要做什么呢?幫助人類做人腦不能做的事情:數(shù)據(jù)挖掘。即從海量數(shù)據(jù)中挖掘價值。人們都說大數(shù)據(jù)是一座金礦。但是如何從這座金礦中淘金,人們即沒找到方法,也沒找到工具。
搜索引擎經(jīng)過十多年的發(fā)展,在文本分析、關(guān)系發(fā)掘、圖譜構(gòu)造、用戶語義理解等方面已有豐富的積累。這些技術(shù)是大數(shù)據(jù)挖掘依賴的基本技術(shù)。咱們會叫它挖掘引擎。而將挖掘和傳統(tǒng)搜索結(jié)合起來,通過挖掘響應(yīng)用戶主動的或者被動的搜索需求,或許咱們可以叫其“推薦引擎”。
豆瓣和一些電商網(wǎng)站早已進(jìn)行這方面的探索。豆瓣因為最初便將“推薦”作為其核心功能之一,已有一些成型的成果?;蛟S,我們撇開豆瓣的UGC模式,其搜索+推薦的模式值得關(guān)注:豆瓣專注文化產(chǎn)品,其早已悄然上線“發(fā)現(xiàn)喜歡的東西”,可以點評、分享和推薦任何“東西”,任何“物”?,F(xiàn)在屬于低調(diào)的實驗性產(chǎn)品,但我認(rèn)為這可能是豆瓣將來的爆發(fā)點,這個將來很遠(yuǎn),因為豆瓣很“慢”。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
PyTorch 核心機(jī)制:損失函數(shù)與反向傳播如何驅(qū)動模型進(jìn)化 在深度學(xué)習(xí)的世界里,模型從 “一無所知” 到 “精準(zhǔn)預(yù)測” 的蛻變,離 ...
2025-07-252025 年 CDA 數(shù)據(jù)分析師考綱煥新,引領(lǐng)行業(yè)人才新標(biāo)準(zhǔn) 在數(shù)字化浪潮奔涌向前的當(dāng)下,數(shù)據(jù)已成為驅(qū)動各行業(yè)發(fā)展的核心要素。作為 ...
2025-07-25從數(shù)據(jù)到?jīng)Q策:CDA 數(shù)據(jù)分析師如何重塑職場競爭力與行業(yè)價值 在數(shù)字經(jīng)濟(jì)席卷全球的今天,數(shù)據(jù)已從 “輔助工具” 升級為 “核心資 ...
2025-07-25用 Power BI 制作地圖熱力圖:基于經(jīng)緯度數(shù)據(jù)的實踐指南 在數(shù)據(jù)可視化領(lǐng)域,地圖熱力圖憑借直觀呈現(xiàn)地理數(shù)據(jù)分布密度的優(yōu)勢,成 ...
2025-07-24解析 insert into select 是否會鎖表:原理、場景與應(yīng)對策略 在數(shù)據(jù)庫操作中,insert into select 是一種常用的批量數(shù)據(jù)插入語句 ...
2025-07-24CDA 數(shù)據(jù)分析師的工作范圍解析 在數(shù)字化時代的浪潮下,數(shù)據(jù)已成為企業(yè)發(fā)展的核心資產(chǎn)之一。CDA(Certified Data Analyst)數(shù)據(jù)分 ...
2025-07-24從 CDA LEVEL II 考試題型看 Python 數(shù)據(jù)分析要點 在數(shù)據(jù)科學(xué)領(lǐng)域蓬勃發(fā)展的當(dāng)下,CDA(Certified Data Analyst)認(rèn)證成為眾多從 ...
2025-07-23用 Python 開啟數(shù)據(jù)分析之旅:從基礎(chǔ)到實踐的完整指南 在數(shù)據(jù)驅(qū)動決策的時代,數(shù)據(jù)分析已成為各行業(yè)不可或缺的核心能力。而 Pyt ...
2025-07-23鳶尾花判別分析:機(jī)器學(xué)習(xí)中的經(jīng)典實踐案例 在機(jī)器學(xué)習(xí)的世界里,有一個經(jīng)典的數(shù)據(jù)集如同引路明燈,為無數(shù)初學(xué)者打開了模式識別 ...
2025-07-23解析 response.text 與 response.content 的核心區(qū)別 在網(wǎng)絡(luò)數(shù)據(jù)請求與處理的場景中,開發(fā)者經(jīng)常需要從服務(wù)器返回的響應(yīng)中提取數(shù) ...
2025-07-22解析神經(jīng)網(wǎng)絡(luò)中 Softmax 函數(shù)的核心作用 在神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程中,激活函數(shù)扮演著至關(guān)重要的角色,它們?yōu)榫W(wǎng)絡(luò)賦予了非線性能力, ...
2025-07-22CDA數(shù)據(jù)分析師證書考取全攻略 一、了解 CDA 數(shù)據(jù)分析師認(rèn)證 CDA 數(shù)據(jù)分析師認(rèn)證是一套科學(xué)化、專業(yè)化、國際化的人才考核標(biāo)準(zhǔn), ...
2025-07-22左偏態(tài)分布轉(zhuǎn)正態(tài)分布:方法、原理與實踐 左偏態(tài)分布轉(zhuǎn)正態(tài)分布:方法、原理與實踐 在統(tǒng)計分析、數(shù)據(jù)建模和科學(xué)研究中,正態(tài)分 ...
2025-07-22你是不是也經(jīng)常刷到別人漲粉百萬、帶貨千萬,心里癢癢的,想著“我也試試”,結(jié)果三個月過去,粉絲不到1000,播放量慘不忍睹? ...
2025-07-21我是陳輝,一個創(chuàng)業(yè)十多年的企業(yè)主,前半段人生和“文字”緊緊綁在一起。從廣告公司文案到品牌策劃,再到自己開策劃機(jī)構(gòu),我靠 ...
2025-07-21CDA 數(shù)據(jù)分析師的職業(yè)生涯規(guī)劃:從入門到卓越的成長之路 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的當(dāng)下,數(shù)據(jù)已成為企業(yè)核心競爭力的重要來源,而 CD ...
2025-07-21MySQL執(zhí)行計劃中rows的計算邏輯:從原理到實踐 MySQL 執(zhí)行計劃中 rows 的計算邏輯:從原理到實踐 在 MySQL 數(shù)據(jù)庫的查詢優(yōu)化中 ...
2025-07-21在AI滲透率超85%的2025年,企業(yè)生存之戰(zhàn)就是數(shù)據(jù)之戰(zhàn),CDA認(rèn)證已成為決定企業(yè)存續(xù)的生死線!據(jù)麥肯錫全球研究院數(shù)據(jù)顯示,AI驅(qū) ...
2025-07-2035歲焦慮像一把高懸的利刃,裁員潮、晉升無望、技能過時……當(dāng)職場中年危機(jī)與數(shù)字化浪潮正面交鋒,你是否發(fā)現(xiàn): 簡歷投了10 ...
2025-07-20CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-18