99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀硅谷巨頭們的大數(shù)據(jù)玩法-數(shù)據(jù)分析師
硅谷巨頭們的大數(shù)據(jù)玩法-數(shù)據(jù)分析師
2014-12-16
收藏

本篇將一共呈現(xiàn)硅谷四大不同類型的公司如何玩轉(zhuǎn)大數(shù)據(jù),其中包括了著名FLAG中的三家(Apple在大數(shù)據(jù)這塊來說表現(xiàn)并不突出)。

本篇內(nèi)容來自對 Evernote AI 負責(zé)人 Zeesha Currimbhoy、LinkedIn 大數(shù)據(jù)部門資深總監(jiān) Simon Zhang、前 Facebook 基礎(chǔ)架構(gòu)工程師 Ashish Thusoo 和 Google 大數(shù)據(jù)部門一線工程師及 Google Maps 相關(guān)負責(zé)人的專訪。Enjoy~~

Evernote:今年新建AI部門劍指深度學(xué)習(xí)

Evernote的全球大會上,CEO Phil Libin提到,Evernote的一個重要方向就是“讓Evernote變成一個強大的大腦”。要實現(xiàn)這個目標,就不得不提他們剛剛整合改組的Augmented Intelligence團隊(以下簡稱AI team)。我在斯坦福約到AI team的manager Zeesha Currimbhoy,在此分析一下從她那里得到的一手資料。

是什么?

今年早些時候,這個2歲的數(shù)據(jù)處理團隊改組為由Zeesha帶領(lǐng)的Augmented Intelligence team,總共十人不到,很低調(diào),平日幾乎聽不到聲響。他們究竟在做什么?

與我們常說的AI(artificial Intelligence)不同,Evernote的團隊名叫做Augmented Intelligence,通常情況下簡稱為IA。Zeesha顯然是這個團隊里元老級的人物:“我是在2012年加入Evernote的,直接加入到了當時剛剛建立的數(shù)據(jù)處理團隊,這也就是現(xiàn)在AI team的雛形。我們最開始的項目都是簡單易行的小項目,比如按照你的個人打字方式來優(yōu)化用戶的輸入體驗?!?/span>

傳統(tǒng)意義上的AI指的是通過大量數(shù)據(jù)和算法讓機器學(xué)會分析并作出決定。而這里講到IA則是讓電腦進行一定量的運算,而終極目的是以之武裝人腦,讓人來更好的做決定。這兩個概念在具體實施中自然有不少相通之處,但是其出發(fā)點卻是完全不同的。

這個區(qū)別也是Evernote AI team的亮點所在。作為一個筆記記錄工具,Evernote與Google之類的搜索引擎相比,最大的區(qū)別就是它非常的個人化。用戶所儲存的筆記、網(wǎng)站鏈接、照片、視頻等都是他思維方式和關(guān)注點的體現(xiàn)。

從哪來?

Zeesha小組的初衷便是,通過分析用戶儲存的筆記來學(xué)習(xí)其思維方式,然后以相同的模式從第三方數(shù)據(jù)庫(也就是互聯(lián)網(wǎng)上的各種開源信息)抽取信息推送給用戶,從而達到幫助用戶思考的過程。從這個意義上講,Zeesha版的未來Evernote更像是一個大腦的超級外掛,為人腦提供各種強大的可理解的數(shù)據(jù)支持。

目前整個團隊的切入點是很小而專注的?!拔覀儾粌H僅是幫助用戶做搜索,更重要的是在正確的時間給用戶推送正確的信息?!?/span>

實現(xiàn)這個目標的第一步就是給用戶自己的筆記分類,找到關(guān)聯(lián)點。今年早些時候,Evernote已經(jīng)在Mac的英文版上實行了一項叫做“Descriptive Search”的功能。用戶可以直接描述想要搜索的條目,Evernote就會自動返回所有相關(guān)信息。

例如,用戶可以直接搜索“2012后在布拉格的所有圖片”,或者“所有素食菜單”。不管用戶的筆記是怎樣分類的,Decriptive Search都可以搜索到相關(guān)的信息并且避免返回過大范圍的數(shù)據(jù)。而這還僅僅是AI team長期目標的開始,這個團隊將在此基礎(chǔ)上開發(fā)一系列智能化的產(chǎn)品。

到哪去?

不用說,這樣一個新創(chuàng)團隊自然也面臨這諸多方面的挑戰(zhàn)。當下一個比較重要的技術(shù)難點就是Evernote用戶的數(shù)據(jù)量。雖然Evernote的用戶量已經(jīng)達到了一億,但是由于整個團隊的關(guān)注點在個人化分析,外加隱私保護等諸多原因,AI team并沒有做跨用戶的數(shù)據(jù)分析。

這樣做的結(jié)果就是團隊需要分析一億組各不相同的小數(shù)據(jù)組。比如,假設(shè)我只在Evernote上面存了10個筆記,那Evernote也應(yīng)該能夠通過這些少量的數(shù)據(jù)來分析出有效結(jié)果。當然,這些技術(shù)的直接結(jié)果是用戶用Evernote越多,得到的個性化用戶體驗就越好。長期來講,也是一個可以增加用戶黏性的特點。

不過Zeesha也坦言:“的確,我們都知道沒有大數(shù)據(jù)就沒有所謂的智能分析。但是我們現(xiàn)在所做的正是在這樣的前提下來找到新的合適的算法?!彼]有深入去講目前團隊所用的是什么思路,但是考慮到這個領(lǐng)域一時還沒有很成功的先例,我們有理由期待在Zeesha帶領(lǐng)下的Evernote AI team在近期做出一些有意思的成果。

Facebook:大數(shù)據(jù)主要用于外部廣告精準投放和內(nèi)部交流

Facebook有一個超過30人的團隊花了近4年的時間才建立了Facebook的數(shù)據(jù)處理平臺。如今,F(xiàn)acebook仍需要超過100名工程師來支持這個平臺的日常運行??上攵?,光是大數(shù)據(jù)分析的基礎(chǔ)設(shè)施就已經(jīng)是一個耗時耗力的項目了。

Facebook的一大價值就在于其超過13.5億活躍用戶每天發(fā)布的數(shù)據(jù)。而其大數(shù)據(jù)部門經(jīng)過七八年的摸索,才在2013年把部門的key foundation定位成廣告的精準投放,開始建了一整套自己的數(shù)據(jù)處理系統(tǒng)和團隊。并進行了一系列配套的收購活動,比如買下世界第二大廣告平臺Atlas。

據(jù)前Facebook Data Infrastructure Manager Ashish Thusoo介紹,F(xiàn)acebook的數(shù)據(jù)處理平臺是一個self-service, self-managing的平臺,管理著超過1Exabyte的數(shù)據(jù)。公司內(nèi)部的各個部門可以直接看到處理過的實時數(shù)據(jù),并根據(jù)需求進一步分析。

目前公司超過30%的團隊,包括工程師、Product Managers、Business Analysts等多個職位人群每個月都一定會使用這項服務(wù)。這個數(shù)據(jù)處理平臺的建立讓各個不同部門之間可以通過數(shù)據(jù)容易地交流,明顯改變了公司的運行方式。

追溯歷史,F(xiàn)acebook最早有大數(shù)據(jù)的雛形是在2005年,當時是小扎克親自做的。方法很簡單:用Memcache和MySQL進行數(shù)據(jù)存儲和管理。很快bug就顯現(xiàn)了,用戶量帶來數(shù)據(jù)的急速增大,使用Memcache和MySQL對Facebook的快速開發(fā)生命周期(改變-修復(fù)-發(fā)布)帶來了阻礙,系統(tǒng)同步不一致的情況經(jīng)常發(fā)生?;谶@個問題的解決方案是每秒100萬讀操作和幾百萬寫操作的TAO(“The Associations and Objects”) 分布式數(shù)據(jù)庫,主要解決特定資源過量訪問時服務(wù)器掛掉的bug。

小扎克在2013年第一季度戰(zhàn)略時提到的最重點就是公司的大數(shù)據(jù)方向,還特別提出不對盈利做過多需求,而是要求基于大數(shù)據(jù)來做好以下三個功能:

發(fā)布新的廣告產(chǎn)品。比如類似好友,管理特定好友和可以提升廣告商精確投放的功能。

除與Datalogix, Epsilon,Acxiom和BlueKai合作外,以加強廣告商定向投放廣告的能力。

通過收購Atlas Advertising Suite,加強廣告商判斷數(shù)字媒體廣告投資回報率(ROI)。

LinkedIn:大數(shù)據(jù)如何直接支持銷售和變現(xiàn)賺錢

LinkedIn大數(shù)據(jù)部門的一個重要功用是分析挖掘網(wǎng)站上巨大的用戶和雇主信息,并直接用來支持銷售并變現(xiàn)。其最核心團隊商業(yè)分析團隊的總監(jiān)Simon Zhang說,現(xiàn)在國內(nèi)大家都在討論云,討論云計算,討論大數(shù)據(jù),討論大數(shù)據(jù)平臺,但很少有人講:我如何用數(shù)據(jù)產(chǎn)生更多價值,通俗點講,直接賺到錢。

但這個問題很重要,因為關(guān)系到直接收入。四年半前LinkedIn內(nèi)所有用戶的簡歷里抽取出來大概有300萬公司信息,作為銷售人員不可能給每個公司都打電話,所以問題來了:哪家公司應(yīng)該打?打了后會是個有用的call?

銷售們?nèi)朣imon,他說只有通過數(shù)據(jù)分析。而這個問題的答案在沒有大數(shù)據(jù)部門之前這些決策都是拍腦袋想象的。

Simon和當時部門僅有的另外三個同事寫出了一個模型后發(fā)現(xiàn):真正買LinkedIn服務(wù)的人,在決定的那個環(huán)節(jié)上,其實是一線的產(chǎn)品經(jīng)理,和用LinkedIn在上面獵聘的那些人。但他們做決策后是上面的老板簽字,這是一個迷惑項。數(shù)據(jù)分析結(jié)果出來后,他們銷售人員改變投放策略,把目標群體放在這些中層的管理人身上,銷售轉(zhuǎn)化率瞬間增加了三倍。

那時LinkedIn才500個人,Simon一個人支持200名銷售人員。他當時預(yù)測谷歌要花10個Million美金在獵聘這一塊上,銷售人員說,Simon,這是不可能的事。

“但是數(shù)據(jù)就是這么顯示的,只有可能多不會少。我意識到,一定要流程化這個步驟?!?/span>

今天LinkedIn的“獵頭”這塊業(yè)務(wù)占據(jù)了總收入的60%。是怎么在四年里發(fā)展起來的,他透露當時建造這個模型有以下這么幾個步驟:

分析每個公司它有多少員工。

分析這個公司它招了多少人。

分析人的位置功能職位級別一切參數(shù),這些都是我們模型里面的各種功能。然后去分析,他們內(nèi)部有多少HR員工,有多少負責(zé)獵頭的人,他們獵頭的流失率,他們每天在Linkedin的活動時間是多少。

這是LinkedIn大數(shù)據(jù)部門最早做的事情。

Simon告訴36氪,公司內(nèi)部從大數(shù)據(jù)分析這一個基本項上,可以不斷迭代出新產(chǎn)品線LinkedIn的三大商業(yè)模型是人才解決方案、市場營銷解決方案和付費訂閱,也是我們傳統(tǒng)的三大收入支柱。事實上我們還有一個,也就是第四個商業(yè)模型,叫“銷售解決方案”,已經(jīng)在今年7月底上線。

這是賣給企業(yè)級用戶的?;氐絼偛配N售例子,LinkedIn大數(shù)據(jù)系統(tǒng)是一個牛逼的模型,只需要改動里面一下關(guān)鍵字,或者一個參數(shù),就可以變成另一個產(chǎn)品?!拔覀兿M軒偷狡髽I(yè)級用戶,讓他們在最快的速度里知道誰會想買你的東西?!?/span>

雖然這第四個商業(yè)模式目前看來對收入的貢獻還不多,只占 1%,但anyway有著無限的想象空間,公司內(nèi)部對這個產(chǎn)品期待很高?!拔疫€不能告訴你它的增長率,但這方向代表的是趨勢,Linkedin的B2B是一個不用懷疑的大的趨勢。”Simon說。

Google:一個閉環(huán)的大數(shù)據(jù)生態(tài)圈

作為世界上最大的搜索引擎,Google和大數(shù)據(jù)的關(guān)系又是怎樣的呢?感謝微博上留言的朋友,這可確實是一個很有意思的議題。

Google在大數(shù)據(jù)方面的基礎(chǔ)產(chǎn)品最早是 2003 年發(fā)布的第一個大規(guī)模商用分布式文件系統(tǒng)GFS(Google File System),主要由MapReduce和Big Table這兩部分組成。前者是用于大數(shù)據(jù)并行計算的軟件架構(gòu),后者則被認為是現(xiàn)代NOSQL數(shù)據(jù)庫的鼻祖。

GFS為大數(shù)據(jù)的計算實現(xiàn)提供了可能,現(xiàn)在涌現(xiàn)出的各種文件系統(tǒng)和NOSQL數(shù)據(jù)庫不可否認的都受到Google這些早期項目的影響。

隨后2004和2006年分別發(fā)布的Map Reduce和BigTable,奠定了Google三大大數(shù)據(jù)產(chǎn)品基石。這三個產(chǎn)品的發(fā)布都是創(chuàng)始人謝爾蓋-布林和拉里-佩奇主導(dǎo)的,這兩人都是斯坦福大學(xué)的博士,科研的力量滲透到工業(yè)界,總是一件很美妙的事。

2011年,Google推出了基于Google基礎(chǔ)架構(gòu)為客戶提供大數(shù)據(jù)的查詢服務(wù)和存儲服務(wù)的BigQuery,有點類似于Amazon的AWS,雖然目前從市場占有率上看與AWS還不在一個數(shù)量級,但價格體系更有優(yōu)勢。Google通過這個迎上了互聯(lián)網(wǎng)公司拼服務(wù)的風(fēng)潮,讓多家第三方服務(wù)中集成了BigQuery可視化查詢工具。搶占了大數(shù)據(jù)存儲和分析的市場。

BigQuery和GAE(Google AppEngine)等Google自有業(yè)務(wù)服務(wù)器構(gòu)建了一個大數(shù)據(jù)生態(tài)圈,程序創(chuàng)建,數(shù)據(jù)收集,數(shù)據(jù)處理和數(shù)據(jù)分析等形成了閉環(huán)。

再來看Google的產(chǎn)品線,搜索,廣告,地圖,圖像,音樂,視頻這些,都是要靠大數(shù)據(jù)來支撐,根據(jù)不同種類數(shù)據(jù)建立模型進行優(yōu)化來提升用戶體驗提升市場占有率的。

單獨說一下Google maps,這個全球在移動地圖市場擁有超過40%的市場占有率的產(chǎn)品,也是美國這邊的出行神器。它幾乎標示了全球有互聯(lián)網(wǎng)覆蓋的每個角落,對建筑物的3D視覺處理也早在去年就完成,這個數(shù)據(jù)處理的工作量可能是目前最大的了,但這也僅限于數(shù)據(jù)集中的層面。真正的數(shù)據(jù)分析和挖掘體現(xiàn)在:輸入一個地點時,最近被最多用戶采用的路徑會被最先推薦給用戶。

Google還把Google+,Panoramio和其他Google云平臺的圖片進行了標記和處理,將圖片內(nèi)容和地理位置信息地結(jié)合在一起,圖像識別和社交系統(tǒng)評分處理后,Google能夠把質(zhì)量比較高的的圖片推送給用戶,優(yōu)化了用戶看地圖時的視覺感受。

大數(shù)據(jù)為Google帶來了豐厚的利潤,比如在美國你一旦上網(wǎng)就能感覺到時無處不在的Google廣告(AdSense)。當然,它是一把雙刃劍,給站長們帶來收入的同時,但如何平衡用戶隱私的問題,是大數(shù)據(jù)處理需要克服的又一個技術(shù)難關(guān),或許還需要互聯(lián)網(wǎng)秩序的進一步完善去支持。

像在【上篇】中所說,除Facebook等幾個很領(lǐng)先的公司外,大部分公司要么還沒有自行處理數(shù)據(jù)的能力。最后附上兩個例子,想說這邊的大公司沒有獨立大數(shù)據(jù)部門也是正常的,采取外包合作是普遍現(xiàn)象:

Pinterest:

Pinterest曾嘗試自行通過Amazon EMR建立數(shù)據(jù)處理平臺,但是因為其穩(wěn)定性無法控制和數(shù)據(jù)量增長過快的原因,最終決定改為使用Qubole提供的服務(wù)。在Qubole這個第三方平臺上,Pinterest有能力處理其0.7億用戶每天所產(chǎn)生的海量數(shù)據(jù),并且能夠完成包括ETL、搜索、ad hoc query 等不同種類的數(shù)據(jù)處理方式。盡管Pinterest也是一個技術(shù)性公司,也有足夠優(yōu)秀的工程師來建立數(shù)據(jù)處理團隊,他們依然選擇了Qubole這樣的專業(yè)團隊來完成數(shù)據(jù)處理服務(wù)。

Nike:

不僅僅硅谷的互聯(lián)網(wǎng)公司,眾多傳統(tǒng)企業(yè)也逐漸開始使用大數(shù)據(jù)相關(guān)技術(shù)。一個典型的例子就是Nike。Nike從2012年起與API服務(wù)公司Apigee合作,一方面,他們通過Apigee的API完善公司內(nèi)部的數(shù)據(jù)管理系統(tǒng),讓各個部門的數(shù)據(jù)進行整合,使得公司內(nèi)部運行更加順暢、有效率。另一方面,他們也通過API開發(fā)Nike Fuel Band相關(guān)的移動產(chǎn)品。更是在2014年開啟了Nike+FuelLab項目,開放了相關(guān)API,使得眾多的開放者可以利用Nike所收集的大量數(shù)據(jù)開發(fā)數(shù)據(jù)分析產(chǎn)品,成功地連接了Nike傳統(tǒng)的零售業(yè)務(wù),新的科技開發(fā),和大數(shù)據(jù)價值。

轉(zhuǎn)自:大數(shù)據(jù)中國

CDA數(shù)據(jù)分析師培訓(xùn)官網(wǎng)

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }