引入機(jī)器學(xué)習(xí)技術(shù)最好是效果導(dǎo)向
第四范式聯(lián)合創(chuàng)始人、首席架構(gòu)師。曾任職于百度,作為系統(tǒng)架構(gòu)負(fù)責(zé)人,主持了百度商業(yè)客戶運(yùn)營、鳳巢新興變現(xiàn)、商業(yè)“知心”搜索、阿拉丁生態(tài)等多個(gè)核心系統(tǒng)的架構(gòu)設(shè)計(jì)工作。作為鏈家網(wǎng)創(chuàng)始團(tuán)隊(duì),從0開始完成了鏈家網(wǎng)新主站、經(jīng)紀(jì)人新作業(yè)系統(tǒng)、績效變革系統(tǒng)的整體架構(gòu)設(shè)計(jì)以及研發(fā)團(tuán)隊(duì)的建設(shè)管理,參與規(guī)劃及推動(dòng)了鏈家系統(tǒng)和研發(fā)體系的互聯(lián)網(wǎng)化轉(zhuǎn)型。
現(xiàn)任第四范式研發(fā)總工程師,帶領(lǐng)產(chǎn)品研發(fā)團(tuán)隊(duì)打造出國內(nèi)首款人工智能全流程平臺(tái)“第四范式·先知”,“先知”平臺(tái)2016年榮獲中國智能科技最高獎(jiǎng)——“吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)”創(chuàng)新獎(jiǎng)一等獎(jiǎng)。
在采訪中,給記者留下深刻印象的是胡時(shí)偉反復(fù)強(qiáng)調(diào)了人工智能落地要以用戶業(yè)務(wù)價(jià)值提升為目的,而不是為了炫技,在引入相關(guān)技術(shù)時(shí)要注重性價(jià)比,堅(jiān)持效果導(dǎo)向。他認(rèn)為第四范式的目的就是要降低人工智能技術(shù)的入手門檻,讓更多企業(yè)可以從創(chuàng)新中收益。
CSDN:作為第四范式聯(lián)合創(chuàng)始人,你們創(chuàng)建這家公司的初衷是什么?
胡時(shí)偉:文淵(第四范式創(chuàng)始人、首席執(zhí)行官)很早就開始從事AI行業(yè),致力于以技術(shù)創(chuàng)新來為行業(yè)創(chuàng)造價(jià)值。在百度的時(shí)候,公司有海量的數(shù)據(jù)積累,文淵帶領(lǐng)團(tuán)隊(duì)所搭建的基于人工智能技術(shù)的百度鳳巢系統(tǒng)使其廣告變現(xiàn)能力提升了8倍。從百度離開后,他又到了華為,驗(yàn)證了人工智能技術(shù)在金融、電信等領(lǐng)域所能創(chuàng)造的價(jià)值。文淵在百度和華為用近十年的經(jīng)歷證明了“AI”是可以“for
someone”的,但他也堅(jiān)信“AI”終將“for everyone”,于是就有了創(chuàng)建第四范式團(tuán)隊(duì)專注做人工智能的想法。
從另一個(gè)層面,隨著大數(shù)據(jù)技術(shù)和計(jì)算能力的發(fā)展,人工智能技術(shù)已經(jīng)到了工業(yè)化的階段。我們見證了百度、今日頭條等公司通過人工智能技術(shù)所帶來的巨大經(jīng)濟(jì)利益。但目前這項(xiàng)技術(shù)的產(chǎn)品化往往還需要一個(gè)技術(shù)能力很高的團(tuán)隊(duì)來做,第四范式所做的事情就是把門檻降低,技術(shù)產(chǎn)品化、平臺(tái)化,讓更多公司可以用上人工智能技術(shù),享受業(yè)務(wù)價(jià)值的提升。
對于我來說,也希望把自己在系統(tǒng)架構(gòu)和產(chǎn)品化方面的能力通過AI技術(shù)影響更多的企業(yè)。文淵、雨強(qiáng)(第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家)和我都有著同樣的愿景,于是創(chuàng)立公司的事比較自然。
胡時(shí)偉:先拋開技術(shù)的比較。我們最大的特點(diǎn)就是特別在意
客戶價(jià)值,尤其是能否利用我們的技術(shù)能力為客戶帶來實(shí)際的業(yè)務(wù)價(jià)值提升,甚至在這件事上第四范式還吃過虧。有時(shí)候,客戶需要一個(gè)人工智能系統(tǒng),但對部署這個(gè)系統(tǒng)能帶來多大價(jià)值難以描述,但是我們就絞盡腦汁的去想,這件事情為客戶帶來價(jià)值究竟存不存在,條件滿不滿足?如果帶不來價(jià)值,我們就不太敢去做,所以也因此丟掉了一些(單子)商業(yè)利益。
但后來,我們慢慢想明白了,只要這件事的長遠(yuǎn)價(jià)值是正確的,我們就會(huì)去做。我們致力于
客戶價(jià)值本身也有一個(gè)好處,能夠得到客戶的信任和商業(yè)方面順利推進(jìn)。我們一直有個(gè)理念,如果提供的技術(shù)無法為客戶核心業(yè)務(wù)價(jià)值帶來提升,(人工智能)只做為一個(gè)形式,或者一個(gè)華而不實(shí)的東西,這就不是一個(gè)企業(yè)服務(wù)公司適合直接切入的。
CSDN:從技術(shù)層面看,你覺得第四范式更像大數(shù)據(jù)還是人工智能公司?
胡時(shí)偉:人工智能是面向目標(biāo),而大數(shù)據(jù)是基礎(chǔ)技術(shù)架構(gòu)。人工智能是解決問題,比如營銷、風(fēng)控、或者下圍棋,只要這個(gè)問題不是由人來解決,由機(jī)器來直接替代人去解決或者相當(dāng)大程度的輔助人解決,它就是一種智能,而大數(shù)據(jù)是實(shí)現(xiàn)人工智能的基礎(chǔ)和手段。
大數(shù)據(jù)分為兩部分,一部分是海量數(shù)據(jù)本身,
機(jī)器學(xué)習(xí)從數(shù)據(jù)中學(xué)習(xí),因此需要海量的數(shù)據(jù)作為輸入;另一部分是指大數(shù)據(jù)平臺(tái),也就是分布式的數(shù)據(jù)處理架構(gòu)。第四范式是人工智能公司的原因是我們最核心的技術(shù)是
機(jī)器學(xué)習(xí)。在大數(shù)據(jù)平臺(tái)上運(yùn)行
機(jī)器學(xué)習(xí)程序,從而把這個(gè)大數(shù)據(jù)變成一個(gè)具備決策能力的應(yīng)用,或者API(將能力開放出來)。
一個(gè)成功的人工智能應(yīng)用要把數(shù)據(jù)、
機(jī)器學(xué)習(xí)、分布式等組合起來,才是一款完整的產(chǎn)品。我是比較實(shí)用主義的一個(gè)人,沒那么在意所做的是屬于人工智能或者大數(shù)據(jù)領(lǐng)域,如果能解決客戶問題,各種技術(shù)都需要去理解和采用,這是目標(biāo)導(dǎo)向的一個(gè)選擇。
CSDN:第四范式成立后,你們所做的第一款人工智能產(chǎn)品是什么?
胡時(shí)偉:我們真正向客戶交付的第一款產(chǎn)品是為某銀行信用卡業(yè)務(wù)提供的交易分期智能營銷系統(tǒng)。信用卡的主要盈利模式是客戶分期還款的利息。對于信用卡公司來說,是希望客戶能夠辦理分期還款的,但它不知道哪些人希望辦分期,有的消費(fèi)者也不知道可以辦分期,所以需要用短信提醒,哪些人要提醒?哪些人不需要提醒?這是一個(gè)要決策的問題。
傳統(tǒng)的解決辦法是用專家規(guī)則,依靠人工去決策,把客戶分群處理。而通過第四范式搭建的系統(tǒng),只要通過源源不斷的往系統(tǒng)里輸入營銷記錄(購買和以往分期記錄)數(shù)據(jù),系統(tǒng)就可自動(dòng)生成一個(gè)可以代替人去判斷的決策,告訴系統(tǒng)是否需要給此人發(fā)提醒短信。這個(gè)系統(tǒng)一上線,就為客戶(信用卡公司)帶來了業(yè)務(wù)收益。
CSDN:能不能談?wù)勏戎脚_(tái)的初衷和設(shè)計(jì)過程?
胡時(shí)偉:先談?wù)勏戎脚_(tái)設(shè)計(jì)的初衷。一方面,人工智能領(lǐng)域的技術(shù)專家還是比較貴的,企業(yè)服務(wù)的事情如果都讓人工智能的專家去做的話,成本會(huì)很高,最關(guān)鍵的是真正的人才是稀缺的,不是有錢就可以找到的,因此可復(fù)制性很差。第二,做(先知)平臺(tái)的話可以避免客戶擔(dān)心被某固定服務(wù)商綁架的問題,使客戶也擁有對模型和應(yīng)用的控制能力;第三,我們公司的主要團(tuán)隊(duì)都來源于互聯(lián)網(wǎng)公司,天生就希望產(chǎn)出效率更高的產(chǎn)品,希望能以更先進(jìn)的方式解決問題。
所以在很早期的時(shí)候,我們就希望做一個(gè)平臺(tái)類的產(chǎn)品,能將第四范式頂尖專家的能力賦予到幾種人。第一種是客戶自己的員工,他們對業(yè)務(wù)了解,又擁有數(shù)據(jù),期望把數(shù)據(jù)轉(zhuǎn)換成智能決策引擎,先知平臺(tái)可以讓某些具備一定水平的客戶依靠自身力量就能做到這一點(diǎn);第二種是第四范式做項(xiàng)目交付的同事,先知平臺(tái)可以降低構(gòu)建企業(yè)AI應(yīng)用的上手門檻,讓更多的人具備數(shù)據(jù)科學(xué)家的能力,提升利用這個(gè)平臺(tái)交付實(shí)施的效率,最終提升服務(wù)規(guī)模和服務(wù)水平,為更多更廣泛的客戶創(chuàng)造價(jià)值。
此外,對于企業(yè)來說,還是希望有更多合作伙伴一起來做落地的工作,人工智能涉及的內(nèi)容和行業(yè)都很廣泛,第四范式不可能自己去做所有的行業(yè),所以更希望把核心技術(shù)能力包裝成產(chǎn)品,讓合作伙伴們用先知平臺(tái)(去落地),達(dá)成自身、合作伙伴、客戶共贏的目的。
CSDN:能否介紹下先知平臺(tái)在架構(gòu)設(shè)計(jì)上的特點(diǎn)?
胡時(shí)偉:從產(chǎn)品上,目前版本的先知平臺(tái)分為三大子平臺(tái),調(diào)研平臺(tái)、自學(xué)習(xí)平臺(tái)和預(yù)估平臺(tái)。調(diào)研平臺(tái)供業(yè)務(wù)人員或者數(shù)據(jù)科學(xué)家通過簡單拖拽的方式尋求最合適的從原始數(shù)據(jù)產(chǎn)生模型的路徑,覆蓋了數(shù)據(jù)引入、清洗、拼接、
特征工程、模型訓(xùn)練、
特征解釋、模型評估等完整環(huán)節(jié),調(diào)研平臺(tái)的產(chǎn)出是一個(gè)
機(jī)器學(xué)習(xí)的Pipeline。自學(xué)習(xí)平臺(tái)是生產(chǎn)系統(tǒng)里的離線部分,負(fù)責(zé)將源源不斷產(chǎn)生的新數(shù)據(jù)輸入到
機(jī)器學(xué)習(xí)的Pipeline里,從而使模型具備自我進(jìn)化能力。預(yù)估平臺(tái)則負(fù)責(zé)將不同算法訓(xùn)練出來的模型方便的轉(zhuǎn)化為可伸縮的在線服務(wù)(API),對接下游系統(tǒng)。
在這個(gè)框架上,第四范式擁有多種專利算法,其中包括高維的LR/GBDT等經(jīng)典算法的高維高性能實(shí)現(xiàn),也包括HE-Treenet/Linear
Fractal等低門檻算法。另外還有一些
機(jī)器學(xué)習(xí)輔助工具比如自動(dòng)
特征組合、自動(dòng)調(diào)參等也是基于GDBT框架的。GDBT的運(yùn)算架構(gòu)專門為
機(jī)器學(xué)習(xí)設(shè)計(jì)和優(yōu)化,對比基于Spark算法的加速比有指數(shù)級提升,在海量數(shù)據(jù)情況下達(dá)到數(shù)百倍到數(shù)萬倍。
比起基于Parameter
Server等
機(jī)器學(xué)習(xí)專有架構(gòu)的其他開源算法相比,由于獨(dú)到的工程和算法優(yōu)化技術(shù),也有數(shù)倍到數(shù)十倍提升。高性能
特征工程框架和在線預(yù)估引擎也是先知系統(tǒng)的重要組成部分,其主要特點(diǎn)也是集成了豐富的處理方法,包括數(shù)據(jù)在時(shí)間維度和地理空間維度的多種
特征生成算法,并且具備非常高的性能。高性能的架構(gòu)對于計(jì)算非常密集,耗費(fèi)資源極大的
機(jī)器學(xué)習(xí)過程來說是非常重要的。
另外,門檻的降低和廣泛的通用性離不開優(yōu)秀的產(chǎn)品設(shè)計(jì),先知提供了基于Web的UI交互以及基于Python的SDK接口,配合能夠適配不同
Hadoop發(fā)行版以及操作系統(tǒng)的分布式調(diào)度層,使得底層的優(yōu)秀算法與架構(gòu)能夠滿足企業(yè)級運(yùn)維、管理等需求的同時(shí),大大降低了基于先知二次開發(fā)業(yè)務(wù)應(yīng)用的門檻。
整個(gè)系統(tǒng)所有計(jì)算部分(在線、離線)均基于節(jié)點(diǎn)數(shù)和性能可線性擴(kuò)展的分布式架構(gòu),而平臺(tái)應(yīng)用本身則基于互聯(lián)網(wǎng)常用的技術(shù)實(shí)現(xiàn)了可伸縮的高可用架構(gòu)。我們在云上提供的多租戶服務(wù)則采用了容器化的架構(gòu),確保多個(gè)租戶之間的充分隔離。
最后,先知平臺(tái)整體上是一個(gè)插件機(jī)制,特別是對底層的運(yùn)算單元做了充分的抽象和二次開發(fā)接口。這種架構(gòu)使得先知平臺(tái)也易于集成Tensorflow等開源算法,使企業(yè)客戶擁有更多的對比和選擇。
CSDN:目前第四范式的用戶主要分布在金融、電商、媒體等領(lǐng)域較多,你認(rèn)為現(xiàn)階段什么樣的場景下使用
機(jī)器學(xué)習(xí)技術(shù)的潛力最大?
胡時(shí)偉:
機(jī)器學(xué)習(xí)應(yīng)用場景可以先套用楊強(qiáng)教授(第四范式聯(lián)合創(chuàng)始人、首席科學(xué)家)的人工智能成功的五個(gè)必要條件:清晰的商業(yè)模式、高質(zhì)量的大數(shù)據(jù)(持續(xù)反饋)、清晰的問題定義和領(lǐng)域邊界、懂人工智能的跨界人才(擅長應(yīng)用和算法)、計(jì)算能力。
具體而言,
機(jī)器學(xué)習(xí)應(yīng)用比較好的是有海量數(shù)據(jù)、(人工)服務(wù)不足,且能帶來實(shí)際商業(yè)價(jià)值或社會(huì)價(jià)值的應(yīng)用場景。因?yàn)闄C(jī)器本身解決的就是人力不足的問題,代替人去做決策。例如前面提到的信用卡分期營銷以及我們最近在做的反欺詐案例,行業(yè)內(nèi)沒有那么多人工對每個(gè)客戶每筆交易進(jìn)行篩查;直播、廣告領(lǐng)域也是非常適合用
機(jī)器學(xué)習(xí)的領(lǐng)域,因?yàn)樵L問和請求的數(shù)量是巨大的而每一個(gè)決策的單個(gè)價(jià)值又是相對微小的;此外,零售、醫(yī)療、游戲等行業(yè),第四范式也有涉足。
胡時(shí)偉:最重要的是思路的轉(zhuǎn)變。機(jī)器去解決事情的思路和以往依靠人工完全不同。機(jī)器考慮問題是怎么復(fù)雜怎么來,怎么累怎么來。而人更擅長于抓大放小、考慮問題是怎么簡單怎么來。從這個(gè)思路來講,人解決問題是通過劃分客群,因?yàn)槿瞬豢赡軐γ總€(gè)客戶一個(gè)一個(gè)去看。但是對于機(jī)器來說是千人千面。這是經(jīng)營思路的變化,而不僅僅是個(gè)技術(shù)問題。
其次,在引入
機(jī)器學(xué)習(xí)技術(shù)的時(shí)候最好是效果導(dǎo)向。經(jīng)常會(huì)有客戶問,市面上有那么多開源產(chǎn)品,一些算法也已經(jīng)被巨頭企業(yè)開源了,為何還要用商業(yè)產(chǎn)品?這件事判斷起來很簡單,開源并不等于免費(fèi),相反有時(shí)候是更貴的。人才、機(jī)器、試錯(cuò)成本、時(shí)間成本、最終的效果都是要考量的因素,對企業(yè)經(jīng)營者來說,要重視投入產(chǎn)出比以及搶時(shí)間,而要做出效果是一個(gè)系統(tǒng)工程。引入
機(jī)器學(xué)習(xí),需要明白哪些是企業(yè)要做的,哪些可以借助外部力量來做。
此外,要重視技術(shù)的適用性和性價(jià)比。目前來看,
深度學(xué)習(xí)在某些領(lǐng)域已經(jīng)有了較成熟的解決方案,例如圖像
特征提取、語音識(shí)別、文本翻譯等,這些領(lǐng)域
深度學(xué)習(xí)做的很好。但企業(yè)級應(yīng)用涉及各個(gè)范圍,以上只是企業(yè)經(jīng)營過程中的一小部分。在其他領(lǐng)域如營銷、反欺詐、廣告等行業(yè)應(yīng)用,就需要一些其他的算法和技術(shù),比如說超高維的
特征工程和算法,因此企業(yè)選用技術(shù)還要考慮成本和適用性的問題。
胡時(shí)偉:首先一定要從業(yè)務(wù)和價(jià)值本身出發(fā),而不是說覺得技術(shù)比較炫酷、比較火,或者簡單說現(xiàn)在工資高了就去做。這和前兩年的iOS和安卓開發(fā)一樣,經(jīng)過時(shí)間的洗禮和供需平衡的過程,現(xiàn)在優(yōu)秀的移動(dòng)開發(fā)大牛還是千金難求,但是大量平庸的開發(fā)人員會(huì)很快回歸到價(jià)值本身甚至難于尋找到機(jī)會(huì)。
另外,機(jī)器學(xué)習(xí)和人工智能行業(yè)其實(shí)非常廣闊,不只是算法研究,也可以做AI相關(guān)產(chǎn)品、工程架構(gòu)、解決方案、甚至是培訓(xùn)、市場類的工作。這里面對大多數(shù)有興趣的朋友來說,切忌扎堆,以為從事機(jī)器學(xué)習(xí)就只做算法。90年代末期互聯(lián)網(wǎng)只有兩個(gè)崗位,一個(gè)是做網(wǎng)站,一個(gè)是做網(wǎng)管。AI技術(shù)給社會(huì)帶來的變化將會(huì)是深遠(yuǎn)的,機(jī)會(huì)也是廣闊的,還是跟著自己擅長的方向和興趣走,會(huì)更容易獲得成績,也會(huì)更開心更有成就感一點(diǎn)
CDA數(shù)據(jù)分析師考試相關(guān)入口一覽(建議收藏):
? 想報(bào)名CDA認(rèn)證考試,點(diǎn)擊>>>
“CDA報(bào)名”
了解CDA考試詳情;
? 想學(xué)習(xí)CDA考試教材,點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情;
? 想加入CDA考試題庫,點(diǎn)擊>>> “CDA題庫” 了解CDA考試詳情;
? 想了解CDA考試含金量,點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情;