
數(shù)據(jù)機(jī)器人幫你創(chuàng)造大數(shù)據(jù)商業(yè)價(jià)值
在大數(shù)據(jù)概念似乎與每個(gè)公司乃至每個(gè)人都緊密相關(guān)的今日,如果有人問大數(shù)據(jù)到底是什么?怎樣才能讓大數(shù)據(jù)為我創(chuàng)造實(shí)實(shí)在在的價(jià)值?大部分時(shí)候,你所得到的答案或者艱澀難懂,或者虛無縹緲,比如說3V(Volume(容量)、Velocity(速度)和Variety(多樣性)),甚至是5V (再加上Veracity(真實(shí)性)和Value(價(jià)值)),又或者“結(jié)構(gòu)化數(shù)據(jù)”和“半結(jié)構(gòu)化數(shù)據(jù)”。上到天體太空,下到海底勘探,大到教育文化,小到細(xì)胞DNA,總有一款可以迷惑你。
或許真相是,想在在大數(shù)據(jù)時(shí)代乘風(fēng)破浪勇奪先機(jī),你根本不需要知道這些。中國有句老話,術(shù)業(yè)有專攻。從大數(shù)據(jù)到商業(yè)價(jià)值,你需要的只是根據(jù)業(yè)務(wù)經(jīng)驗(yàn)提出需求和目標(biāo),其他的一切都可以交給數(shù)據(jù)機(jī)器人來搞定。
聽起來像是一個(gè)神話?其實(shí)這一切已經(jīng)在發(fā)生。
“讓天下沒有難用的數(shù)據(jù),讓人人都可以成為數(shù)據(jù)科學(xué)家。”是桃樹科技創(chuàng)始人最初的理想。桃樹科技起源于2015年,其創(chuàng)始人楊滔和汪秦宇均為海歸博士,在美中兩國頂級(jí)互聯(lián)網(wǎng)及金融公司具有資深的大數(shù)據(jù)技術(shù)和管理經(jīng)驗(yàn),因?yàn)榭礈?zhǔn)了大數(shù)據(jù)領(lǐng)域全自動(dòng)建模預(yù)測(cè)這一趨勢(shì),毅然放棄穩(wěn)定高薪的大公司職位,轉(zhuǎn)而投身創(chuàng)業(yè)這一荊棘艱險(xiǎn)之旅。
如前文提到,大數(shù)據(jù)似乎可以在各個(gè)領(lǐng)域落地,但是能真正產(chǎn)生爆發(fā)效應(yīng)的領(lǐng)域卻并不多。根據(jù)多年的大數(shù)據(jù)應(yīng)用經(jīng)驗(yàn),桃樹選擇了金融和電商大數(shù)據(jù)應(yīng)用為公司起步的切入點(diǎn)。在金融領(lǐng)域,數(shù)據(jù)應(yīng)用的需求屬于剛需。尤其銀行對(duì)貸款客戶信用的評(píng)估關(guān)系到銀行壞賬率的比例。在電商領(lǐng)域,大數(shù)據(jù)應(yīng)用可以產(chǎn)生規(guī)?;?yīng),形成數(shù)據(jù)積累的閉環(huán),最終帶動(dòng)流量的獲取。
信用風(fēng)險(xiǎn)評(píng)估機(jī)器人:CAN
“極客看什么不順眼,就自己動(dòng)手做一個(gè)?!币詳?shù)據(jù)極客自詡的楊滔這樣說,“大數(shù)據(jù)應(yīng)用的廣泛訴求,就是輸入數(shù)據(jù),輸出結(jié)果。”于是他創(chuàng)造了第一個(gè)數(shù)據(jù)機(jī)器人CAN。CAN是一個(gè)專門應(yīng)用于金融行業(yè)的風(fēng)險(xiǎn)評(píng)估機(jī)器人。在以民生銀行為代表的多家知名銀行和互聯(lián)網(wǎng)金融機(jī)構(gòu)中,都已經(jīng)存在CAN的身影。當(dāng)你給這臺(tái)機(jī)器輸入散落在各個(gè)角落的原始數(shù)據(jù),它便如同一匹永不疲憊的戰(zhàn)馬夜以繼日地飛奔,輸出銀行/p2p中申請(qǐng)貸款客戶的信用打分及每個(gè)客戶的風(fēng)險(xiǎn)點(diǎn)。這臺(tái)機(jī)器,可以提早發(fā)現(xiàn)這些金融機(jī)構(gòu)貸款業(yè)務(wù)中90%以上的貸款壞賬,并且可以提早預(yù)測(cè)客戶是否逾期歸還貸款,預(yù)測(cè)準(zhǔn)確率均在80%以上。傳統(tǒng)的銀行風(fēng)險(xiǎn)建模一般一個(gè)數(shù)據(jù)團(tuán)隊(duì)工作3到6個(gè)月,而CAN只需要3天。
無論是數(shù)據(jù)的清洗整理,還是算法的復(fù)雜處理,都是CAN的內(nèi)在機(jī)制。對(duì)于銀行客戶經(jīng)理,CAN提供的數(shù)據(jù)結(jié)果無比簡單——客戶經(jīng)理負(fù)責(zé)客戶的信用風(fēng)險(xiǎn)打分及對(duì)應(yīng)的風(fēng)險(xiǎn)因子。CAN建立了這個(gè)數(shù)據(jù)提煉機(jī)制之后,自然把外部大量數(shù)據(jù)與內(nèi)部數(shù)據(jù)動(dòng)態(tài)整合,整合后的風(fēng)險(xiǎn)數(shù)據(jù)不僅包括客戶的基本信息、金融行為、動(dòng)態(tài)還款行為,并且還包括客戶以及他的網(wǎng)絡(luò)關(guān)系對(duì)應(yīng)的央行征信數(shù)據(jù)、法院工商數(shù)據(jù)、房產(chǎn)資產(chǎn)數(shù)據(jù)以及在P2P平臺(tái)上的貸款及表現(xiàn)數(shù)據(jù)等。從臟亂復(fù)雜的大數(shù)據(jù)到包含豐富預(yù)測(cè)信息的大數(shù)據(jù),正是CAN的輸入和輸出。
當(dāng)客戶經(jīng)理負(fù)責(zé)客戶出現(xiàn)風(fēng)險(xiǎn),他將第一時(shí)間獲得風(fēng)險(xiǎn)預(yù)警,并可以根據(jù)CAN輸出的風(fēng)險(xiǎn)因子去追蹤事實(shí)真相。對(duì)于銀行客戶經(jīng)理,大數(shù)據(jù)經(jīng)過CAN的處理,成為在他們?nèi)粘I(yè)務(wù)流程中的“決策抓手”。大數(shù)據(jù)遠(yuǎn)在天邊,也近在眼前。
商品銷量預(yù)測(cè)機(jī)器人:BOB
在CAN被多家銀行客戶高度認(rèn)可之后,楊滔又帶領(lǐng)他的團(tuán)隊(duì)開發(fā)了桃樹機(jī)器人工廠的第二個(gè)機(jī)器人BOB。BOB是一款選品機(jī)器人,它可以基于商品的行業(yè)、類目、關(guān)鍵字、款式、價(jià)格、產(chǎn)地和營銷渠道數(shù)據(jù),預(yù)測(cè)商品在一定流量中,不同的場(chǎng)景、時(shí)間下,可獲得的成交額(或轉(zhuǎn)化率)。
電商運(yùn)營的第一個(gè)環(huán)節(jié)就是選品。選品包括商品采購、營銷活動(dòng)爆款篩洗、商品排序規(guī)則等。B2C選品好壞直接關(guān)系庫存積壓,電商平臺(tái)選品好壞直接關(guān)系流量分配機(jī)制,淘寶賣家如果無法打造爆款根本獲得不到流量,導(dǎo)購網(wǎng)站其實(shí)也就是一個(gè)選品系統(tǒng)。傳統(tǒng)電商選品主要依賴行業(yè)經(jīng)驗(yàn),運(yùn)營人員通過對(duì)不同行業(yè)的經(jīng)驗(yàn)來判斷什么商品會(huì)賣得好。這種運(yùn)營方式的局限在于難以規(guī)?;⑶疫€有腐敗可能性。并且,在互聯(lián)網(wǎng)上,所有商品信息都不是孤立的,消費(fèi)者往往會(huì)比價(jià),從多個(gè)電商平臺(tái)找到性價(jià)比最優(yōu)的商品。因此,綜合電商自身與外部數(shù)據(jù)的選品,才有可能滿足消費(fèi)者需求。
選品機(jī)器人BOB的誕生,直擊電商行業(yè)發(fā)展的基礎(chǔ)痛點(diǎn):1. 商家面對(duì)十幾億海量商品,不知如何選則適合自己平臺(tái)的客群的商品; 2. 除了淘寶京東這樣的大型平臺(tái),一般的中小電商迷失在海量數(shù)據(jù)中,缺乏利用數(shù)據(jù)幫助運(yùn)營的知識(shí)。這些中小電商,在互聯(lián)網(wǎng)時(shí)代依舊依賴傳統(tǒng)的人工經(jīng)驗(yàn)判斷來進(jìn)行決策,效率低下;3. 電商數(shù)據(jù)應(yīng)用的技術(shù)門檻極高,商家面臨大量非結(jié)構(gòu)化文本數(shù)據(jù),圖像數(shù)據(jù),中小賣家卻往往沒有能力建立數(shù)據(jù)科學(xué)團(tuán)隊(duì),無法充分利用大數(shù)據(jù)幫助決策。
這一切問題,BOB都可以全自動(dòng)化的解決。BOB起源于利用機(jī)器學(xué)習(xí)技術(shù)建立大規(guī)模商品銷量預(yù)測(cè)模型。此模型成功幫助電商巨頭淘寶旗下的聚劃算平臺(tái)實(shí)現(xiàn)數(shù)據(jù)化運(yùn)營,挖掘爆款,提升運(yùn)營效率80%,提升銷售額235%。桃樹科技成立的短短數(shù)月間,已經(jīng)與多家電商網(wǎng)站展開洽談,并與新興電商網(wǎng)站街蜜以及風(fēng)趣海淘簽署了服務(wù)協(xié)議。
桃樹的夢(mèng)想,是讓天下沒有難用的數(shù)據(jù),讓人人都可以成為數(shù)據(jù)科學(xué)家。
在執(zhí)著追尋這個(gè)夢(mèng)想的路上,楊滔帶領(lǐng)著他的團(tuán)隊(duì)不斷壯大著他們的機(jī)器人工廠,這些機(jī)器人個(gè)個(gè)武藝高超,兼?zhèn)鋸臄?shù)據(jù)源自動(dòng)清洗數(shù)據(jù),抽取特征,并自動(dòng)學(xué)習(xí)、預(yù)測(cè)、解釋及強(qiáng)化自我的能力。它們內(nèi)置了世界頂級(jí)數(shù)據(jù)科學(xué)家的智慧精華,擁有讓數(shù)據(jù)價(jià)值最大化的計(jì)算程序,可以模擬數(shù)據(jù)科學(xué)家工作流,肩負(fù)著將各行各業(yè)的大數(shù)據(jù)高效率轉(zhuǎn)化為商業(yè)價(jià)值的使命。
阿姆斯特朗踏上月球時(shí)曾經(jīng)說過:“這是一個(gè)人的一小步,卻是人類的一大步。”如今,人類憑著對(duì)知識(shí)無窮盡的渴望與狂熱,已經(jīng)邁出了一步又一步。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11