
汽車大數(shù)據(jù)應(yīng)用的6個(gè)前提
最近博鰲的論壇上,各路大神在神侃人工智能是否會(huì)消滅人類的倫理問題,最討厭一幫文科二貨在臺(tái)上扯淡人類技術(shù)末日,因?yàn)闊o論這個(gè)倫理問題多么嚴(yán)重,最終解決問題還得靠理工男女的技術(shù)頭腦。制造AI的恐慌是沒有意義的,了解AI是什么比想象它的恐怖有趣得多。
在當(dāng)前這幫文科二貨們的蠱惑下,大數(shù)據(jù)和人工智能越來越熱,汽車這個(gè)垂直應(yīng)用領(lǐng)域更是熱得一塌糊涂。從大數(shù)據(jù)技術(shù)的基本應(yīng)用場(chǎng)景看,汽車和車險(xiǎn)的銷售廣告顯然是典型的應(yīng)用場(chǎng)景,近年來,汽車金融的應(yīng)用場(chǎng)景也漸漸豐富起來,至于自動(dòng)駕駛,那已經(jīng)是資本寵兒。我認(rèn)為汽車大數(shù)據(jù)最可能率先發(fā)揮價(jià)值的一是汽車和車險(xiǎn)廣告,二是金融和車險(xiǎn)的風(fēng)險(xiǎn)控制,三是自動(dòng)駕駛,其他領(lǐng)域的應(yīng)用即使有,也商業(yè)價(jià)值有限。
但目前來看,絕大多數(shù)自稱汽車大數(shù)據(jù)的公司本質(zhì)上都是賣數(shù)據(jù)的公司,我們耳熟能詳?shù)哪切┐髷?shù)據(jù)公司,干的基本上就是倒賣官方還沒有合法公開的個(gè)人數(shù)據(jù),未經(jīng)用戶同意倒賣用戶隱私數(shù)據(jù)的勾當(dāng)。倒賣數(shù)據(jù)是當(dāng)前到處吹牛的汽車大數(shù)據(jù)公司典型業(yè)務(wù)。真正運(yùn)用算法和模型解決行業(yè)問題的公司都還在埋頭苦干,都在積累應(yīng)用案例,短期恐怕難以盈利。對(duì)投資人和創(chuàng)業(yè)者而言,我認(rèn)為看清楚汽車大數(shù)據(jù)的應(yīng)用方向非常重要。
要應(yīng)用汽車大數(shù)據(jù),首先得解決數(shù)據(jù)處理的問題。從汽車數(shù)據(jù)處理技術(shù)的角度看,大約有6個(gè)層次。我認(rèn)為這是實(shí)現(xiàn)汽車大數(shù)據(jù)應(yīng)用的6個(gè)前提。
一是數(shù)據(jù)接口化,這個(gè)層次的問題不解決,大數(shù)據(jù)技術(shù)根本就沒有用武之地。搞不定接口,只是拿個(gè)移動(dòng)硬盤拷死數(shù)據(jù)的,就別湊大數(shù)據(jù)的熱鬧了。比如汽車違章數(shù)據(jù)對(duì)于用戶個(gè)人征信有價(jià)值,弄個(gè)爬蟲去偷數(shù)據(jù)的就別琢磨大數(shù)據(jù)應(yīng)用了,數(shù)據(jù)源都不穩(wěn)定,相當(dāng)于工廠的原材料都不穩(wěn)定,你還怎么搞生產(chǎn),怎么考慮產(chǎn)品質(zhì)量呢?
二是結(jié)構(gòu)化,數(shù)據(jù)采集的接口問題解決了,需要解決數(shù)據(jù)存儲(chǔ)問題。傳統(tǒng)的數(shù)據(jù)庫采用SQL存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),但如果要用大數(shù)據(jù)技術(shù),圖片、甚至視頻等非結(jié)構(gòu)化數(shù)據(jù)也需要存儲(chǔ),雖然有NoSQL產(chǎn)品解決這類數(shù)據(jù)寸純問題,但最終應(yīng)用仍然需要把非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化。
三是標(biāo)準(zhǔn)化,結(jié)構(gòu)化存儲(chǔ)的數(shù)據(jù)來源廣泛,比如同樣是車輛的保單數(shù)據(jù),不同保險(xiǎn)公司的保單數(shù)據(jù)標(biāo)準(zhǔn)不同,在應(yīng)用前必須把不同保險(xiǎn)公司的保單數(shù)據(jù)標(biāo)準(zhǔn)化。同樣,汽車違章查詢的數(shù)據(jù)、汽車貸款的數(shù)據(jù),都需要按照統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行規(guī)范,這樣可以用一把尺子度量不同來源的汽車數(shù)據(jù)。通常,絕大多數(shù)吹牛自己是大數(shù)據(jù)公司的,基本工作就是做到了這一步,也就是把來自各種途徑的數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化,能夠用Excel表格輸出數(shù)據(jù),可以賣了!
四是因子化,完成了標(biāo)準(zhǔn)化,這時(shí)的數(shù)據(jù)庫才能采用大數(shù)據(jù)技術(shù)進(jìn)行有目的的挖掘。要開展數(shù)據(jù)挖掘,首先第一步得解決標(biāo)準(zhǔn)化數(shù)據(jù)的因子化。比如車主性別,有男,有女,有不確定。計(jì)算機(jī)因子化處理這個(gè)問題的時(shí)候就會(huì)把男定義為1,女定義為0,不確定性別定義為2。性別的因子化相對(duì)簡(jiǎn)單,再比如違章數(shù)據(jù),究竟違章多少次,何種違章才應(yīng)該被判定為高風(fēng)險(xiǎn)呢?要因子化處理,我們就得定義規(guī)則,比如非扣分的違章0-3次風(fēng)險(xiǎn)因子是1,4-6次風(fēng)險(xiǎn)因子是2,7次以上風(fēng)險(xiǎn)因子是3……諸如此類的數(shù)據(jù)因子化處理,才能進(jìn)入數(shù)據(jù)建模。
五是模型化,很多吹牛搞汽車大數(shù)據(jù)的,動(dòng)輒就吹牛要搞數(shù)據(jù)模型,其實(shí)絕大多數(shù)人連前面四個(gè)數(shù)據(jù)處理過程都干不了。極少數(shù)搞定前四個(gè)步驟的公司會(huì)雇傭數(shù)據(jù)建模師,圍繞特定的問題,建立數(shù)據(jù)模型。這個(gè)過程一定程度上并不是科學(xué),更多的像是藝術(shù)工作。因?yàn)椴淮嬖诮^對(duì)的解,建模師的工作就是要用想象力,盡可能建立一個(gè)能夠模擬現(xiàn)實(shí)世界運(yùn)行的數(shù)據(jù)模型。先有一個(gè)假設(shè),然后用現(xiàn)實(shí)世界的數(shù)據(jù)去測(cè)試這個(gè)假設(shè),如果錯(cuò)了,反饋參數(shù)去修訂這個(gè)模型,再用真實(shí)數(shù)據(jù)測(cè)試,直到結(jié)果能夠很好的模擬真實(shí)世界……這個(gè)過程就是機(jī)器學(xué)習(xí)的數(shù)據(jù)訓(xùn)練。由于每個(gè)行業(yè)、每個(gè)行業(yè)的細(xì)分領(lǐng)域、每個(gè)細(xì)分領(lǐng)域的不同公司都在經(jīng)營(yíng)不同的生意,同樣是車險(xiǎn)保單,不同保險(xiǎn)公司的用戶偏好是不同的,同一個(gè)模型是不可能適應(yīng)所有保險(xiǎn)公司,每一家保險(xiǎn)公司如果要應(yīng)用大數(shù)據(jù)和人工智能技術(shù),都必須個(gè)性化訓(xùn)練,一旦某一家率先建立自己的機(jī)器人,其在行業(yè)里的效率提升將大幅領(lǐng)先于沒有人工智能機(jī)器人的公司——對(duì)汽車保險(xiǎn)、金融、二手車、后市場(chǎng)等領(lǐng)域來說,誰先用人工智能武裝自己,誰將與競(jìng)爭(zhēng)對(duì)手真正拉開差距。
六是產(chǎn)品化,有了模型并不是萬事大吉,模型必須應(yīng)用于某個(gè)生產(chǎn)場(chǎng)景才能創(chuàng)造價(jià)值。比如在汽車廣告領(lǐng)域,區(qū)分潛在用戶銷售線索優(yōu)劣的模型就非常有用。目前每年車企投放大量廣告獲得幾十倍上百倍實(shí)際銷售量的銷售線索,目前不加區(qū)分進(jìn)行電話轟炸的方式效率非常低,成本也非常高。建立銷售線索魚成交結(jié)果的數(shù)據(jù)模型之后,必須為車企提供一個(gè)應(yīng)用生產(chǎn)環(huán)境,幫助4S店銷售人員準(zhǔn)確把握每一個(gè)銷售線索的價(jià)值,把有限的時(shí)間和資源,放在最可能成交的那些潛在用戶身上。也就是說,必須把模型封裝在一個(gè)Saas系統(tǒng)里,大數(shù)據(jù)技術(shù)才能真正落地應(yīng)用。
我知道這篇文章對(duì)大多數(shù)人而言過于專業(yè),但真要應(yīng)用大數(shù)據(jù)、機(jī)器學(xué)習(xí)和人工智能解決汽車行業(yè)的問題,這篇只能算是掃盲。寫出這些掃盲文章的目的無他,我只是想治愈那些AI恐懼癥患者。美國人可能有必要擔(dān)心這些問題,因?yàn)樵诎l(fā)達(dá)國家,數(shù)據(jù)的接口化和標(biāo)準(zhǔn)化工作已經(jīng)在幾十年前完成,而我們中國遠(yuǎn)遠(yuǎn)沒有恐懼AI的必要,各種數(shù)據(jù)連接口化的工作都無法完成,你想訓(xùn)練一個(gè)AI出來,談何容易——各位吹大數(shù)據(jù)牛的公司,賣數(shù)據(jù)的生意前景不錯(cuò),6月1日網(wǎng)絡(luò)安全法出臺(tái)前可以繼續(xù)得瑟,之后就自求多福吧!
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03