
一種基于用戶移動大數(shù)據(jù)來分析駕駛風(fēng)險的研究模型
1 研究背景
風(fēng)險,一個永恒的話題,特別在汽車保險行業(yè),“互聯(lián)網(wǎng)+”下汽車共享經(jīng)濟(jì)深度影響著企業(yè)的風(fēng)險運(yùn)營模式,如何將駕駛行為人的多個維度數(shù)據(jù)進(jìn)行結(jié)合,有效應(yīng)用到個性化的保險產(chǎn)品中,從而實現(xiàn)風(fēng)險與保費(fèi)定價的匹配,讓車企、保險公司、車主多方都獲益呢?
先來回顧一下國內(nèi)外車險發(fā)展歷程,國外UBI業(yè)務(wù)模式早在十年前已經(jīng)出現(xiàn)在美國,某保險公司聯(lián)合通用汽車公司共同研究了這樣一種業(yè)務(wù)模式,起初主要是追蹤GPS的數(shù)據(jù)來獲得車輛行駛的公里數(shù),行駛里程越多風(fēng)險越高,后來逐漸演變?yōu)楂@取更完備的數(shù)據(jù),讓企業(yè)不僅知道你開了多遠(yuǎn),還了解你何時駕駛、如何駕駛、汽車當(dāng)前狀態(tài)怎樣。顯而易見,UBI的核心在于數(shù)據(jù),而在數(shù)據(jù)方面國外一直走在我們之前。當(dāng)你打開國內(nèi)某車險官網(wǎng),只需要輸入車型,即告訴你選擇的險種及保費(fèi);而如果你打開國外的車險報價網(wǎng)站或者車險比價平臺時,你會發(fā)現(xiàn)除了要輸入車型和車險的需求外,還需要回答誰最經(jīng)常駕駛這輛車,他的性別、年齡、常住地址、租房還是買房、是普通住宅還是別墅、是老板還是員工、這輛車主要用途、家里是否還有其他車輛......等等一系列的問題,最終才會輸出報價體系。不言而喻,報價不僅僅針對這個車輛,更和該車輛的使用者有關(guān)。
2 研究目標(biāo)
在以上背景下, 極光大數(shù)據(jù)的研究人員基于車輛使用者的移動行為大數(shù)據(jù),通過大數(shù)據(jù)處理、分析與機(jī)器學(xué)習(xí)模型等技術(shù)評估車主駕車行為的風(fēng)險等級,通過風(fēng)險等級指數(shù)為其提供個性化保單,為保險公司的車險業(yè)務(wù)提供相關(guān)決策支持。本文將通過車輛使用者的線上終端使用行為數(shù)據(jù)和線下各時段的活動信息(均已脫敏處理),根據(jù)該數(shù)據(jù)關(guān)聯(lián)計算每輛車的各類駕駛行為變量,并根據(jù)車輛使用者在數(shù)據(jù)采集周期內(nèi)出險情況與移動行為變量建立模型。通過特征選擇獲取對車輛出險有顯著影響的駕駛行為,并得到駕駛行為變量對出險概率的影響程度。該模型可協(xié)助保險公司發(fā)掘影響車輛出險的重要行為因素,從而對車險保費(fèi)進(jìn)行差異化定價。
3 建模過程
本次建模過程包括數(shù)據(jù)準(zhǔn)備、特征選擇、風(fēng)險量化、模型輸出四個步驟,通過機(jī)器學(xué)習(xí)建模分析評估車主駕駛行為的風(fēng)險程度,根據(jù)不同的風(fēng)險等級提供相應(yīng)的汽車服務(wù)。
圖1 駕駛風(fēng)險模型流程圖
在算法框架選擇上,由于XGBoost在大數(shù)據(jù)量級下性能表現(xiàn)優(yōu)秀,而且可以完成特征選擇和分類任務(wù),這里我們在算法框架上使用XGBoost。
3.1數(shù)據(jù)準(zhǔn)備
本次建模數(shù)據(jù)主要來自極光自有的用戶標(biāo)簽體系,該標(biāo)簽體系是從人口唯一標(biāo)識、人口統(tǒng)計維度、社會屬性維度、金融行為特征、線下活動場景特征、一般行為特征這五大維度進(jìn)行刻畫,我們抽樣了3萬的樣本用戶進(jìn)行研究,選擇了共311個標(biāo)簽作為模型的自變量,國外某機(jī)構(gòu)專業(yè)風(fēng)險評分結(jié)果作為模型的因變量。
3.2特征選擇
極光擁有海量的用戶行為數(shù)據(jù),選擇極光用戶全標(biāo)簽共311個屬性作為變量。根據(jù)提供的訓(xùn)練樣本我們對這些變量做如下處理:
1.首先進(jìn)行數(shù)據(jù)探索,清洗異常數(shù)據(jù),刪除唯一值的變量以及重復(fù)列等異常情況;
2.接下來使用RandomForest算法進(jìn)行訓(xùn)練,訓(xùn)練的目的不是為了得到最終結(jié)果,而是期望得到每個特征變量的重要性,為我們后面進(jìn)行特征選擇做準(zhǔn)備;
3.將上一步的特征系數(shù)大于0.1的列篩選出來,作為模型的特征變量,最終剩余273個變量,下圖僅列出部分重要性較高的Top12變量。
圖2 特征選擇結(jié)果
3.3模型訓(xùn)練
將訓(xùn)練樣本的原始分?jǐn)?shù)歸一化到0~100,設(shè)置分類器數(shù)目為101,這樣我們將在273個維度下進(jìn)行預(yù)測,構(gòu)建XGBoost分類器,使用Accuracy作為度量指標(biāo)?;緟?shù)設(shè)置如下:樣本拆分80%為訓(xùn)練樣本,20%為測試樣本,迭代200次,輸出測試結(jié)果,保存訓(xùn)練模型。
3.4模型結(jié)果及應(yīng)用
針對共三萬樣本數(shù)據(jù),進(jìn)行交叉驗證,效果如下(詳見圖3):
ü當(dāng)誤差閾值設(shè)定為0.1時,模型的Accuracy達(dá)到78.46%;
ü當(dāng)誤差閾值設(shè)定為0.2時,模型的Accuracy達(dá)到85.37%;
ü當(dāng)誤差閾值設(shè)定為0.3時,模型的Accuracy高達(dá)96.59%;
ü當(dāng)誤差閾值設(shè)定為0.5時,模型的Accuracy近乎可達(dá)到100%。
圖3 模型誤差結(jié)果
基于移動互聯(lián)網(wǎng)大數(shù)據(jù)的風(fēng)險模型包括駕駛風(fēng)險模型和保險定價模型,其中駕駛風(fēng)險模型是需要擁有車聯(lián)網(wǎng)數(shù)據(jù)具備車聯(lián)網(wǎng)運(yùn)營經(jīng)驗、懂駕駛行為、懂車、能夠進(jìn)行數(shù)據(jù)分析,一般是主機(jī)廠、TSP或者數(shù)據(jù)平臺公司。保險精算模型是具備車險資質(zhì)和精算經(jīng)驗,一般是保險公司、保險經(jīng)紀(jì)公司、精算咨詢服務(wù)公司。如何更好地提升模型的質(zhì)量和效率,極光大數(shù)據(jù)可以在車險產(chǎn)品設(shè)計的全環(huán)節(jié)中提供支持,以期見微知著。
圖4 車險產(chǎn)品定價示意圖
4 行業(yè)展望
來自和訊保險的數(shù)據(jù)顯示,車險在整個財險中所占比例高達(dá)70%,所以保險業(yè)界流傳著“得車險者得天下”的說法。據(jù)統(tǒng)計,截至2015年11月,全行業(yè)實現(xiàn)車險保費(fèi)收入5526億元, 2016年全年車險保費(fèi)收入突破6000億元,如此龐大的市場規(guī)模孕育著眾多商機(jī)。
互聯(lián)網(wǎng)車險的社會影響力正不斷擴(kuò)大并成為一股新生力量,為市場注入了新的活力。同時,行業(yè)借助互聯(lián)網(wǎng)平臺提升服務(wù)的方式與手段呈爆發(fā)式增長的態(tài)勢,各主體紛紛借助流量平臺或獨(dú)立APP增加客戶接觸點(diǎn)、拉近與客戶距離,大幅度優(yōu)化了客戶服務(wù)界面。未來,互聯(lián)網(wǎng)與傳統(tǒng)車險的結(jié)合將不僅限于形式上的結(jié)合,更是理念上的結(jié)合,互聯(lián)網(wǎng)化的車險將以車輛風(fēng)險保障為核心,建立包括用車、養(yǎng)車、修車的車險生態(tài)圈。
然而從長遠(yuǎn)看,互聯(lián)網(wǎng)車險公司實現(xiàn)持久盈利的商業(yè)模式仍有待檢驗,一是高企的費(fèi)用投入能夠持續(xù)多久;二是高費(fèi)用投入下的客戶留存度如何,即能否通過高質(zhì)量的線下服務(wù)滿足客戶的理賠需求;三是如何獲取車、人、路、環(huán)境這四個方面的大數(shù)據(jù)。如果能夠解決好上述問題,尤其是第三點(diǎn),借助具備天然優(yōu)勢的互聯(lián)網(wǎng)方式厘定產(chǎn)品費(fèi)率,鎖定目標(biāo)客戶,互聯(lián)網(wǎng)車險或?qū)⒁嗍恰暗脭?shù)據(jù)者得天下”。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03