
一種基于用戶移動大數據來分析駕駛風險的研究模型
1 研究背景
風險,一個永恒的話題,特別在汽車保險行業(yè),“互聯網+”下汽車共享經濟深度影響著企業(yè)的風險運營模式,如何將駕駛行為人的多個維度數據進行結合,有效應用到個性化的保險產品中,從而實現風險與保費定價的匹配,讓車企、保險公司、車主多方都獲益呢?
先來回顧一下國內外車險發(fā)展歷程,國外UBI業(yè)務模式早在十年前已經出現在美國,某保險公司聯合通用汽車公司共同研究了這樣一種業(yè)務模式,起初主要是追蹤GPS的數據來獲得車輛行駛的公里數,行駛里程越多風險越高,后來逐漸演變?yōu)楂@取更完備的數據,讓企業(yè)不僅知道你開了多遠,還了解你何時駕駛、如何駕駛、汽車當前狀態(tài)怎樣。顯而易見,UBI的核心在于數據,而在數據方面國外一直走在我們之前。當你打開國內某車險官網,只需要輸入車型,即告訴你選擇的險種及保費;而如果你打開國外的車險報價網站或者車險比價平臺時,你會發(fā)現除了要輸入車型和車險的需求外,還需要回答誰最經常駕駛這輛車,他的性別、年齡、常住地址、租房還是買房、是普通住宅還是別墅、是老板還是員工、這輛車主要用途、家里是否還有其他車輛......等等一系列的問題,最終才會輸出報價體系。不言而喻,報價不僅僅針對這個車輛,更和該車輛的使用者有關。
2 研究目標
在以上背景下, 極光大數據的研究人員基于車輛使用者的移動行為大數據,通過大數據處理、分析與機器學習模型等技術評估車主駕車行為的風險等級,通過風險等級指數為其提供個性化保單,為保險公司的車險業(yè)務提供相關決策支持。本文將通過車輛使用者的線上終端使用行為數據和線下各時段的活動信息(均已脫敏處理),根據該數據關聯計算每輛車的各類駕駛行為變量,并根據車輛使用者在數據采集周期內出險情況與移動行為變量建立模型。通過特征選擇獲取對車輛出險有顯著影響的駕駛行為,并得到駕駛行為變量對出險概率的影響程度。該模型可協助保險公司發(fā)掘影響車輛出險的重要行為因素,從而對車險保費進行差異化定價。
3 建模過程
本次建模過程包括數據準備、特征選擇、風險量化、模型輸出四個步驟,通過機器學習建模分析評估車主駕駛行為的風險程度,根據不同的風險等級提供相應的汽車服務。
圖1 駕駛風險模型流程圖
在算法框架選擇上,由于XGBoost在大數據量級下性能表現優(yōu)秀,而且可以完成特征選擇和分類任務,這里我們在算法框架上使用XGBoost。
3.1數據準備
本次建模數據主要來自極光自有的用戶標簽體系,該標簽體系是從人口唯一標識、人口統(tǒng)計維度、社會屬性維度、金融行為特征、線下活動場景特征、一般行為特征這五大維度進行刻畫,我們抽樣了3萬的樣本用戶進行研究,選擇了共311個標簽作為模型的自變量,國外某機構專業(yè)風險評分結果作為模型的因變量。
3.2特征選擇
極光擁有海量的用戶行為數據,選擇極光用戶全標簽共311個屬性作為變量。根據提供的訓練樣本我們對這些變量做如下處理:
1.首先進行數據探索,清洗異常數據,刪除唯一值的變量以及重復列等異常情況;
2.接下來使用RandomForest算法進行訓練,訓練的目的不是為了得到最終結果,而是期望得到每個特征變量的重要性,為我們后面進行特征選擇做準備;
3.將上一步的特征系數大于0.1的列篩選出來,作為模型的特征變量,最終剩余273個變量,下圖僅列出部分重要性較高的Top12變量。
圖2 特征選擇結果
3.3模型訓練
將訓練樣本的原始分數歸一化到0~100,設置分類器數目為101,這樣我們將在273個維度下進行預測,構建XGBoost分類器,使用Accuracy作為度量指標?;緟翟O置如下:樣本拆分80%為訓練樣本,20%為測試樣本,迭代200次,輸出測試結果,保存訓練模型。
3.4模型結果及應用
針對共三萬樣本數據,進行交叉驗證,效果如下(詳見圖3):
ü當誤差閾值設定為0.1時,模型的Accuracy達到78.46%;
ü當誤差閾值設定為0.2時,模型的Accuracy達到85.37%;
ü當誤差閾值設定為0.3時,模型的Accuracy高達96.59%;
ü當誤差閾值設定為0.5時,模型的Accuracy近乎可達到100%。
圖3 模型誤差結果
基于移動互聯網大數據的風險模型包括駕駛風險模型和保險定價模型,其中駕駛風險模型是需要擁有車聯網數據具備車聯網運營經驗、懂駕駛行為、懂車、能夠進行數據分析,一般是主機廠、TSP或者數據平臺公司。保險精算模型是具備車險資質和精算經驗,一般是保險公司、保險經紀公司、精算咨詢服務公司。如何更好地提升模型的質量和效率,極光大數據可以在車險產品設計的全環(huán)節(jié)中提供支持,以期見微知著。
圖4 車險產品定價示意圖
4 行業(yè)展望
來自和訊保險的數據顯示,車險在整個財險中所占比例高達70%,所以保險業(yè)界流傳著“得車險者得天下”的說法。據統(tǒng)計,截至2015年11月,全行業(yè)實現車險保費收入5526億元, 2016年全年車險保費收入突破6000億元,如此龐大的市場規(guī)模孕育著眾多商機。
互聯網車險的社會影響力正不斷擴大并成為一股新生力量,為市場注入了新的活力。同時,行業(yè)借助互聯網平臺提升服務的方式與手段呈爆發(fā)式增長的態(tài)勢,各主體紛紛借助流量平臺或獨立APP增加客戶接觸點、拉近與客戶距離,大幅度優(yōu)化了客戶服務界面。未來,互聯網與傳統(tǒng)車險的結合將不僅限于形式上的結合,更是理念上的結合,互聯網化的車險將以車輛風險保障為核心,建立包括用車、養(yǎng)車、修車的車險生態(tài)圈。
然而從長遠看,互聯網車險公司實現持久盈利的商業(yè)模式仍有待檢驗,一是高企的費用投入能夠持續(xù)多久;二是高費用投入下的客戶留存度如何,即能否通過高質量的線下服務滿足客戶的理賠需求;三是如何獲取車、人、路、環(huán)境這四個方面的大數據。如果能夠解決好上述問題,尤其是第三點,借助具備天然優(yōu)勢的互聯網方式厘定產品費率,鎖定目標客戶,互聯網車險或將亦是“得數據者得天下”。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數據處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數據庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數據分析師:表結構數據 “獲取 - 加工 - 使用” 全流程的賦能者 表結構數據(如數據庫表、Excel 表、CSV 文件)是企業(yè)數字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數據分析師:解鎖表結構數據特征價值的專業(yè)核心 表結構數據(以 “行 - 列” 規(guī)范存儲的結構化數據,如數據庫表、Excel 表、 ...
2025-09-17Excel 導入數據含缺失值?詳解 dropna 函數的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數據分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數據差異是否 “ ...
2025-09-16CDA 數據分析師:掌控表格結構數據全功能周期的專業(yè)操盤手 表格結構數據(以 “行 - 列” 存儲的結構化數據,如 Excel 表、數據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數據分析師:激活表格結構數據價值的核心操盤手 表格結構數據(如 Excel 表格、數據庫表)是企業(yè)最基礎、最核心的數據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數據的科學計數法問題 為幫助 Python 數據從業(yè)者解決pd.read_csv讀取長浮點數據時的科學計數法問題 ...
2025-09-12CDA 數據分析師:業(yè)務數據分析步驟的落地者與價值優(yōu)化者 業(yè)務數據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數據把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數據分析師與戰(zhàn)略 / 業(yè)務數據分析:概念辨析與協同價值 在數據驅動決策的體系中,“戰(zhàn)略數據分析”“業(yè)務數據分析” 是企業(yè) ...
2025-09-11Excel 數據聚類分析:從操作實踐到業(yè)務價值挖掘 在數據分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數據中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數據解讀到決策支撐的價值導向 統(tǒng)計模型作為數據分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10