
作者 | CDA數(shù)據(jù)分析師
業(yè)務(wù)背景——保險行業(yè)
業(yè)務(wù)環(huán)境
中國是世界第二大保險市場,但在保險密度上與世界平均水平仍有明顯差距
保險行業(yè)2018年保費(fèi)規(guī)模為38萬億,同比增長不足4%,過去“短平快“的發(fā)展模式已經(jīng)不能適應(yīng)新時代的行業(yè)發(fā)展需求,行業(yè)及用戶長期存在難以解決的痛點(diǎn),限制了行業(yè)發(fā)展發(fā)展環(huán)境。
互聯(lián)網(wǎng)經(jīng)濟(jì)的發(fā)展,為保險行業(yè)帶來了增量市場,同時隨著網(wǎng)民規(guī)模的擴(kuò)大,用戶的行為習(xí)慣已發(fā)生轉(zhuǎn)變,這些都需要互聯(lián)網(wǎng)的方式進(jìn)行觸達(dá)。
保險科技:當(dāng)前沿科技不斷應(yīng)用于保險行業(yè),互聯(lián)網(wǎng)保險的概念將會與保險科技概念高度融合。
(資料來源: 艾瑞研究院自主研究及繪制C2019.6 iResearch)
中國保險市場持續(xù)高速增長。根據(jù)銀保監(jiān)會數(shù)據(jù),2011~2018年,全國保費(fèi)收入從1.4萬億增長至3.8萬億,年復(fù)合增長率17.2%。2014年,中國保費(fèi)收入突破2萬億,成為全球僅次于美國、日本的第三大新興保險市場市場;2016年,中國整體保費(fèi)收入突破3萬億,超過日本,成為全球第二大保險市場;2019年,中國保費(fèi)收入有望突破4萬億。
發(fā)展現(xiàn)狀
受保險行業(yè)結(jié)構(gòu)轉(zhuǎn)型時期影響,互聯(lián)網(wǎng)保險整體發(fā)展受阻,2018年行業(yè)保費(fèi)收入為1889億元, 較去年基本持平,不同險種發(fā)展呈現(xiàn)分化格局,其中健康險增長迅猛,2018年同比增長108%,主要 由短期醫(yī)療險驅(qū)動
供給端專業(yè)互聯(lián)網(wǎng)保險公司增長迅速,但過高的固定成本及渠道費(fèi)用使得其盈利問題凸顯,加 發(fā)展現(xiàn)狀強(qiáng)自營渠道建設(shè)及科技輸出是未來的破局方法,渠道端形成第三方平臺為主,官網(wǎng)為輔的格局,第三 方平臺逐漸發(fā)展出B2C、B2A、B2B2C等多種創(chuàng)新業(yè)務(wù)模式。
互聯(lián)網(wǎng)保險不僅僅局限于渠道創(chuàng)新,其核心優(yōu)勢同樣體現(xiàn)在產(chǎn)品設(shè)計(jì)的創(chuàng)新和服務(wù)體驗(yàn)的提升 竟合格局:隨著入局企業(yè)増?jiān)龆?流量爭奪更加激烈,最終保險公司與第三方平臺深度合作將成為常態(tài) 發(fā)展趨勢
發(fā)展趨勢
隨著入局企業(yè)增多,流量爭奪更加激烈,最終保險公司與第三方平臺深度合作將成為常態(tài)。 發(fā)展趨勢
當(dāng)前沿科技不斷應(yīng)用于保險行業(yè),互聯(lián)網(wǎng)保險的概念將會與保險科技概念高度融合。
衡量指標(biāo)
圖片來源:《聚焦客戶體驗(yàn),數(shù)據(jù)驅(qū)動重塑保險行業(yè)》白皮書
業(yè)務(wù)目標(biāo)
針對保險公司的健康險產(chǎn)品的用戶,制作用戶畫像,然后進(jìn)行精準(zhǔn)保險營銷。
數(shù)據(jù)分析
分析流程框架
本次案例的數(shù)據(jù)數(shù)據(jù)的字段含義如下:
導(dǎo)入數(shù)據(jù)
import pandas as pd
df = pd.read_csv(r'data.csv', sep=',', header = 0)
df.shape
(5000000, 50)
在這里我們可以看到我們的數(shù)據(jù)是有5000000條記錄和19個特征
數(shù)據(jù)探索性分析
描述性統(tǒng)計(jì)
在我們正式建模型之前,我們需要對我們的數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì),這樣我們就能知道整個數(shù)據(jù)的大致分布是什么樣的,做到心里有數(shù),然后能夠數(shù)據(jù)大致的全貌有一定的了解。
type_0=df.dtypes
type_0.to_excel( 'original.xlsx')
#將 KBM_INDV_ID 的int64轉(zhuǎn)化為object
df['KBM_INDV_ID']=df['KBM_INDV_ID'].astype('object')
describe=df.describe().T
type(describe)
describe.to_excel( '../output/describe_var.xlsx')
# 引入畫圖模塊
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
# 為分類型變量:所處區(qū)的大小,創(chuàng)建直方圖
plt.subplot(1, 2, 1)
sns.countplot(x='N2NCY', hue='resp_flag', data=df); #設(shè)置 x,y 以及顏色控制的變量,以及畫圖的數(shù)據(jù)
plt.xlabel('N2NCY');
plt.ylabel('Frequency');
#了解因變量的分布
Resp_count=df['KBM_INDV_ID'].groupby(df['resp_flag']).count()
print(Resp_count)
str(round(Resp_count[1]/len(df)*100,2))+str('%') #查看購買了
從這個圖片我們可以看到,買了保險的用戶和未買保險的人所處縣的情況。
我們需要對數(shù)據(jù)進(jìn)行缺失值檢查,先對每一條記錄查看是否有缺失,然后查看一下每一個特征是否有缺失,然后進(jìn)行相應(yīng)的缺失值處理。
Next Step:
# 檢查是否有缺失的行
df.shape[0]-df.dropna().shape[0] ###
# 檢查是否有缺失的列
len(df.columns)-df.dropna(axis =1).shape[1] #626
NA=df.isnull().sum()
print('orginal NA=',NA)
NA=NA.reset_index()
NA.columns=['Var','NA_count']
NA=NA[NA.NA_count>0].reset_index(drop=True)
print(NA)
NA.to_excel( '../output/var_incl_na.xls',index=False)
####處理缺失值
var_char_na=[]
# 我們對連續(xù)型數(shù)據(jù)進(jìn)行中位數(shù)填補(bǔ),然后對離散型數(shù)據(jù)進(jìn)行特殊值填補(bǔ),我們這里利用的是N
for i in range(len(NA)):
if NA['NA_count'][i]/len(df)>0.75 or len(df[NA['Var'][i]].unique())<=2 :
del df[NA['Var'][i]]
elif df[NA['Var'][i]].dtypes!="object":
# 填充缺失值-中位數(shù)
for_na_value = df[NA['Var'][i]].quantile(0.5)
# for_na_value
df[NA['Var'][i]] = df[NA['Var'][i]].fillna(for_na_value)
elif df[NA['Var'][i]].dtypes=="object" and len(df[NA['Var'][i]].unique())<=3:
df[NA['Var'][i]] = df[NA['Var'][i]].fillna('N', inplace=True)
else:
var_char_na.append(NA['Var'][i])
var_char_na
處理分類型變量
#Drop Variables that are not necessary
drop_list=['STATE_NAME','KBM_INDV_ID']
for var in drop_list:
del df[var]
## 檢查數(shù)據(jù)集中數(shù)值型變量和字符型變量
var_num = []
var_char_uniq2 = []
var_char_mul= []
for var in list(df):
if df[var].dtypes=="object" and len(df[var].unique())>2:
var_char_mul.append(var)
elif df[var].dtypes!="object" :
var_num.append(var)
else:
var_char_uniq2.append(var)
##處理多值型字符變量
for var in var_char_mul:
temp= pd.get_dummies(df[var], prefix=var, prefix_sep='_')
print(temp)
for var2 in list(temp):
if var2 in '_nan':
del temp[var2]
del df[var]
df = pd.concat([df,temp], axis=1)
del temp
len(df.columns) ##88
df.head(5)
df.to_excel( '../output/data.xls',index=False)
##處理二值型的字符變量
import numpy as np
from sklearn.preprocessing import LabelEncoder
def integer_encode(var):
values = np.array(df[var])
label_encoder = LabelEncoder()
df[var] = label_encoder.fit_transform(values)
for var in var_char_uniq2:
if len(df[var].unique())<2:
del df[var]
else: integer_encode(var)
建模
當(dāng)我們發(fā)現(xiàn),我們的數(shù)據(jù)中分類變量比較多,我們嘗試采取決策樹進(jìn)行建模,
具體理由:我們做出來的模型需要指導(dǎo)業(yè)務(wù)人員進(jìn)行使用,那么要求做出來的模型的可解釋要高,而決策樹模型的解釋性就很強(qiáng),那么業(yè)務(wù)人員理解起來就會很容易,那么之后進(jìn)行應(yīng)用就不用再專門進(jìn)行對業(yè)務(wù)人員的培訓(xùn),直接讓他按照模型做出來的結(jié)果進(jìn)行后續(xù)的業(yè)務(wù),會提升效率。
# 引用sklearn 模塊
from sklearn import tree
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
#from sklearn import cross_validation, metrics
from sklearn import metrics
from sklearn.model_selection import cross_val_score
#from sklearn.grid_search import GridSearchCV
from sklearn.model_selection import GridSearchCV
import matplotlib.pylab as plt
from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 12, 4
##在模型樣本內(nèi)將數(shù)據(jù)集7:3分,70%用來建模,30%用來測試
# 定義特征變量和目標(biāo)變量
features= list(df.columns[1:])
X = df[features]
y = df['resp_flag']
# 將數(shù)據(jù)集7:3分,70%用來建模,30%用來測試
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3)
clf = tree.DecisionTreeClassifier()
param_test={'min_samples_leaf':list(range(1000,6000,100)),'min_samples_split':list(range(4000,6000,100))}
gsearch = GridSearchCV(estimator=clf,
param_grid = param_test, scoring='roc_auc',n_jobs=1,iid=False, cv=5)
gsearch.fit(X_train,y_train)
#gsearch.grid_scores_, gsearch.best_params_, gsearch.best_score_
gsearch.cv_results_, gsearch.best_params_, gsearch.best_score_
驗(yàn)證輸出結(jié)果
clf = tree.DecisionTreeClassifier(
class_weight=None,
criterion='gini',
max_features=None,
max_leaf_nodes=8,
min_samples_leaf=2000,
min_samples_split=5000,
min_weight_fraction_leaf=0.0,
splitter='best' )
results=modelfit(clf, X_train, y_train, X_test,y_test)
畫出決策樹
import os
import pydotplus
from IPython.display import Image
from sklearn.externals.six import StringIO
#os.environ["PATH"] += os.pathsep + 'C:/Users/yacao/Downloads/graphviz-2.38/release/bin'
dot_data = StringIO()
tree.export_graphviz(clf, #決策樹分類器
out_file = dot_data)
輸出規(guī)則
if (df['meda'][i] <= 56.5 ):
if (df['age'][i] <= 70.5 ):
if (df['c210hva'][i] <= 312.5 ):
if (df['ilor'][i] <= 10.5 ):
temp=11
segment.append(temp)
else:
temp=12
segment.append(temp)
else:
temp=8
segment.append(temp)
else:
if (df['tins'][i] <= 5.5 ):
temp=9
segment.append(temp)
else:
temp=10
segment.append(temp)
else:
if (df['pdpe'][i] <= 46.5 ):
if (df['MOBPLUS_M'][i] <= 0.5 ):
temp=13
segment.append(temp)
else:
temp=14
segment.append(temp)
else:
temp=4
segment.append(temp)
業(yè)務(wù)應(yīng)用
我們來看一下購買比例最高的兩類客戶的特征是什么:
第一類:
那么我們對業(yè)務(wù)人員進(jìn)行建議的時候就是,建議他們在醫(yī)療險覆蓋率比例較低的區(qū)域進(jìn)行宣傳推廣,然后重點(diǎn)關(guān)注那些剛到該區(qū)域且年齡65歲以上的老人,向這些人群進(jìn)行保險營銷,成功率應(yīng)該會更高。
第二類:
這一類人群,是區(qū)域內(nèi)常住的高端小區(qū)的用戶。這些人群也同樣是我們需要重點(diǎn)進(jìn)行保險營銷的對象。
除此之外,我們還可以做什么呢?
了解客戶需求
我們需要了解客戶的需求,并根據(jù)客戶的需求舉行保險營銷。PIOS數(shù)據(jù):向客戶推薦產(chǎn)品,并利用個人的數(shù)據(jù)(個人特征)向客戶推薦保險產(chǎn)品。旅行者:根據(jù)他們自己的數(shù)據(jù)(家庭數(shù)據(jù)),生活階段信息推薦的是財務(wù)保險、人壽保險、保險、舊保險和用戶教育保險。外部數(shù)據(jù)、資產(chǎn)保險和人壽保險都提供給高層人士,利用外部數(shù)據(jù),我們可以改進(jìn)保險產(chǎn)品的管理,增加投資的收益和收益。
開發(fā)新的保險產(chǎn)品
保險公司還應(yīng)協(xié)助外部渠道開發(fā)適合不同商業(yè)環(huán)境的保險產(chǎn)品,例如新的保險類型,如飛行延誤保險、旅行時間保險和電話盜竊保險。目的是提供其他保險產(chǎn)品,而不是從這些保險中受益,而是尋找潛在的客戶。此外,保險公司將通過數(shù)據(jù)分析與客戶聯(lián)系,了解客戶。外部因素將降低保險的營銷成本,并直接提高投資回報率。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03