
大數(shù)據(jù)時(shí)代,你是否擁有“文科思維”
最近,我所在的團(tuán)隊(duì)為一家車貸公司搭建了一套信審數(shù)據(jù)模型,該模型可以根據(jù)貸款申請(qǐng)者的數(shù)據(jù)自動(dòng)預(yù)測其在未來能否按時(shí)還款,決定是否通過用戶的貸款申請(qǐng)。
相比人工信審,模型預(yù)測是全自動(dòng)的機(jī)器過程,在保證判斷準(zhǔn)確率的前提下,它能為公司節(jié)省大量的人力成本。
項(xiàng)目在客戶的工作地點(diǎn)開展,我們的工位處于一個(gè)信審專區(qū),周圍是大量的信審工作人員,他們每天的工作是審核貸款申請(qǐng)者的資料,聯(lián)系申請(qǐng)者核實(shí)信息,工作間隙,我們總能聽到有趣的對(duì)話:
信審員:“你有幾個(gè)兒子?”
貸款申請(qǐng)者:“三個(gè)?!?
信審員:“剛剛打電話給你老婆,她說你們只有兩個(gè)兒子,這是怎么回事?”
貸款申請(qǐng)者身旁傳來竊竊私語……
信審員:“你旁邊的人是誰?。磕阌袔讉€(gè)兒子還需要?jiǎng)e人來提醒你?”
……
對(duì)話進(jìn)行到這里時(shí),信審人員會(huì)在系統(tǒng)內(nèi)記錄下該申請(qǐng)者和配偶提供的信息不一致,存在可能的騙貸行為,這將成為該申請(qǐng)者能否被成功授信的“減分項(xiàng)”。
雖然目的均為實(shí)現(xiàn)快速、準(zhǔn)確的信貸審核,但數(shù)據(jù)建模的工作邏輯與人工審核存在明顯的差異。數(shù)據(jù)分析專家面對(duì)的是一串串?dāng)?shù)字,而業(yè)務(wù)人員面對(duì)的是鮮活的申請(qǐng)者。
數(shù)據(jù)分析出發(fā)點(diǎn)所有客戶的申請(qǐng)資料,包括此人性別、年齡、資產(chǎn)情況等基本信息,以及一些來自第三方平臺(tái)的風(fēng)險(xiǎn)數(shù)據(jù)(如該申請(qǐng)者有無犯罪記錄),簡單地說,我們工作的出發(fā)點(diǎn)是一張Excel表格。
反觀另一面,信貸審核人員在處理每筆信貸業(yè)務(wù)時(shí),他們除了面對(duì)每個(gè)申請(qǐng)者的具體信息,還會(huì)通過電話核實(shí)申請(qǐng)者的身份,最終作出人工決策。
數(shù)據(jù)表格是分析師們每天的工作伙伴
初入數(shù)據(jù)行業(yè)時(shí),我以為只要玩轉(zhuǎn)手中各種復(fù)雜的表格,寫一手漂亮的建模代碼,從透視表中找到有趣的發(fā)現(xiàn),就足以成就一個(gè)讓客戶滿意的項(xiàng)目。
然而,老板在入職第一天就語重心長地告訴我:“大數(shù)據(jù)是有局限性的,它無法替代你對(duì)真實(shí)業(yè)務(wù)的體會(huì),這也是我們?yōu)楹我v場工作?!?
在客戶的呼叫中心駐場1個(gè)多月后,我似乎明白了老板掛在嘴邊的這種“體會(huì)”。
大數(shù)據(jù)是我們認(rèn)識(shí)世界的一種方式,它將關(guān)于你的一切量化為很多數(shù)據(jù)標(biāo)簽,然后將它們存儲(chǔ)在表格里,比如你的性別是男性,今天打車回家花了30元,周末玩了兩小時(shí)王者榮耀。
大數(shù)據(jù)的優(yōu)勢很明顯,它具有一個(gè)對(duì)所有人通用的結(jié)構(gòu),每個(gè)用戶這些維度的數(shù)據(jù)都會(huì)被記錄在表格中,淘寶知道每個(gè)用戶的雙11消費(fèi)能力,今日頭條對(duì)你感興趣的新聞了如指掌,信貸公司記載了你過往的信用記錄。
然而,大數(shù)據(jù)的不足之處在于,它僅僅是對(duì)世界的一個(gè)切片,對(duì)于切片之外的事物一無所知。
面試官面試新員工時(shí),首先會(huì)查看申請(qǐng)者的簡歷,簡歷上的教育背景、工作經(jīng)驗(yàn)、語言能力是以固定結(jié)構(gòu)記錄的數(shù)據(jù),然而申請(qǐng)者在面試中給予面試官的感受,比如她是氣場強(qiáng)大的女神還是平易近人的萌妹子,大數(shù)據(jù)則無法給予答案。
在最近的項(xiàng)目中,我們通過數(shù)據(jù)發(fā)現(xiàn)那些教育程度較高的貸款申請(qǐng)者更容易在未來逾期還款,這聽上去有些違背常理,然而精通業(yè)務(wù)的經(jīng)理告訴我們這是合理的現(xiàn)象,那些所謂的高學(xué)歷是申請(qǐng)者在填寫表格時(shí)編造的。后者并不是大數(shù)據(jù)能夠捕捉的行為,然而對(duì)理解申請(qǐng)者的行為至關(guān)重要。
金融大鱷喬治·索羅斯的團(tuán)隊(duì)在做出重要投資決策時(shí),他們不僅僅關(guān)注能被寫進(jìn)表格的金融數(shù)據(jù),同時(shí)親自前往歐洲各地,在當(dāng)?shù)氐木瓢膳c人們聊天,了解未來可能的宏觀政策變化,索羅斯甚至依賴自己的背痛預(yù)判可能的風(fēng)險(xiǎn)。這些無法被標(biāo)準(zhǔn)地量化,甚至聽上去有些荒謬的決策標(biāo)準(zhǔn)卻成就了他們?cè)?992年9月的“黑色星期三”狙擊英鎊,幾周內(nèi)賺取11億美元的空前收益。
咨詢顧問Christian Madsbjerg的《意會(huì):算法時(shí)代人文科學(xué)的力量》一書是本文的主要參考書目,該書目前暫無中文版
通常,我們可以把人類認(rèn)識(shí)世界的途徑分為兩種:
一種是如今家喻戶曉的大數(shù)據(jù);
另一種則是一直長久存在,卻往往在這個(gè)時(shí)代被我們忽視的“厚數(shù)據(jù)”。如果將大數(shù)據(jù)比作對(duì)客觀世界的標(biāo)準(zhǔn)化切片,厚數(shù)據(jù)則是我們?cè)诿總€(gè)獨(dú)特場景的深度感知。
簡歷上的文字是大數(shù)據(jù),而面試官對(duì)申請(qǐng)者的感覺是厚數(shù)據(jù);表格中教育程度一列等于“大學(xué)”是大數(shù)據(jù),而填寫者在背后的偽裝是厚數(shù)據(jù);股票、匯率的歷史走勢是大數(shù)據(jù),而酒吧人們的閑聊和索羅斯的背痛是厚數(shù)據(jù)。
大數(shù)據(jù)的不足之處在于它缺乏厚數(shù)據(jù)攜帶的場景。存在主義哲學(xué)家海德格爾(Martin Heidegger)提出了“存在”(being)這一概念,它指的是世間萬物存在的場景(context),我們對(duì)于任何事物的理解都不能將其孤立為一個(gè)元素,而是應(yīng)考慮這個(gè)元素所處的具體場景,以及它與其它元素的相互關(guān)系。
海德格爾等人在他們的現(xiàn)象學(xué)(phenomenology)中對(duì)這個(gè)概念進(jìn)行了更詳細(xì)的闡釋,現(xiàn)象學(xué)的目的在于描述事物真實(shí)存在的方式,而不是我們覺得他們應(yīng)該存在的方式,而事物“真實(shí)存在的方式”必然離不開它所處的場景,而不是像大數(shù)據(jù)那樣對(duì)現(xiàn)實(shí)進(jìn)行標(biāo)準(zhǔn)化的切片。
需要注意的是,現(xiàn)象學(xué)中的“真實(shí)存在”,并不是指這件事必須在客觀上是正確的,比如“世界上只有男和女兩種性別”,而是當(dāng)我們?cè)谀骋粓鼍跋侣牭揭粋€(gè)現(xiàn)象學(xué)的描述,被問及“你覺得是這樣嗎?”時(shí),我們會(huì)點(diǎn)頭表示同意。
同樣的一杯紅酒,在點(diǎn)亮燭光的法國餐廳與嘈雜的辦公桌前飲用,注定是不一樣的感受,雖然它們的化學(xué)質(zhì)地是相同的。
同樣是一個(gè)小時(shí),在思修課堂和情人坡度過,必然是不同的長度,雖然它們的自然屬性沒有差異。
兩名被數(shù)據(jù)標(biāo)記有存在犯罪記錄的貸款申請(qǐng)者,雖然數(shù)據(jù)將它們一視同仁,然而一位只是過失的交通肇事,另一位則有搶劫銀行的前科,他們?cè)谖磥淼倪€款能力或許大相徑庭。
身為數(shù)據(jù)工作者,當(dāng)然希望數(shù)據(jù)和算法能盡可能多地代替人類的工作,但正如我們?cè)陧?xiàng)目中看到的,現(xiàn)實(shí)并非如此,僅僅面對(duì)數(shù)據(jù)和算法并無法洞察每個(gè)申請(qǐng)者所處的獨(dú)特場景。機(jī)器學(xué)習(xí)與人類決策是相互補(bǔ)充,而非相互替代的關(guān)系。
這也是為什么,數(shù)據(jù)分析師們一定要駐場工作,因?yàn)橹挥邢裥艑弻T那樣身處業(yè)務(wù)前線,才能對(duì)那些貸款的申請(qǐng)者形成更加深刻的體會(huì)。
之所以與大家分享場景、厚數(shù)據(jù)、現(xiàn)象學(xué)這些概念,是因?yàn)樵谶@個(gè)大數(shù)據(jù)概念傳遍街頭巷尾的時(shí)代,我們極易選擇用簡單的數(shù)據(jù)標(biāo)簽衡量一切:
選擇去哪家餐館,只看大眾點(diǎn)評(píng)的總體評(píng)分,并不在意網(wǎng)友的大段評(píng)論。
決定在哪里讀大學(xué),先看學(xué)校的綜合及專業(yè)排名,不在乎學(xué)長學(xué)姐們分享的體會(huì)。
想了解用戶對(duì)產(chǎn)品的滿意度,只要求1000人在問卷上打分,不會(huì)深度訪談?dòng)脩羰褂卯a(chǎn)品時(shí)的具體想法和感受。
后者事實(shí)上代表了一種以現(xiàn)象學(xué)為基礎(chǔ)的“文科思維”,即我們只關(guān)注每個(gè)獨(dú)特場景下的主觀體驗(yàn),不會(huì)嘗試將許多場景標(biāo)準(zhǔn)化,然后貼上統(tǒng)一的數(shù)據(jù)標(biāo)簽。
研究文科思維的專家Christian Madsbjerg認(rèn)為文科思維是培養(yǎng)我們對(duì)外界的敏感度的重要途徑,所謂的敏感度,指的是我們察覺事物間微妙差別的能力。正如兩杯紅酒,在不同地點(diǎn)的1小時(shí),兩名數(shù)據(jù)畫像相同的申請(qǐng)者,辨別它們之間的差異需要的正是文科思維。
Madsbjerg指出學(xué)習(xí)諸如藝術(shù)、歷史、哲學(xué)、社會(huì)學(xué)、人類學(xué)這些人文學(xué)科是培養(yǎng)文科思維的重要手段。因?yàn)檫@些學(xué)科中存在大量基于具體場景的思考和感知,比如藝術(shù)課教你欣賞達(dá)芬奇的作品,社會(huì)學(xué)家擅長消費(fèi)者深度訪談,人類學(xué)家喜歡實(shí)地觀察原始部落等,它們不會(huì)教你如何將世界編碼成一張數(shù)據(jù)表格,卻能培養(yǎng)你洞察世間微妙區(qū)別的能力。
前段時(shí)間看了《看不見的客人》,這是一部懸疑劇,劇情圍繞一名成功的銀行家與一名女律師之間的對(duì)話展開,女律師試圖幫助銀行家擺脫殺人的罪名,但殊不知她就是殺人案中被害者的母親。
《看不見的客人》中的女律師
與我一起看電影的小悶同學(xué)在女律師出場時(shí)脫口而出:“我感覺這個(gè)律師就是他媽媽?!彼母杏X驚人的準(zhǔn)確。
電影結(jié)束我問小悶,她是如何做出這樣的判斷的,小悶說律師的面部表情看上去很奇怪,不像一名提供專業(yè)服務(wù)的人,這顯然不是機(jī)器學(xué)習(xí)算法所能實(shí)現(xiàn)的。
今天的內(nèi)容或許能給小悶對(duì)外界的敏感提供解釋:她是一名文科生,而且很喜歡看電影。
最后,與你分享一個(gè)關(guān)于文科生的好消息。薪酬調(diào)研公司PayScale曾做過一項(xiàng)調(diào)查,在薪酬排名前20的畢業(yè)生專業(yè)中,計(jì)算機(jī)工程、化學(xué)工程這樣的理工類專業(yè)長期占榜,而社會(huì)學(xué)、歷史學(xué)這樣的人文學(xué)科則十分罕見。
這聽上去符合我們的直覺,但如果我們觀察那些收入排在前10%的人,具有政治科學(xué)、哲學(xué)、戲劇、歷史背景的專業(yè)人士則會(huì)脫穎而出,寶潔前CEO雷富禮曾對(duì)實(shí)現(xiàn)商業(yè)成功單單提出一條建議:取得一個(gè)文科(或稱“自由技藝”)學(xué)位(pursue a degree in liberal arts)。
這樣的建議無疑是有道理的,畢竟,真實(shí)的世界不是電子表格。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10