
對于企業(yè)大數據到底如何用
一、企業(yè)大數據如何起步:從小數據到大數據
目前國內外關于大數據的談論很多,大多是談運營級別的,或者說從服務端、服務方提得較多一些。筆者要跟大家交流的問題是作為各類企業(yè)尤其是客戶方的企業(yè)來說,大數據跟他們有什么關系,或者說作為企業(yè)方怎樣去參與,這是企業(yè)方現在面臨的最大問題。
這個問題的答案重點在于大數據應該從小數據開始。因為現在很多企業(yè)面臨的最大問題不是怎么用大數據,而是內部的一些小數據整合出現問題,或者小數據都沒用好的情況下怎么用大數據。大數據應該是從小數據逐漸演變上去的,是一個正常的生態(tài),而不是瞬間變化的。大數據這個概念跟自媒體的概念類似,需要企業(yè)自己去建設,而不是從一開始就想著依靠別人。很多企業(yè)在談自媒體的時候,像談別人的事情一樣。比如一談自媒體,就覺得那是第三方提供的一個平臺,大家在那兒發(fā)發(fā)牢騷。自媒體是自己的媒體,企業(yè)自己也要參與進去。同樣大數據不是別人的大數據,我們假設有一個第三方提供了大量的數據,有很多很多信息,CI、BI之類的很多模塊化東西供我們來用。如果這樣的話,你有,競爭對手也有,你能得到的東西,競爭對手也能得到的情況下,就不能稱之為核心競爭力。大數據作為企業(yè)來說要變成自身的一個競爭力,企業(yè)必須得建立自己的企業(yè)級的數據。
要做大數據,首先要了解自己的企業(yè),或者自己所在的行業(yè)的核心是什么。我們現在經常發(fā)現,有很多企業(yè)在競爭的過程中,最終不是被現在的競爭對手打敗,而是被很多不是你的競爭對手所打敗。很簡單的一個例子,大家都認為亞馬遜是做電商的,但這是錯的,它現在最主要的收入來自于云(云服務)。也就是說企業(yè)需要找到自己的核心數據(價值),這個是最關鍵的。只有在這個基礎上,建立自己的大數據才有可能,才能做一些延伸。其次,要找到內部的一些外圍相關數據,去慢慢地成長它。有點像滾雪球,第一層是核心,第二層是外圍相關的數據。第三層是什么?就是外部機構的一些結構化數據。第四層是社會化的,以及各種現在所謂的非結構化的數據。這幾層要一層一層地找到它,而且要找到與自己相關的有價值的東西。這樣你的大數據才能建立起來。
第一步,找到核心數據。核心數據現在對很多企業(yè)來說實際上就是CRM,自己的用戶系統,這是最重要的。第二步,外圍數據。比如企業(yè)經常會在線上線下舉辦一些活動,在做活動的時候,消費者的信息只是簡單地提供在表單里面,還是進入了CRM的系統里?第三步,常規(guī)渠道的數據。舉例來說一個銷售快銷品的企業(yè),能不能夠得到沃爾瑪的數據,家樂福的數據?很多國外大數據的案例,說消費者買啤酒的時候也會購買剃須刀之類,或者一個母嬰產品的消費者她今天在買這個產品,預示著她后面必然會買另一個產品。這就有一個前期的挖掘。這些價值怎么來的,這就需要企業(yè)去找常規(guī)渠道里面的數據,跟自己的CRM結合起來,才能為自己下一步做市場營銷、做推廣、產品創(chuàng)新等建立基礎。
第四步,外部的社會化的或者非結構化的數據,即現在所謂的社會化媒體數據。這方面信息的主要特征是非結構化,而且非常龐大。這對企業(yè)來說最大的價值是什么?當你的用戶在社會化媒體上發(fā)言的時候,你有沒有跟他建立聯系?這里有個概念叫做DC(digital connection)。所謂的互聯網實際就是一種DC,但是通?;ヂ摼W上的那種DC是在娛樂層面。用到商業(yè)里面的話,就是企業(yè)必須得跟消費者建立這種DC關系,它的價值才能發(fā)揮出來。否則,你的數據以及很多的CRM數據都是死的。就像國外CRM之父Paul Greenberg寫的四本CRM相關書籍,前面三本都是在講數據庫、系統之類的。第四本書的時候,就沒有再講那些東西,講什么?講互動,講DC,講怎么跟消費者建立關系。
有了這個數據庫去進行數據挖掘,或者在建立數據的過程中,企業(yè)需要從什么方向去探索,也不是漫無目的的。首先應該跟著你的業(yè)務,業(yè)務現在有哪些問題,或者說這個行業(yè)里面主要的競爭點在哪里,這是很關鍵的。有了這個業(yè)務關系以后,再形成假設,也就是說未來的競爭點可能在哪里,大到未來的戰(zhàn)略競爭,小到哪些方面。然后下一步要怎么做,這些形成一個假設,其次做一些小樣本的測試。很多企業(yè)一看大數據就很恐怖,說我也買不起那些大數據,也雇不起那么專業(yè)的團隊,怎么辦?自己做一些小樣本的測試,甚至通過電子表格Excel都可以做數據挖掘。不一定非要那么龐大、那么貴的數據。然后再做大樣本的驗證,驗證出來的結果就可以應用到現實中去。
在大數據尤其是互聯網時代還有一個最重要的點,就是失效預警。即你發(fā)現一個規(guī)律,在現實中應用了,但是你一定要設立一些預警指標。就是當指標達到什么程度的時候,之前發(fā)現的規(guī)律失效,那你就必須發(fā)現新的、相關的,否則也會造成一種浪費。筆者看到一篇文章,其中有一個重要結論。大家都在說大數據的價值很有用的時候,很多企業(yè)說我積累了多少TB,多少PB,但是你基于老的數據得出的很多結論實際是在浪費你的資源。你挖掘出來很多數據、很多規(guī)律,如果錯了,明天按這個去做,就是浪費。因此需要有一個失效預警。在這樣的過程中,最終你需要對應建立起內部團隊,他們對數據的敏感度也才能培養(yǎng)起來。這時候你再去買大數據服務的時候才是有價值的。
所有這些工作作為企業(yè)來說是需要內部去做的,最終才能開花結果,有一些收獲。企業(yè)大數據起步,要從小數據開始。
二、決策科學及大數據在金融行業(yè)的應用
今天我想和大家聊的題目有關金融、決策科學(Decision Science)和大數據,這就是我在美國多年的工作領域,不僅是我的初戀,而且還嫁的無怨無悔(哈哈),今天在各位專家面前班門弄斧了,希望大家多多指教,想和大家討論以下幾個話題:(1)決策科學是什么、為什么重要、給我們的啟示(2)如何理解并踏實地真正理解大數據(3)大數據在金融行業(yè)應用方面的案例分享
(1)決策科學:先說說決策科學吧,就是Decision Science,在美國大公司工作的朋友們對此應該都不陌生。顧名思義,它就是運用科學的理論和方法做決策,而非主觀意識、完全憑經驗。
聽上去很簡單,但是內容很多,在美國,它是高校單獨的一個科目、一個系,它被稱為跨學科專業(yè)(transdisciplinary major),學生要學習一些統計、數學、工程、計算機語言等,同時又要學習管理、經濟、行為學、甚至心理學。MIT、Carnegie Mellon University、George Washington University等都有決策科學專業(yè),Harvard、Stanford有決策科學實驗室,歐美國家都有自己的決策科學學會或機構。
在大學的網站上,想吸引生源的決策科學部門會問“Do you want to be a leader?”,就好像說想當領導者,一定要學決策科學,因為這是時代趨勢,的確,在一年一度的美國國家大學協會和雇主工薪調查中,決策科學榮登了去年8大最高工薪的非傳統高校專業(yè)排行榜。這個專業(yè)成為傳統的工商管理和工程學的橋梁,滿足了市場對綜合能力、決策能力的需求。
人們渴望通過決策科學實現的是,在尊重經驗、感知的前提下,把Science引薦到人文、社會、政治、商務、決策等領域,并讓之可行可靠,推動決策的科學性、準確性、有效性、時效性等,最終的目的,是減少決策的風險,制定出好的、能創(chuàng)造巨大價值的決策。如同Computer Science一樣,國外的Decision Science已經有了很長的歷史,并且走人了各行各業(yè)。
美國一流金融公司決策科學的大規(guī)模開始,大約在1985年左右吧,從累加的邏輯規(guī)則飛躍到單一評估、模型的使用,再飛躍到貫通的、多元行為的分析,發(fā)展之迅猛令人感嘆。今天,一流公司在做優(yōu)化,各種優(yōu)化軟件、系統層出不窮,比如風險定價、offer設置,可以因人而異,公司的網頁信息,可以根據登入信息不同而有不同呈現等等。在中國我的觀察是各大公司也越來越注重數據分析、用科學方法判斷風險、創(chuàng)造收益了。這與我十幾年前離開中國的時候有了很大進
(2)大數據時代
不管我們是否已經準備好了,大數據時代已經到來了。最近大數據非常時髦,大家都在談它,有人說:大數據到底是什么呢,它代表著一個時代,就是一個數據量已經到了大小超過了現有典型的數據庫軟件和工具的處理能力,而必須使用在數十、數百甚至數千臺服務器上同時平行運行的軟件來處理。
摩根大通近一兩年已經調整了IT部門的組織架構,并投資進行系統更新。摩根大通使用的決策科學工具非常多,比如數據庫解決方案用的是被譽為“商業(yè)并行處理的領導者”的Teradata系統,傳統的數據分析平臺是SAS,還有用戶界面用Tableau,Cognos以及Qlikview等等。這些平臺工具,使得數據分析、決策科學大放光彩。
然而求索的腳步是不會停歇的,在已經很前沿的基礎上,國外一流公司進而在研究非傳統性數據的采集、讀取、錄入,比如社交媒體數據、網絡日志、語音視頻數據等等,新時代的大數據平臺要能夠完美接受非結構化數據、使之可用,并實現數據實時性。比如現在機構都有了微信,大家在微信或facebook里討論了一款產品,分析人員要去讀取、輸錄、之后分析。未來這些信息可直接推送出結論,比如某產品差評過多,某產品引來市場熱議等。
國內目前即使是很好的金融機構,可能不少還停留在有了數據庫和存儲數據能力,但是數據使用不多,工具不多,普及也不廣的狀態(tài)。同時我們每天又在各種新聞中體會著無比絢麗、神奇的未來,也有著時不待人的急迫感。所以我個人認為,當前,我們要心懷偉岸的夢想,腳踏實地的先做好最基礎的工作,比如搭建數據分析平臺,建立決策科學環(huán)境,利用現有數據,增加決策科學思維,“為飛奔的汽車換輪胎”,不斷努力,不斷進取。
我就帶著這樣的心懷夢想、腳踏實地的心態(tài),回了家,今天能在早餐會上和這么多專家、精英們相識,特別榮幸,先感謝大家的支持、幫助、鼓勵,希望和大家一起努力,踏實做些事情。
(3)大數據及決策科學在金融行業(yè)的應用和有四、五十年歷史的美國知名的卡組織Visa、Mastercard一樣,銀聯是中國的卡組織。在短短的十二年里,銀聯已經成為世界第二大的卡組織,40億張卡片,400家發(fā)卡機構,140多個國家,1400多萬商戶,年交易100億條以上,已經成為中國知名品牌,在世界上有著越來越大的影響力。這是寶貴的財富,尤其是我們自己的卡組織的寶貴財富。
銀聯的大數據,如果有效開發(fā)利用,可以帶給中國政府、企業(yè)、銀行、機構、商戶等很大價值。比如Visa和Mastercard,他們利用美國市場的交易數據,做出各種零售消費分析,做類似美國政府的消費者信心指數,幫助沒有實力搭建高端決策科學平臺的小企業(yè)主做精準營銷,極大的減少營銷成本。
他們的防欺詐模型,通過對每一筆、每一次交易的行為、規(guī)律、時間、地點、用途、金額等多維度的規(guī)律的判斷,來評估欺詐的風險。如果風險傾向高,那么防欺詐部門立刻行動,凍結這筆交易,電話客戶驗證客戶身份。全程1-3分鐘,通過驗證則交易通過,否則交易失敗。大數據良好的應用,最終使公司、消費者都受益。
我現在任職的公司,銀聯智策,是銀聯旗下的子公司,成立于2012年底,總部在上海浦東,是一家金融大數據咨詢公司。大數據時代下的決策科學,需要符合三方面的條件,即以海量數據為支撐,有先進的數據分析平臺為依托,有前沿的決策科學方法、技術力量和實戰(zhàn)經驗為核心。就好比做頓飯需要米、鍋和巧媳婦!三者具備就可以轉換數據為準確、快速、高效的可執(zhí)行策略,轉化大數據時代下的市場不確定性為可確定性,從而幫助客戶實現客戶管理的差異化,產品的創(chuàng)新化、渠道的多樣化及服務的高效和人性化。我很高興我的公司是具備這些能力的。
最近一個銀行信用卡額度提升項目,成為該銀行歷史上第一次應用風險模型、消費量預測模型,并完美剔除了套現行為的突破,也是該行歷史上第一次通過多元測試跟蹤到準確活動效果,展示了交易額提升30%,盈利千萬元的好項目。請允許我舉最后一個決策科學應用實例,就是貸款的風險管理。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數據生態(tài)中兩類核心工具的差異與協同 在數字化轉型加速的今天,企業(yè)對數據的需求已從 “存儲” 轉向 “ ...
2025-09-19CDA 數據分析師:讓統計基本概念成為業(yè)務決策的底層邏輯 統計基本概念是商業(yè)數據分析的 “基礎語言”—— 從描述數據分布的 “均 ...
2025-09-19CDA 數據分析師:表結構數據 “獲取 - 加工 - 使用” 全流程的賦能者 表結構數據(如數據庫表、Excel 表、CSV 文件)是企業(yè)數字 ...
2025-09-19SQL Server 中 CONVERT 函數的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數據處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數據庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數據分析師:解鎖表結構數據特征價值的專業(yè)核心 表結構數據(以 “行 - 列” 規(guī)范存儲的結構化數據,如數據庫表、Excel 表、 ...
2025-09-17Excel 導入數據含缺失值?詳解 dropna 函數的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數據分析與統計學領域,假設檢驗是驗證研究假設、判斷數據差異是否 “ ...
2025-09-16CDA 數據分析師:掌控表格結構數據全功能周期的專業(yè)操盤手 表格結構數據(以 “行 - 列” 存儲的結構化數據,如 Excel 表、數據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數據分析師:激活表格結構數據價值的核心操盤手 表格結構數據(如 Excel 表格、數據庫表)是企業(yè)最基礎、最核心的數據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數據的科學計數法問題 為幫助 Python 數據從業(yè)者解決pd.read_csv讀取長浮點數據時的科學計數法問題 ...
2025-09-12CDA 數據分析師:業(yè)務數據分析步驟的落地者與價值優(yōu)化者 業(yè)務數據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數據把關的實戰(zhàn)指南 在業(yè)務系統落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11