
美國進入“非結(jié)構(gòu)化”數(shù)據(jù)分析新時代
目前,對國內(nèi)大部分企業(yè)級客戶而言,大數(shù)據(jù)時代已經(jīng)真正到來了。
雖然,近年來“大數(shù)據(jù)”及“數(shù)據(jù)分析”概念被炒得很火,但國內(nèi),國內(nèi)很多CIO/CTO們?nèi)院堋昂ε聰?shù)據(jù)”——一方面,企業(yè)充斥著無從分析的非結(jié)構(gòu)化數(shù)據(jù);另一方面,結(jié)構(gòu)化數(shù)據(jù)分析方面,與非結(jié)構(gòu)一樣面臨著方法不科學、周期冗長、性價比低、不能直接產(chǎn)生經(jīng)濟效益等典型的問題。國內(nèi)大數(shù)據(jù)分析越來越陷入到一種不得要領(lǐng)、頗為雞肋的僵局。
而反觀大洋彼岸的美國,新技術(shù)正推動著美國數(shù)據(jù)分析產(chǎn)業(yè)進入到一個新的階段——目前美國很多企業(yè)客戶不僅開始分析非結(jié)構(gòu)化數(shù)據(jù),并通過引入“實時分析”、“數(shù)據(jù)驅(qū)動”(Data-driven)、“人機互動”等最新的數(shù)據(jù)分析理念,實現(xiàn)了企業(yè)數(shù)據(jù)分析與經(jīng)濟效益的有效聯(lián)動。
每一次產(chǎn)業(yè)升級都會孕育出多個獨角獸公司,而此次推動數(shù)據(jù)分析產(chǎn)業(yè)變革的正是以Taste Analytics為代表的從美國頂尖級數(shù)據(jù)可視化中心走出來的數(shù)據(jù)科學家們。
“這是一場不可思議的革命,你很難想象企業(yè)非結(jié)構(gòu)化數(shù)據(jù)中蘊含的寶藏,我們在啟用Taste平臺的第一天就發(fā)現(xiàn)了一年以來客戶郵件一直在抱怨的一個紕漏,從而及時挽回了品牌聲譽?!泵绹持译姀S商CIO告訴我。
國內(nèi)數(shù)據(jù)分析“七宗罪”
每一個做過調(diào)研的人,都會驚訝于中美兩國在大數(shù)據(jù)分析理念和客戶心態(tài)上的巨大差別。
“企業(yè)數(shù)據(jù)分析,中美在理念方面相差2-3年,而在實際執(zhí)行層面或許有5年左右的差距?!泵绹鴶?shù)據(jù)分析科學家、Taste Analytics創(chuàng)始人及全美五大可視化研究中心的Derek Wang(汪曉宇)博士表示。
目前,國內(nèi)的企業(yè)級客戶在進行大數(shù)據(jù)分析時,仍以分析結(jié)構(gòu)化數(shù)據(jù)為主,而對于內(nèi)涵豐富的非結(jié)構(gòu)化數(shù)據(jù),市面上并沒有有效的工具進行分析。
同時,在進行結(jié)構(gòu)化數(shù)據(jù)分析時,仍采用了“招標+外包”的傳統(tǒng)模式,即需要大數(shù)據(jù)分析服務(wù)的企業(yè)按照歷史經(jīng)驗首先建立自己的數(shù)據(jù)分析KPI(關(guān)鍵績效指標),然后將整個數(shù)據(jù)分析任務(wù)外包給第三方大數(shù)據(jù)公司,經(jīng)過數(shù)月的時間后,大數(shù)據(jù)公司將數(shù)據(jù)分析的結(jié)果返還給甲方企業(yè)。
Derek Wang博士表示,這種數(shù)據(jù)分析的模式,會產(chǎn)生以下幾方面的問題,這些問題也正是目前國內(nèi)的CIO/CTO們頗為頭痛的問題。
首先,錯過了內(nèi)涵豐富的非結(jié)構(gòu)化數(shù)據(jù)。相比結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)對企業(yè)同樣重要,而目前,國內(nèi)企業(yè)在進行非結(jié)構(gòu)化數(shù)據(jù)分析方面仍在初始階段。
第二,KPI非數(shù)據(jù)驅(qū)動生成,缺乏科學性。國內(nèi)大數(shù)據(jù)KPI的制定常常以人為經(jīng)驗為準,而不是由數(shù)據(jù)驅(qū)動并且實時生成的,這就有可能造成KPI常年不變,并且缺乏科學性。
第三,數(shù)據(jù)分析過程冗長。國內(nèi)企業(yè)在進行大數(shù)據(jù)分析時采用“招標-乙方返還數(shù)據(jù)分析結(jié)果”的方式,整個周期少則也需要1-2個月的時間,往往返還回結(jié)果時,企業(yè)內(nèi)部的相關(guān)數(shù)據(jù)已經(jīng)完全改變了。
第四,浪費了企業(yè)內(nèi)部的分析師資源。采用外包的方式,其實完全浪費了企業(yè)內(nèi)部的分析師資源,從經(jīng)濟效益上很不劃算。
第五,數(shù)據(jù)安全性無法保障。外包的另一個問題就是數(shù)據(jù)的安全性問題,企業(yè)想確保數(shù)據(jù)以安全的方式交予第三方大數(shù)據(jù)公司,往往需要耗費額外的時間和經(jīng)濟成本。
第六,數(shù)據(jù)分析結(jié)果不能與企業(yè)經(jīng)濟效益直接掛鉤。國內(nèi)企業(yè)在進行數(shù)據(jù)分析時,不僅往往需要數(shù)月的時間,而且常常為了分析而分析,分析完之后并不能很好地將分析結(jié)果運用到企業(yè)經(jīng)濟效益的改善上。
第七,第三方大數(shù)據(jù)公司分析能力有限。企業(yè)看似將數(shù)據(jù)分析的重任交予了第三方公司,但第三方公司由于缺乏動態(tài)、數(shù)據(jù)驅(qū)動的數(shù)據(jù)分析工具,它其實也是在按照經(jīng)驗制定KPI和進行數(shù)據(jù)分析,這樣分析出的結(jié)果難言科學有效。
對此,業(yè)內(nèi)受訪專家表示,目前國內(nèi)企業(yè)陷入的數(shù)據(jù)分析困局,一部分是理念問題,而更多的是技術(shù)的制約以及工具的缺乏?!氨热鐚τ诜墙Y(jié)構(gòu)化數(shù)據(jù),其實每個企業(yè)都是非??释治?,并且希望實時分析的,但目前仍苦于在公開市場上沒有好用的分析平臺?!?/span>
新技術(shù)推動形成數(shù)據(jù)分析新理念
事實上,中國企業(yè)遇到的問題,美國企業(yè)客戶也曾經(jīng)經(jīng)歷過。美國某著名家電廠商相關(guān)受訪人士告訴認為,自己也經(jīng)歷過對非結(jié)構(gòu)化數(shù)據(jù)頭大、不能實時科學地分析企業(yè)內(nèi)部數(shù)據(jù)等問題。
但今年以來,隨著美國在非結(jié)構(gòu)化語義分析以及人機互動的圖像可視化等技術(shù)領(lǐng)域取得關(guān)鍵性突破,尤其伴隨著全美五大圖像可視化中心之一的北卡羅來納大學(UNC)夏洛特圖像可視化中心的科學家們從學術(shù)界走到工業(yè)界,推出了實時動態(tài)的、結(jié)果易讀的綜合智能數(shù)據(jù)分析平臺The Taste Signals Platform,對美國的企業(yè)級用戶而言,不論是非結(jié)構(gòu)化數(shù)據(jù),還是實時數(shù)據(jù)分析——以往常見的數(shù)據(jù)分析難點都被一一攻克了。
“從學術(shù)研究成果到工業(yè)界,科技再次顯示出了它強大的生產(chǎn)力,”美國某著名家電廠商相關(guān)受訪人士表示,“我們以前不知道怎么處理像雪片一樣涌來的客戶郵件,有了Taste的新平臺和技術(shù),我們內(nèi)部的分析師第一天就發(fā)現(xiàn)了,一年以來客戶一直在郵件中抱怨我們一個產(chǎn)品實際的序列號位數(shù)與網(wǎng)站注冊位數(shù)嚴重不匹配。這是一個我們常規(guī)思維中所預想不到的嚴重的產(chǎn)品問題,但在沒有非結(jié)構(gòu)化數(shù)據(jù)分析工具之前,我們完全無從發(fā)現(xiàn)這樣的問題?!?/span>
不僅上述家電廠商,全美某著名銀行IT部門的受訪人士也表示,按照經(jīng)驗,他們的管理層曾經(jīng)想花重金建立銀行的某項支付功能,但通過對十幾萬條客戶網(wǎng)絡(luò)聊天信息進行非結(jié)構(gòu)化數(shù)據(jù)的分析,他們發(fā)現(xiàn)僅有100多條客戶談及該支付功能,“數(shù)據(jù)驅(qū)動的分析讓我們學會相信數(shù)據(jù)而不是跟隨潮流,我們最終愉快地決定暫緩該功能的開發(fā)——非結(jié)構(gòu)化數(shù)據(jù)分析讓我們優(yōu)化了我們的產(chǎn)品結(jié)構(gòu),更加有效的利用了我們的資金,實現(xiàn)了對于我們主營業(yè)務(wù)的提升”。
可以看到,目前在美國,很多主流的企業(yè)已經(jīng)進入到了以非結(jié)構(gòu)化數(shù)據(jù)分析以及數(shù)據(jù)驅(qū)動、實時分析、人機互動、結(jié)果易讀等為特點的數(shù)據(jù)分析的新紀元。據(jù)了解,在The Taste Signals Platform等強大數(shù)據(jù)分析平臺支持下,相比國內(nèi)客戶,目前美國客戶已經(jīng)形成了在數(shù)據(jù)分析方面的新理念。
首先,信任數(shù)據(jù)而不是經(jīng)驗。國內(nèi)客戶在制定數(shù)據(jù)分析KPI時,更多地依靠既往的經(jīng)驗,而美國客戶則更多地相信通過機器學習的數(shù)據(jù)平臺工具得出的數(shù)據(jù)挖掘的結(jié)果,即使這些結(jié)果有可能背離傳統(tǒng)的經(jīng)驗(上述美國某銀行就是一個很好的例子)。
其次,數(shù)據(jù)分析重要的不是工具本身,而是通過工具提升內(nèi)部分析師的生產(chǎn)力。在美國客戶眼中,數(shù)據(jù)分析更重要的在于充分調(diào)動起企業(yè)內(nèi)部分析師的能動性,對他們而言,數(shù)據(jù)分析不是一個外包或者被動等結(jié)果的過程,而是一個利用更先進的數(shù)據(jù)分析平臺工具提升內(nèi)部人員生產(chǎn)力以及實時的人機互動的過程。
再次,非機構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)同樣重要。美國客戶不僅希望看到“樹木”,更希望看到“森林”,這就意味著他們不僅希望實時分析結(jié)構(gòu)化數(shù)據(jù),也希望分析非結(jié)構(gòu)化的數(shù)據(jù),并且對于每一個科學分析出的關(guān)鍵指標,他們都會分別建立輿情模型,再進行更加細化的數(shù)據(jù)分析。 這是一個循序漸進的過程。
第四,將數(shù)據(jù)分析與經(jīng)濟效益直接掛鉤。美國客戶更希望將數(shù)據(jù)分析的結(jié)果用于改善經(jīng)濟效益,比如美國某銀行就通過數(shù)據(jù)分析節(jié)省了幾千萬的某支付功能的開發(fā)成本;而上述家電廠商也通過數(shù)據(jù)分析提升了用戶滿意度以及品牌形象。
年末重新定義國內(nèi)“數(shù)據(jù)分析平臺”
正如蘋果定義了智能手機,將手機產(chǎn)業(yè)帶入一個新的時代,每一次技術(shù)變革的背后往往都會孕育出優(yōu)秀的甚至獨角獸公司。而在此次美國的數(shù)據(jù)分析產(chǎn)業(yè)升級換代中,由美國夏洛特圖像可視化中心的幾個年輕的科學家成立的Taste Analytics就扮演了這樣的角色。
在采訪中發(fā)現(xiàn),雖然其新型數(shù)據(jù)分析平臺產(chǎn)品The Taste Signals Platform上市僅6個月,但已經(jīng)引起了工業(yè)界的強烈震動,目前已有6家福布斯全球500強公司以及多家美國主流企業(yè)都采用了Taste的新型非結(jié)構(gòu)化數(shù)據(jù)分析平臺,“目前我們的銷售額在以400%的速度增長”。
那么, 這究竟是怎樣的一套新型智能數(shù)據(jù)分析平臺呢?
The Taste Signals Platform是一套可用于每一個企業(yè)日常經(jīng)營的實時的智能數(shù)據(jù)分析平臺,其最獨特的地方在于強大的非結(jié)構(gòu)化數(shù)據(jù)的分析能力,目前其不僅可以分析傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),也可以分析包括中文在內(nèi)的12種文字、語音等非結(jié)構(gòu)化數(shù)據(jù)。
“我們可以分析各種非結(jié)構(gòu)數(shù)據(jù),其中既包括企業(yè)內(nèi)部郵件、客戶聊天記錄、電話中心數(shù)據(jù)等一手的非機構(gòu)化數(shù)據(jù),也包括企業(yè)在電商上的二手數(shù)據(jù),以及社交網(wǎng)絡(luò)、新聞、博客等第三方數(shù)據(jù)?!盩aste Analytics創(chuàng)始人Derek Wang博士表示。
同時,在對數(shù)據(jù)、文字以及語音進行分析時,The Taste Signals Platform也定義了“人機互動”、“實時分析”、“數(shù)據(jù)驅(qū)動”、“結(jié)果易讀”等新型數(shù)據(jù)分析平臺的典型特征。
“傳統(tǒng)的數(shù)據(jù)分析更像是一個被動的等結(jié)果的過程,而新一代的數(shù)據(jù)分析更講究企業(yè)內(nèi)部分析師與機器的互動,我們將數(shù)據(jù)分析的過程分為三大步,第一步是數(shù)據(jù)驅(qū)動的語義分析,客戶將成百上千萬條數(shù)據(jù)導入系統(tǒng)中,系統(tǒng)會快速分析出機器學習到的各種結(jié)果信息和圖表;第二步,客戶通過我們簡潔易讀的圖像可視化的界面,根據(jù)自身需求觀察、解讀和分析機器學習出來的結(jié)果;第三步是根據(jù)第二步的結(jié)果,客戶可以利用Taste的系統(tǒng)建立自己的輿情分析模型,而從再次將該模型代入到分析平臺中形成新的數(shù)據(jù)監(jiān)控流。”Derek Wang博士如是說,“可以看到整個數(shù)據(jù)分析的過程形成了一個實時的正向的循環(huán)?!?/span>
目前,Taste Analytics的愿景是“用數(shù)據(jù)帶動生產(chǎn)力”以及“將每個人都變?yōu)閿?shù)據(jù)科學家”。據(jù)悉,今年年末到明年年初,Taste Analytics也將有計劃進入中國市場,其目前還在進行市場調(diào)研以及產(chǎn)品本土化的準備工作。
“中國的廣大企業(yè)級客戶也很需要我們的技術(shù),我們不僅會對產(chǎn)品進行本土化的改良,而且也會讓公司‘入鄉(xiāng)隨俗’。未來我們將以全新的姿態(tài)進入中國市場?!?/span>
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10