
大數(shù)據(jù)時(shí)代你一定要知道的九件事
大數(shù)據(jù)已經(jīng)成為時(shí)尚詞匯,理解混亂是必然的。對(duì)此的九個(gè)思考,沒(méi)有邏輯、沒(méi)有體系性,純粹是片段式的,目的是提出問(wèn)題,思考中。心中無(wú)“大師”,一切從現(xiàn)象入手,竊以為“大師”一詞僅僅適合于鬼神靈,不適合人。
此思考希冀引起思想碰撞,各種觀點(diǎn),無(wú)論是鼓勵(lì)、批評(píng),甚至攻擊,只要發(fā)自內(nèi)心,都能夠促進(jìn)思索。感謝!結(jié)合大家的批評(píng)與建議,對(duì)一些集中問(wèn)題點(diǎn)進(jìn)行一些思考后的再補(bǔ)充。
大數(shù)據(jù)思考之一
任何一個(gè)網(wǎng)站的數(shù)據(jù)都是人們互聯(lián)網(wǎng)行為數(shù)據(jù)的很小的一個(gè)子集,無(wú)論這個(gè)子集多么全面,分析多么深入,都是子集,不是全集。對(duì)于企業(yè)來(lái)講,競(jìng)爭(zhēng)對(duì)手的數(shù)據(jù)價(jià)值遠(yuǎn)遠(yuǎn)超過(guò)自己網(wǎng)站數(shù)據(jù)的價(jià)值,從量級(jí)上,對(duì)于所有公司都一樣,自己擁有的數(shù)據(jù)遠(yuǎn)遠(yuǎn)小于全集數(shù)據(jù)??雌饋?lái)的全數(shù)據(jù)恰恰是殘缺數(shù)據(jù)。
補(bǔ)充
一些朋友對(duì)“競(jìng)爭(zhēng)對(duì)手的數(shù)據(jù)價(jià)值遠(yuǎn)遠(yuǎn)超過(guò)自己網(wǎng)站數(shù)據(jù)的價(jià)值”的判斷是錯(cuò)誤的,我虛心接受,知己知彼很重要,實(shí)際的意義是“企業(yè)的生存關(guān)鍵不在于自己如何,而在于競(jìng)爭(zhēng)對(duì)手如何,自己的事情必須做好”。在此前提下,競(jìng)爭(zhēng)對(duì)手的數(shù)據(jù)價(jià)值遠(yuǎn)遠(yuǎn)超過(guò)自己網(wǎng)站數(shù)據(jù)的價(jià)值”。
大數(shù)據(jù)思考之二
數(shù)據(jù)量的大幅增加會(huì)造成結(jié)果的不準(zhǔn)確,來(lái)源不同的信息混雜會(huì)加大數(shù)據(jù)的混亂程度。研究發(fā)現(xiàn):巨量數(shù)據(jù)集和細(xì)顆粒度的測(cè)量會(huì)導(dǎo)致出現(xiàn)“錯(cuò)誤發(fā)現(xiàn)”的風(fēng)險(xiǎn)增加。那種認(rèn)為“假設(shè)、檢驗(yàn)、驗(yàn)證的科學(xué)方法已經(jīng)過(guò)時(shí)”的論調(diào),正是大數(shù)據(jù)時(shí)代的混亂與迷茫,人們索性擁抱凱文凱利所稱的混亂。
補(bǔ)充
舍恩伯格在《大數(shù)據(jù)時(shí)代》一書(shū)中的提出的被廣泛接納的:大數(shù)據(jù)“沒(méi)有精確只有混雜,沒(méi)有因果只有相關(guān)”觀點(diǎn)是錯(cuò)誤的?;祀s需要梳理成合理才有分析價(jià)值,無(wú)論是牛頓、愛(ài)因斯坦,還是韋伯的理想類(lèi)型都是在混雜中找尋分析方法,相關(guān)很多時(shí)候是沒(méi)有找到因果之前的認(rèn)識(shí),因果與過(guò)程理解是研究的核心。
大數(shù)據(jù)思考之三
互聯(lián)網(wǎng)用戶的基本特征、消費(fèi)行為、上網(wǎng)行為、渠道偏好、行為喜好、生活軌跡與位置等,反映用戶的基本行為規(guī)律。體系完整是所有分析性工作的第一步,完整的框架甚至勝過(guò)高深的模型。人類(lèi)的認(rèn)識(shí)最大的危險(xiǎn)是不顧后果的運(yùn)用局部知識(shí)。如果只關(guān)心自己網(wǎng)站數(shù)據(jù),其分析基礎(chǔ)必然是斷裂數(shù)據(jù)。
補(bǔ)充
斷裂數(shù)據(jù)的危害會(huì)在競(jìng)爭(zhēng)激烈時(shí)日益凸顯,很多互聯(lián)網(wǎng)企業(yè)以CRM管理系統(tǒng)當(dāng)成數(shù)據(jù)挖掘與數(shù)據(jù)分析系統(tǒng),觀念是錯(cuò)誤的,CRM的目的是規(guī)范性報(bào)表,數(shù)據(jù)分析與數(shù)據(jù)挖掘的目的是探索性歸納。
大數(shù)據(jù)思考之四
現(xiàn)在談到大數(shù)據(jù),基本有四個(gè)混亂觀念:第一,大數(shù)據(jù)是全數(shù)據(jù),忽視甚至蔑視抽樣;第二,連續(xù)數(shù)據(jù)就是大數(shù)據(jù);第三,數(shù)據(jù)量級(jí)大是大數(shù)據(jù);第四,數(shù)據(jù)量大好于量小。對(duì)應(yīng)的是:抽樣數(shù)據(jù)只要抽樣合理,結(jié)論準(zhǔn)確;連續(xù)只是一個(gè)數(shù)據(jù)結(jié)構(gòu);大量級(jí)的噪音會(huì)得出錯(cuò)誤結(jié)論;大小與價(jià)值關(guān)系不大。
補(bǔ)充
現(xiàn)實(shí)互聯(lián)網(wǎng)領(lǐng)域被基本關(guān)于大數(shù)據(jù)的書(shū)籍所累,觀念十分混亂,實(shí)際上,人類(lèi)積累的數(shù)據(jù)經(jīng)驗(yàn)是一切分析的基礎(chǔ),包括所謂的海量數(shù)據(jù),那幾本書(shū)的方法論橫空出世,同時(shí)又沒(méi)有落地、沒(méi)有實(shí)際操作經(jīng)驗(yàn)積累,誤導(dǎo)性太強(qiáng)。
大數(shù)據(jù)思考之五
大數(shù)據(jù)不是新事物,天氣、地震、量子物理、基因、醫(yī)學(xué)等都是,借鑒他們的方法有益。他們用抽樣調(diào)查。互聯(lián)網(wǎng)數(shù)據(jù)挖掘方法論也如此,不同的是更難,因?yàn)槿说膹?fù)雜性。既然是關(guān)于人的研究就需應(yīng)用所有研究人的方法梳理大數(shù)據(jù)。只要懂編程、懂調(diào)動(dòng)數(shù)據(jù)的人就可以做大數(shù)據(jù)挖掘的說(shuō)法是謬誤。
補(bǔ)充
大數(shù)據(jù)不是新的,只是出現(xiàn)了新的收集資料的快捷方法,所有關(guān)于人的研究方式與分析方法應(yīng)用于大數(shù)據(jù)是數(shù)據(jù)挖掘的核心,調(diào)動(dòng)數(shù)據(jù)的能力僅僅是技術(shù)部分,關(guān)系類(lèi)似導(dǎo)演與剪輯。
大數(shù)據(jù)思考之六
大數(shù)據(jù)分析中分析構(gòu)架為第一要著,算法也極為關(guān)鍵,在最近的大數(shù)據(jù)處理中發(fā)現(xiàn):解析網(wǎng)址后的分類(lèi)是是一個(gè)難點(diǎn),主要有幾個(gè)方面,一個(gè)千萬(wàn)人的網(wǎng)絡(luò)行為數(shù)據(jù)一天產(chǎn)生的域名大約50000個(gè),雖然有一些算法,但是混淆、難以辨認(rèn),連續(xù)更新與判別是分析中的重要步驟,簡(jiǎn)單分易,精細(xì)分難。
補(bǔ)充
算法依賴于數(shù)據(jù)的構(gòu)架,而算法需要真正理解人的行為。
大數(shù)據(jù)思考之七
算法中,只要包含文本,就必然有兩個(gè)關(guān)鍵基礎(chǔ)技術(shù):關(guān)鍵詞(字典)與語(yǔ)義分析。關(guān)鍵詞技術(shù)成熟,語(yǔ)義技術(shù)是瓶頸,中文語(yǔ)義太難,能解決50%的團(tuán)隊(duì)就不錯(cuò)了,尤其是社交語(yǔ)言,比如"真可以!"何解?需上下文。希望風(fēng)投們多鼓勵(lì)此類(lèi)基礎(chǔ)技術(shù)研發(fā),突破此瓶頸是大數(shù)據(jù)挖掘的關(guān)鍵點(diǎn)之一。
大數(shù)據(jù)思考之八
社交數(shù)據(jù)挖掘中,很多團(tuán)隊(duì)集中在運(yùn)用推特瀑布思路,就是可視化技術(shù),其構(gòu)圖精美值得稱道,問(wèn)題是,其理論還是沿用三十多年前的社會(huì)計(jì)量法,概念還是局限在點(diǎn)、橋、意見(jiàn)領(lǐng)袖等小群體分析,不適合巨網(wǎng),突破可視化框架的社交分析需要理論探索和實(shí)踐努力。
補(bǔ)充
理解社交的意義比結(jié)構(gòu)展示重要。
大數(shù)據(jù)思考之九
移動(dòng)互聯(lián)網(wǎng)對(duì)社會(huì)生活的影響本質(zhì)是時(shí)間與空間的解構(gòu),分析這類(lèi)大數(shù)據(jù)需要把握這兩點(diǎn),如果僅僅分析app和網(wǎng)絡(luò)使用行為,那么分析上就失去了移動(dòng)的意義。單純看流量、點(diǎn)擊率等簡(jiǎn)單數(shù)字無(wú)法解決復(fù)雜的營(yíng)銷(xiāo)問(wèn)題。不創(chuàng)新的延續(xù)原有思維模式是人類(lèi)思考惰性。
補(bǔ)充
互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)是相關(guān)的兩件事情。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過(guò)程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類(lèi)核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11