
《大數(shù)據(jù)的“道”“術(shù)”“釋”》----讀書摘錄+思考
這本書是看到我老師的朋友圈推薦才買的,看了一下目錄,比較喜歡。就認(rèn)真的讀了下去,這不是一本講什么是大數(shù)據(jù)的書,而是一本為什么要用到大數(shù)據(jù)分析的書。這本書的好處是講為什么,而不是講是什么?是什么好講,為什么難講?同時,這本書符合我看書,買書的習(xí)慣。因為現(xiàn)代社會,知識碎片化,我們每天接收到的信息大量,如何甄別對于我們來說是尤其重要的,感覺也特別適合現(xiàn)階段我的狀態(tài),同時,這本書看完,送人也會是一個好的選擇,好書,非借不能讀也!
大數(shù)據(jù)的本質(zhì)是對效率的提升,是對精細(xì)化的追求。一上來就講到了大數(shù)據(jù)本質(zhì),有別于其他知識類的書籍。這本書更多的是從哲學(xué)思考的角度來組織“道”與“術(shù)”這兩部分的。前言部分就提到了這一點:由于種種原因,大多數(shù)人都忙于日常生活的瑣事因此他們對于這世界的好奇心都受到了壓抑。同時,對于大數(shù)據(jù)統(tǒng)計,它也指出了我們的現(xiàn)實:缺少的不是統(tǒng)計知識,而是如何應(yīng)用技術(shù)的實務(wù)方法。同時,它提到一個對從事IT業(yè)人最重要的知識框架的概念:知識體系!如果不早日形成自己的知識體系,所學(xué)知識和項目經(jīng)驗就如向桌子上倒水,倒再多的水也積存不住!
論“道”
對于數(shù)據(jù)分析報告,分析就是論點,數(shù)據(jù)就是論據(jù),兩者缺一不可。
數(shù)據(jù)分析的核心工作是人對數(shù)據(jù)指標(biāo)的發(fā)析、思考和解讀,人腦所能承載的數(shù)據(jù)量是極其有限的。
數(shù)據(jù)分析的能力不只是掌握統(tǒng)計知識和算法模型,更多是對業(yè)務(wù)產(chǎn)品的認(rèn)識、看法與判斷,這是很難量化的。
做好數(shù)據(jù)分析與學(xué)寫詩文一樣,真正的關(guān)鍵在技巧(統(tǒng)計技術(shù))之外,而在于對業(yè)務(wù)的觀察、思考與感悟,即分析的思路。這一點很是認(rèn)同,好的數(shù)據(jù)分析師不一定是一個好的技術(shù)人員,但一定是一個好的業(yè)務(wù)人員。對業(yè)務(wù)的把控要超越到技術(shù)的追求!
只有對業(yè)務(wù)有充分的調(diào)研與思考,才能產(chǎn)生有價值的分析思路。
這一部分,提到了兩個觀點很好,做數(shù)據(jù)分析人員最好要掌握一些經(jīng)濟學(xué)與心理學(xué)的知識,只有這兩方面知識深厚的時候,我們對業(yè)務(wù)的前景把控才會更加的清晰明確。我們需要對人的心理訴求有較深刻的理解,需要從心理訴求去解讀數(shù)據(jù),才能得到有效的結(jié)論。
如果我們熟悉經(jīng)濟學(xué)和心理學(xué),面對實際問題的時候,可以更深刻地看到數(shù)據(jù)背后的人性。
思考的重要性:思考本身也是一種實踐,使人對知識的掌握更加系統(tǒng)化的深入化。
如果沒有主動思考意識,光有經(jīng)歷和環(huán)境,是不能使人成長的。
數(shù)據(jù)分析常用來驗證思路和啟發(fā)靈感,卻不能代表思考本身,而對業(yè)務(wù)的理解和判斷才是整件事情的靈魂。
業(yè)務(wù)分析的本質(zhì)是對業(yè)務(wù)的全局認(rèn)知、深入思考和超前判斷,數(shù)據(jù)分析只是輔助這種思考完成的手段(驗證思路和啟發(fā)思路)。
人對事物的認(rèn)知并沒有絕對概念,只有相對概念。
以自己的所見所聞為判斷依據(jù)是人類的天性,但如果我們的所見所聞只是真實世界的一個抽樣,那么需要有足夠的理性跳出自己的圈子,以更加宏觀、總體的統(tǒng)計數(shù)據(jù)來認(rèn)知世界。
過于復(fù)雜的理論大都是人類沒有掌握真正的本質(zhì)規(guī)律。這一點非常好,我們很多時候,總是想把大數(shù)據(jù)講是十分高深,艱澀難懂,但是真正的高手會將這些知識以我們熟知的生活小常識來講解明白,所以說,真正的知識,若你不能夠很清晰的講解明白,可能是講解者對知識的理解仍不到位。
無論制作項目匯報還是分析報告,第一要務(wù)是展現(xiàn)形式要最大程度地輔助觀點表達(dá),而美觀只是末節(jié)。
老板最關(guān)心的是工作成果(產(chǎn)品業(yè)績),其次是產(chǎn)品或技術(shù)方案,最不關(guān)心的是進(jìn)行了哪些嘗試,以及嘗試的過程。所以,在匯報工作果,第一就是展現(xiàn)你的成果,其次是過程,最后才說你的困難及解決思路。
沒有任何一個數(shù)據(jù)分析項目的目標(biāo)是做“數(shù)據(jù)分析”,而是以數(shù)據(jù)分析為手段,圍繞一個“明確主題”得出結(jié)論。
做好數(shù)據(jù)分析的關(guān)鍵不在于統(tǒng)計技術(shù)的應(yīng)用,而在于對業(yè)務(wù)的思考和分析。這一個第一部分的點睛之句,可以說,它也道出了大數(shù)據(jù)分析的核心本質(zhì)?,F(xiàn)在世面上,很多的大數(shù)據(jù)公司,不是說他們的技術(shù)不好,不優(yōu)秀。而是他們對業(yè)務(wù)的理解沒有行業(yè)內(nèi)的人熟悉。這就導(dǎo)致了技術(shù)分析達(dá)標(biāo),但業(yè)務(wù)仍沒有較大增長的根本原因。
本章最大的收獲就是認(rèn)識到業(yè)務(wù)的重要,大數(shù)據(jù)分析只是輔助。其中,經(jīng)濟學(xué)與心理學(xué)是對你理解相關(guān)業(yè)務(wù)會有很大的幫助。
論“術(shù)”
術(shù)”的這一部分,一共有四章,分的也很細(xì)。講的很透徹,看完這些內(nèi)容。進(jìn)而對生活中的一些例子開始有了思考,例如:淘寶廣告推薦,Uber,滴滴的基于最短路徑推薦,等等。以前覺得算法這個神秘的東西離我們很遠(yuǎn),但現(xiàn)在看來,就在于我們的生活中,只不是統(tǒng)計人的思考維度是跟我們一般人是不一樣的。但同時,以“道”御“術(shù)”,只有明確什么是優(yōu)秀的數(shù)據(jù)分析,才能使我們這一部分的武器發(fā)揮出效力。
第二章上來就是要我們學(xué)會獨立思考,去思考為什么?本書在這里就提到:“是什么”的形式并不重要,關(guān)鍵點是我們做這些事情所持的“本心”!這里提到了直方圖,標(biāo)準(zhǔn)差,相關(guān)系數(shù),準(zhǔn)確率,召回率,這些曾經(jīng)難懂的知識點,而本書的好處都是從我們身邊的故事講起的。這樣就更有利于我們對于這些指標(biāo)的理解。透過這些基本概念的分析,我們要養(yǎng)成一種思維方式。
然后又講到了統(tǒng)計圖形,為什么要用圖形化來展現(xiàn)我們的數(shù)據(jù),因為一圖勝千言!
人腦對圖像信息的捕捉能力和記憶能力比文字強很多,畢竟文字這種“表意符號”比較抽象,屬于后天習(xí)得的知識關(guān)聯(lián),而處理圖像信息則是人類與生俱來的能力。
而這一部分的目標(biāo)原則與極簡原則又是對可視化有了一個好的提醒,這樣也是我們?nèi)蘸蟊苊庵蛔非箪哦雎杂袌D表的本質(zhì)問題。雖然圖表是為了輔助表達(dá)觀點而存在的,但也不能為了表達(dá)觀點而故意扭曲圖形。
決策制圖要分三個步驟:拆解內(nèi)容維度、確定圖形類型 、選擇表達(dá)方式!
第三章開篇就提出了一個比較讓人深思的問題:我們能相信統(tǒng)計嗎?實際上,延伸一點,就到我們的生活中,我們只不過是真實世界的一個抽樣,所以不要輕易批判他人的世界觀!在這一章節(jié)里,它里邊提到一個大數(shù)定理:真正的上帝沒有這么刻薄,他在抽樣統(tǒng)計值和真實值之間設(shè)置了一種函數(shù)關(guān)系,該函數(shù)關(guān)系使得統(tǒng)計學(xué)習(xí)在一定程度上是可行的。這也就是所有編程函數(shù)的基礎(chǔ):都是一種基于概率的信任!但在前期沒有任何數(shù)據(jù)積累時,會請相關(guān)領(lǐng)域?qū)S懈鶕?jù)經(jīng)驗知識制定一套規(guī)則系統(tǒng),而不是去挖掘少的可憐的樣本數(shù)據(jù)。
樣本量越大,抽樣統(tǒng)計值就越接近事物的真實程度。 其中感觸最深的是里邊人才市場與價格曲線的關(guān)系。你可以不成功,但你不能不成長,也許有人會阻礙你成功,但沒人會阻擋你成長。
上帝不擲骰子,因果律依然存在,不確定性只是因為人類的無知。
當(dāng)影響一個事物結(jié)果的各種因素隨機發(fā)生,根據(jù)中心極限定理,它們的總和平均表現(xiàn)就是正態(tài)分布。
如果說傳統(tǒng)統(tǒng)計學(xué)更多研究如何從抽樣個體的統(tǒng)計指標(biāo)去推測全體,那么今天的統(tǒng)計學(xué)則更多關(guān)注如何把全體數(shù)據(jù)在置信的前提下盡量拆細(xì),得到更細(xì)致的個體結(jié)論。
對于本章提出的問題:我們能相信統(tǒng)計嗎?在本章的最后給出了答案:對于統(tǒng)計結(jié)論,我們要基于概率的信任 ,中有當(dāng)置信概率足夠大的時候,才可以相信統(tǒng)計結(jié)論。
本章提出了一個“思考為什么?”的五步方法論:
1,以簡為始,不斷優(yōu)化
2,理想藍(lán)圖,逐漸逼近
3,觀察典型,啟發(fā)思路
4,分清主次,化繁為簡
5,需求出發(fā),貼近應(yīng)用
第四章是在2,3章的基礎(chǔ)上的靈活運用,如何拆相關(guān)指標(biāo),并應(yīng)用于生活中。這一章尤為重要!上來就講到一個優(yōu)秀的統(tǒng)計學(xué)家不等于一個出色的數(shù)據(jù)分析師。而要真正做好數(shù)據(jù)分析,只能是既懂統(tǒng)計技術(shù)又熟悉業(yè)務(wù)、掌握分析方法、又有豐富分析經(jīng)驗的人。
ARPU:客戶平均消費水平
數(shù)據(jù)分析更深一層的意義就是:反映一個人對所從事工作的認(rèn)知和思考能力!
樣本與總體的關(guān)系:用個案啟發(fā)思路,用統(tǒng)計得到結(jié)論。
在可樂與比薩的數(shù)量曲線里,隱含了一個非常隱晦的經(jīng)濟價值:針對不同的的消費群體,以同樣的成本提供不同價值配比的產(chǎn)品,可以實現(xiàn)更多的用戶體驗價值。
商家的固定思考:只有價格敏感的人才忍到每年的限定時間囤貨,不在意花銷的富人是不做壽 這樣麻煩事的。
在慣于炒概念的世界中,保持一份清醒的認(rèn)識。畢竟,內(nèi)在本質(zhì)比外在概念要少得多。
資深數(shù)據(jù)分析人員的核心能力在于豐富的知識面帶來的思考角度和分析方法。
第五章個人認(rèn)為是比較落地的一章內(nèi)容。主要講到OLAP跟機器學(xué)習(xí),這里講到OLAP跟OLTP的差別,OLTP更多的是讀取數(shù)據(jù)后的存儲,而OLAP更多的偏重于分析,OLAP的主要應(yīng)用是匯總分析較高層的統(tǒng)計數(shù)據(jù),而不是直接處理龐大的原始日志。
在數(shù)據(jù)探索階段使用無監(jiān)督學(xué)習(xí)的場景較多,而在數(shù)據(jù)建模階段使用監(jiān)督學(xué)習(xí)的場景較多。
無監(jiān)督算法并不真的不需要人的指導(dǎo)和監(jiān)督,只是監(jiān)督不以“提供樣例樣本”的形式出現(xiàn)。
一流的數(shù)據(jù)建模解決方案通常是策略算法人員與工程架構(gòu)人員通力配合的結(jié)果。深入的編程技術(shù)和架構(gòu)設(shè)計能力已經(jīng)極大的影響了機器學(xué)習(xí)的建模效果,所以在一流的機器學(xué)習(xí)團(tuán)隊,策略模型和工程架構(gòu)兩種人員有合并的趨勢。
算法工程師的核心競爭力:深入理解業(yè)務(wù)、產(chǎn)品和數(shù)據(jù),尋找模型和他們的結(jié)合點,的確是算法工程師的核心競爭力。
關(guān)于機器學(xué)習(xí):
在工業(yè)界做機器學(xué)習(xí)的應(yīng)用,不僅要掌握模型算法,還要看清企業(yè)面臨的市場機遇,將算法模型放在業(yè)務(wù)戰(zhàn)略的角度進(jìn)行評估。
機器學(xué)習(xí)變成一個業(yè)務(wù)和技術(shù)并重的交叉學(xué)科,真正做好它還需要更多的實踐。
機器學(xué)習(xí)模型背后的原理是知識表示+統(tǒng)計學(xué)習(xí),而不是像人一樣真的在理解和思考。
論“釋”
這一部分,更多的是從業(yè)務(wù)角度,或是從當(dāng)下社會經(jīng)濟角度來說大數(shù)據(jù)的。
第六章內(nèi)容,主要講大數(shù)據(jù)時代,經(jīng)濟引導(dǎo)一切的條件下,要明白大數(shù)據(jù)的經(jīng)濟價值。在這個經(jīng)濟社會,如果大數(shù)據(jù)有經(jīng)濟價值,相信各種配套技術(shù)會層出不窮的涌現(xiàn)。一切不談具體應(yīng)用的大數(shù)據(jù)技術(shù)都是耍流氓!
醫(yī)療:大數(shù)據(jù)的價值類似于收集到足夠多的病例,對于每一個病人,均可以找到數(shù)量眾多的相似病例,那么對病人的病情分析和治療方案會準(zhǔn)確、有效得多。
互聯(lián)網(wǎng):沒有無價值的流量,只有錯誤的匹配!
教育: 針對學(xué)生制定個性化的學(xué)習(xí)計劃,需要數(shù)據(jù)建模。首先,構(gòu)造個性化學(xué)習(xí)路徑的優(yōu)化目標(biāo)“學(xué)習(xí)收益/學(xué)習(xí)成本”。其次,基于用戶的特征和歷史學(xué)習(xí)記錄形成訓(xùn)練樣本,每個樣本標(biāo)注了學(xué)生的背景信息。
差異化定位與品牌:品牌對業(yè)務(wù)的幫助是潛移默化的,是企業(yè)重要的隱性資產(chǎn)。
新進(jìn)入一個市場,最好的方法不是與明確的競爭者拼搏相同的產(chǎn)品,而是選擇差異化的產(chǎn)品定位,或者干脆尋找顛覆這個市場的機會。
你雖然很強大,但我要估的和你不一橛,你的強大就與我無關(guān)。
政府提出“大眾創(chuàng)業(yè),萬眾創(chuàng)新”后,真正能大眾創(chuàng)業(yè)的行業(yè)只有互聯(lián)網(wǎng)一個!
流量優(yōu)勢是一個偽優(yōu)勢,因為流量可以用資金買到!
產(chǎn)品保證存活,沒有需求就沒有市場;技術(shù)提供壁壘,沒有核心技術(shù)的產(chǎn)品大都難以長久!
大數(shù)據(jù)技術(shù)是一套數(shù)據(jù)+業(yè)務(wù)+需求的完整解決方案。思考關(guān)鍵不在于數(shù)據(jù)技術(shù)本身,而在于能否收集到足夠多、有價值的數(shù)據(jù),以及找到適合數(shù)據(jù)技術(shù)的業(yè)務(wù)應(yīng)用,即從鏈條的兩端向中間思考。
第七章
知識和工具方面的技能可以學(xué)習(xí),但清晰的思維邏輯(頭腦清晰)和豐富的創(chuàng)意(點子多)是不可或缺的先決條件。
只有懂得欣賞他人,才會真心的尊重合作方,達(dá)到合作共贏的狀態(tài)。
從心理學(xué)的角度講,一個人內(nèi)心對自己和認(rèn)知是自我評價與他們評價之和。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實踐的落地者與價值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價值,最終要在 “實踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場景的分 ...
2025-09-10機器學(xué)習(xí)解決實際問題的核心關(guān)鍵:從業(yè)務(wù)到落地的全流程解析 在人工智能技術(shù)落地的浪潮中,機器學(xué)習(xí)作為核心工具,已廣泛應(yīng)用于 ...
2025-09-09SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與價值解析 在 SPSS(Statistical Product and Service Solutions,統(tǒng)計產(chǎn)品與服務(wù)解決方案 ...
2025-09-09