
8月14日,騰訊網在正院會館舉辦了一場夏季思享會,而這次思享會的主題就是“大數據”。有意思的是,這次關于大數據的分享會請到了來自各個領域的學者和專家,是一場跨學科的思想碰撞。在現場的我聽完了整場分享,有趣的觀點不少,還有一些觀點是目前國內關注大數據的人們不太提及的,非常思辨。在這里,我也跟大家分享一些來自思享會上的有趣觀點。
海量數據的應用正在改變我們現有的生產方式,其不僅成為了一個重要的生產要素,還在一定程度上提高了生產效率。這時,海量數據應用帶來的信息風暴不僅影響到我們的工作、生活,還可以逐漸影響我們的思維方式。有人說大數據本身是一場革命,這場革命就是把“量化”這個概念推動到我們生活中的方方面面。
1、關于大數據帶來的機遇可以說是學界業(yè)界一致認同的,而北大新聞與傳播學院的劉德寰教授卻提出,大數據也可以是“大忽悠”,甚至存在大風險。
大數據就一定是全數據嗎?
即使是像BAT這樣的互聯(lián)網巨頭,他們所擁有的數據也只是一座”數據孤島“。因此,很多大數據其實是斷裂且封閉的。在這一座座孤島被打破之前,大數據都無法稱”全“。這種大而不全的數據導致我們無法真正獲得想要的規(guī)律。
大數據也許會帶來“假規(guī)律”和“偽相關”
雖然關于大數據的介紹和分析都告訴我們,大數據注重的是“相關關系”,而非“因果關系”,但是,如果只注重相關關系,數據量的增加將不可避免的帶來偽相關的現象。當數據量達到幾十萬之巨之后,只會導向“萬物相聯(lián)系”這一結論。這時,所選取的變量都會呈現為統(tǒng)計顯著,而這樣的數據分析無疑就失敗了。因此,即使大數據現在備受推崇,但傳統(tǒng)的抽樣調查和實驗等社會學研究方法也不應該被拋棄,而應該結合使用。
《大數據時代》的譯者周濤也回應了這個觀點:從技術層面上來看,我們的確需要找到因果關系。一方面,有的關聯(lián)如果沒有因果在背后是很難被發(fā)現的;另一方面,因果能夠幫助我們更好的解釋和分析相關。
大數據離不開對“人性”的理解
大數據的挖掘過程也需要注入思想,這種思想就體現為“人性”。統(tǒng)計數據不能代替對人性的理解,真正進行跟人相關的大數據挖掘的時候一定要關注人性,這個時候的算法和建模才是有針對性、有意義的。怎樣在數據中注入人性?觀察、實驗、調查等傳統(tǒng)的研究方法都是很好的選擇。比如,喬布斯就經常躲在蘋果體驗店外沒人看得見的地方觀察體驗店里的人的行為,這是最早期的研究方法,在擁有大數據的今天還在使用是有一定原因的。一句話:諸如“體會、體驗、直覺、靈機一動、內省”這些看似與大數據無關的東西有可能恰恰就是大數據的核心。
大數據+小應用的趨勢
所謂大數據的小應用,就是把大數據應用到各個獨立領域中去。大數據運算本身構造了一個擁有更多能力的“新算盤”,擁有這個新算盤不意味著擁有一切,而是有了一個可以在各個領域使用的科學的工具。怎樣做好大數據的小應用?有兩個方面:第一,大數據與小數據結合,這個小數據就是基于抽樣調查的數據;第二,來自各個獨立領域的專業(yè)知識非常重要,比如以心理學、法學、社會學、營銷學等混合知識作為背景,再去跟數據結合,就能夠探索出一個更科學的大數據分析和挖掘的方式。
2、關于大數據的產業(yè)應用,華大基因的董事長汪建表達了自己的看法:基因研究是一項很少被人了解的產業(yè)研究,但卻是真正的大數據應用。
怎樣有效的預測疾病、怎樣降低傳染病的發(fā)病率,這些都需要依靠于基因研究。人身體中的細胞數量有10的14次方個,而一個細胞的癌變就可能導致生命的終結。這一個癌細胞分解為RNA后就是10的9次方,變成蛋白質則是10的19次方,這么大的數據量足以構成大數據,而基因研究面對的就是如此量級的數據研究和應用。
以對腫瘤細胞的定性、定量研究為例。首先,要知道腫瘤細胞現在的基因是怎樣的,而當出現一兩個基因變化的時候,細胞又會變成什么樣。其次,當眾多腫瘤細胞的基因變化構成了相當量級的數據之后,我們就能通過數據來展現細胞癌變的動態(tài)變化過程,從而進一步預測疾病。這樣的研究如果用在先天性疾病的防治上將更有意義,這樣有出生缺陷的嬰兒會越來越少。華大在推進的”百萬人基因計劃“,就是一個名符其實的大數據應用。因此,汪建從基因研究出發(fā),表達了自己對大數據的理解:從大目標出發(fā),踐行大數據,實現大科學,從而將研究成功運用到各個領域中去,形成大產業(yè)。
3、關于“新技術給我們的生活帶來了什么”這個話題,北大哲學系教授吳國盛給出了一個讓我很認同的觀點:技術本身并不是價值中立的,它有著自身的邏輯和屬性,而這就使得我們在使用新技術時,也必須接受新技術的內在邏輯,而這就將改變我們原有的生活方式。
過去,我們認為技術是中性的,它是人類的使用工具,怎么使用它取決于人類自己,但事實并非如此。技術有著自己的自主性、自己的結構,某些技術必定指向某些事情。比如,互聯(lián)網是一種基于民主意識形態(tài)的技術配置,網民相對平等的分配信息,共同分享信息,所以這樣的技術發(fā)源于美國,而不是中國。而當互聯(lián)網進入中國之后,人們除了享受互聯(lián)網帶來的便捷高效,還要被迫接受互聯(lián)網世界中民主、平等、開放的意識形態(tài),這是根植于互聯(lián)網技術中的。因此,雖然國內建起了互聯(lián)網高墻,但翻墻一事也是輕而易舉,這就是互聯(lián)網的內在邏輯決定的。
4、關于大數據與社會變革這個不太被提及的話題,來自不同領域的專家們都從各自的領域出發(fā)分享了自己的感受。
《大數據時代》的譯者周濤認為,大數據更高級的階段應該是數據的集成與共享,并把集成和共享本身作為一種商業(yè)模式。
他舉了一個通過大數據幫助全球能源更好的進行配置的例子。首先,周濤所在的電子科大與電力集團達成合作,通過大量遙感裝置和本地勘探數據了解到各個國家的能源供需情況。其次,通過與氣象局合作獲得氣象數據,包括日照、風速風向、降雨等,從而對太陽能、風能、水能等新能源做到短期預測,并實現能源負載平衡。而這些數據若再與電力集團的數據進行集成和分享,就能將各項能源更有效的調配使用。
專欄作家安替則談到一個問題:大數據是有階級性的,大數據時代也許是一個新的政治革命誕生的時代。
之前,社科院農發(fā)所社會問題研究中心主任于建嶸說過大數據讓每個人變得更加透明,我們生活中的各種行為將通過數據被采集,并且分析出來,因此普通老百姓可以說是沒有秘密的。然而,這些數據卻不是普通老百姓可以看到或使用的,真正擁有這些數據的是部分企業(yè)、機構和政府,普通用戶只是大數據的提供者,這就是階級的產生。
因此,在大數據時代,數據的擁有權是一個關鍵的問題。這跟資本在資本主義剛誕生時最原始的情況是相似的。如果我們說物質的匱乏造成資本的流動,資本主義的產生是一些企業(yè)崛起,并跟國家分享權力的話,我們也可以說大數據時代恰會濕一個新政治革命誕生的時代。如果擁有大數據的人們不讓民眾分享大數據的成果,反而用大數據來控制民眾(比如維穩(wěn)),那也許會造成更大的國內沖突,甚至國際斗爭。
社會學教授郭于華關心的是社會當中的普通人怎樣面對和使用新技術,那么新技術是不是會縮小信息鴻溝和社會鴻溝?
她曾經做過一個研究:新生代農民工怎樣使用信息技術。她對研究結論的預判是:新技術將有助于新生代農民工的社會融入、城市融入。事實上,新技術確實給他們的生活帶來了改變:其一,農民工是一個公共生活缺失的人群,信息技術給他們相互之間的交流帶來了很多便利;其二,新媒體給了他們表達的渠道,這是以往所不曾有的;其三,他們可以通過新媒體即時調用各種所需要的信息,更加了解這個世界。
但即便如此,我們也不能過分夸大信息技術對弱勢群體的作用,因為它確實呈現出比較強的馬太效應:強勢著可以更好的、更有利的利用這些新技術,同時他們也會對其他人加以控制。所以,新技術有沒有可能穿透社會結構的屏障才是關鍵的問題。
其實,像郭于華教授這樣的調研,也是創(chuàng)業(yè)者們需要的。比如“豌豆莢”就曾經派人去東莞的工廠里做調研,了解打工族們對智能終端和移動應用的真正需求。感興趣的人可以點此閱讀調查結果。
關于大數據和新技術,其實除去技術層面的研究和應用,在與歷史、 社會、人文等學科交叉的過程中還將引發(fā)很多話題,希望以上這些觀點能給大家?guī)ヒ稽c不一樣的思考。(本文由:CDA數據分析師)
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
用 SQL 生成逆向回滾 SQL:數據操作的 “后悔藥” 指南? 在數據庫操作中,誤刪數據、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14如何考取數據分析師證書:以 CDA 為例? ? 在數字化浪潮席卷各行各業(yè)的當下,數據分析師已然成為企業(yè)挖掘數據價值、驅動決策的 ...
2025-07-14t檢驗與Wilcoxon檢驗的選擇:何時用t.test,何時用wilcox.test? t 檢驗與 Wilcoxon 檢驗的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進階: CDA數據分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導白皮書) 發(fā)布機構:CDA數據科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數據分析師報考條件詳解與準備指南? ? 在數據驅動決策的時代浪潮下,CDA 數據分析師認證愈發(fā)受到矚目,成為眾多有志投身數 ...
2025-07-11數據透視表中兩列相乘合計的實用指南? 在數據分析的日常工作中,數據透視表憑借其強大的數據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數據分析師:連接數據與業(yè)務的價值轉化者? ? 在大數據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數據查詢到趨勢預判? ? 在數據驅動決策的時代,預測分析作為挖掘數據潛在價值的核心手段,正被廣泛 ...
2025-07-10數據查詢結束后:分析師的收尾工作與價值深化? ? 在數據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數 ...
2025-07-10CDA 數據分析師考試:從報考到取證的全攻略? 在數字經濟蓬勃發(fā)展的今天,數據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數據背后的時間軌跡? 在數據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數據類型:時間維度的精準切片? ? 在數據的世界里,時間是最不可或缺的維度之一,而year_month數據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數據分析師認證考試中,Python 作為數據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數據趨勢與突變分析的有力工具? ? ? 在數據分析的廣袤領域中,準確捕捉數據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數據分析師認證作為國內權威的數據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數 ...
2025-07-07CDA數據分析師證書考試全攻略? 在數字化浪潮席卷全球的當下,數據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數據分析師也因此成為 ...
2025-07-07