
大數(shù)據(jù)也有小應(yīng)用_數(shù)據(jù)分析師培訓
隨著信息技術(shù)的快速發(fā)展,近來, 大數(shù)據(jù)及以之為基礎(chǔ)的研究范式——大數(shù)據(jù)范式 (big data paradigm)——成為了越來越流行的概念。 雖說大數(shù)據(jù)的 “大” 乃是相對概念, 即相對于數(shù)據(jù)存儲和處理技術(shù)而言的 “大”, 從而并無絕對意義, 但這幾年很多人對相對于當前技術(shù)而言的 “大” 似乎產(chǎn)生了特殊感覺, 認為它已超越了某種臨界值, 將引發(fā)諸多領(lǐng)域的重大、 甚至革命性的變革。 每當有大的新東西出現(xiàn)在地平線上時, 這種稍顯迫不及待的迎接革命的感覺乃是常見的衍生現(xiàn)象, 其可靠性往往大可商榷。 不過, 大數(shù)據(jù)有著各種各樣的具體應(yīng)用倒是不爭的事實。
在本文中, 我們就來介紹一項小應(yīng)用。
嚴格講, 本文的標題有些 “拉大旗作虎皮”, 因為這項小應(yīng)用所涉及的數(shù)據(jù)相對于當前技術(shù)而言遠遠算不上 “大” (因此我們對 “大數(shù)據(jù)” 一詞加了引號), 不過它所采用的以數(shù)據(jù)關(guān)聯(lián)為核心, 將因果置一旁的做法乃是大數(shù)據(jù)范式中的典型方法, 而且這項小應(yīng)用規(guī)模雖小, 畢竟也需動用計算機, 從而在手段上跟大數(shù)據(jù)范式也算搭界。
這項小應(yīng)用就是確定某些歷史文件的年代。
確定歷史文件的年代一向是史學家們關(guān)心且必須要做的事情, 因為很多資料只有確定了年代才能發(fā)揮應(yīng)有的作用。 但由于不難想象的種種原因, 很多歷史文件的年代是未知的。 為確定這類文件的年代, 一種典型的做法是求助于碳-14 年代測定法。 但是, 由此測定的年代往往有幾十年的誤差, 對遠古文件也許不算什么, 對近代文件卻稍嫌粗糙。 此外, 這種方法有時還會對文件產(chǎn)生一定程度的破壞。 除碳-14 年代測定法外, 利用紙張、 油墨等技術(shù)的演進歷史, 從文件所用的紙張或油墨的類型上確定年代也是常用方法, 但可惜誤差往往也在幾十年以上。 這些方法的不盡如人意之處, 使得其它方法有了用武之地。 最近, 加拿大多倫多大學的研究者蒂拉亨等人就示范了一種新方法。
蒂拉亨等人的研究對象是英國中世紀 時期的大量契據(jù)。 那些契據(jù)大都為拉丁文, 記錄的是各類財產(chǎn)及土地的交易, 對研究中世紀時期的英國歷史有不小的參考價值。 不過, 在現(xiàn)存百萬份以上的契據(jù)中, 大部分是既沒有標注年代, 也無法從所述內(nèi)容中推斷出年代的。 另一方面, 中世紀距今不過幾百年, 前面提到的那些方法的幾十年誤差相對來說就顯得很大, 而且上百萬份的巨大數(shù)量也使那些方法變得不太現(xiàn)實。 為此, 蒂拉亨等人采用了一種新方法。 他們以幾千份年代已知的契據(jù)為基準, 對年代未知的契據(jù)與年代已知的契據(jù)中詞匯及詞組的分布規(guī)律進行統(tǒng)計對比, 由此分析出前者與不同年代的后者之間的相似程度, 并以此確定前者最有可能的年代 (即相似程度最大的年代); 或者, 也可以先由后者估算出不同詞匯及詞組在不同年代的出現(xiàn)概率, 再以它們在前者中的出現(xiàn)數(shù)量估算出前者在各個年代的出現(xiàn)概率, 進而確定最有可能的年代 (即出現(xiàn)概率最大的年代)。
這類方法的準確度如何呢? 蒂拉亨等人用一個很聰明的方法進行了測算, 那就是將之應(yīng)用到年代已知的文件上, 將估算結(jié)果與實際年代進行比較。 他們發(fā)現(xiàn), 這種估算的平均誤差可縮小至 10 年以下, 從而比前面提到的那些方法更精確。
當然, 這種方法中也有許多不確定性, 比如契據(jù)之間的相似程度, 契據(jù)在不同年代的出現(xiàn)概率等都并無唯一定義, 統(tǒng)計對比所用的算法也不唯一。 這些不確定性在大數(shù)據(jù)范式中是很常見的, 它們有弊也有利。 “弊” 者在于理據(jù)不像碳-14 年代測定法之類的方法那樣明晰; “利” 者則在于提供了改進方法所需的額外自由度。 事實上, 蒂拉亨等人的研究本身就是這種額外自由度的體現(xiàn), 因為他們并不是這類方法的創(chuàng)始人, 而只是利用不確定性所提供的額外自由度, 引進了新的定義及算法。
蒂拉亨等人所示范的方法也適用于其它時期或其它類型的文件, 并且除了幫助確定年代外, 還有助于確定與文件有關(guān)的其它屬性。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-18剛?cè)肼殘龌蚴窃诼殘稣媾R崗位替代、技能更新、人機協(xié)作等焦慮的打工人,想要找到一條破解職場焦慮和升職瓶頸的系統(tǒng)化學習提升 ...
2025-07-182025被稱為“AI元年”,而AI,與數(shù)據(jù)密不可分。網(wǎng)易公司創(chuàng)始人丁磊在《AI思維:從數(shù)據(jù)中創(chuàng)造價值的煉金術(shù) ...
2025-07-18CDA 數(shù)據(jù)分析師:數(shù)據(jù)時代的價值挖掘者 在大數(shù)據(jù)席卷全球的今天,數(shù)據(jù)已成為企業(yè)核心競爭力的重要組成部分。從海量數(shù)據(jù)中提取有 ...
2025-07-18SPSS 賦值后數(shù)據(jù)不顯示?原因排查與解決指南? 在 SPSS( Statistical Package for the Social Sciences)數(shù)據(jù)分析過程中,變量 ...
2025-07-18在 DBeaver 中利用 MySQL 實現(xiàn)表數(shù)據(jù)同步操作指南? ? 在數(shù)據(jù)庫管理工作中,將一張表的數(shù)據(jù)同步到另一張表是常見需求,這有助于 ...
2025-07-18數(shù)據(jù)分析師的技能圖譜:從數(shù)據(jù)到價值的橋梁? 在數(shù)據(jù)驅(qū)動決策的時代,數(shù)據(jù)分析師如同 “數(shù)據(jù)翻譯官”,將冰冷的數(shù)字轉(zhuǎn)化為清晰的 ...
2025-07-17Pandas 寫入指定行數(shù)據(jù):數(shù)據(jù)精細化管理的核心技能? 在數(shù)據(jù)處理的日常工作中,我們常常需要面對這樣的場景:在龐大的數(shù)據(jù)集里精 ...
2025-07-17解碼 CDA:數(shù)據(jù)時代的通行證? 在數(shù)字化浪潮席卷全球的今天,當企業(yè)決策者盯著屏幕上跳動的數(shù)據(jù)曲線尋找增長密碼,當科研人員在 ...
2025-07-17CDA 精益業(yè)務(wù)數(shù)據(jù)分析:數(shù)據(jù)驅(qū)動業(yè)務(wù)增長的實戰(zhàn)方法論 在企業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,“數(shù)據(jù)分析” 已從 “加分項” 成為 “必修課 ...
2025-07-16MySQL 中 ADD KEY 與 ADD INDEX 詳解:用法、差異與優(yōu)化實踐 在 MySQL 數(shù)據(jù)庫表結(jié)構(gòu)設(shè)計中,索引是提升查詢性能的核心手段。無論 ...
2025-07-16解析 MySQL Update 語句中 “query end” 狀態(tài):含義、成因與優(yōu)化指南? 在 MySQL 數(shù)據(jù)庫的日常運維與開發(fā)中,開發(fā)者和 DBA 常會 ...
2025-07-16如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟時代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動的時代,面對海量、復(fù)雜的數(shù)據(jù),如何高效地進行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14t檢驗與Wilcoxon檢驗的選擇:何時用t.test,何時用wilcox.test? t 檢驗與 Wilcoxon 檢驗的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導白皮書) 發(fā)布機構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11