
大數(shù)據(jù)也有小應用_數(shù)據(jù)分析師培訓
隨著信息技術的快速發(fā)展,近來, 大數(shù)據(jù)及以之為基礎的研究范式——大數(shù)據(jù)范式 (big data paradigm)——成為了越來越流行的概念。 雖說大數(shù)據(jù)的 “大” 乃是相對概念, 即相對于數(shù)據(jù)存儲和處理技術而言的 “大”, 從而并無絕對意義, 但這幾年很多人對相對于當前技術而言的 “大” 似乎產(chǎn)生了特殊感覺, 認為它已超越了某種臨界值, 將引發(fā)諸多領域的重大、 甚至革命性的變革。 每當有大的新東西出現(xiàn)在地平線上時, 這種稍顯迫不及待的迎接革命的感覺乃是常見的衍生現(xiàn)象, 其可靠性往往大可商榷。 不過, 大數(shù)據(jù)有著各種各樣的具體應用倒是不爭的事實。
在本文中, 我們就來介紹一項小應用。
嚴格講, 本文的標題有些 “拉大旗作虎皮”, 因為這項小應用所涉及的數(shù)據(jù)相對于當前技術而言遠遠算不上 “大” (因此我們對 “大數(shù)據(jù)” 一詞加了引號), 不過它所采用的以數(shù)據(jù)關聯(lián)為核心, 將因果置一旁的做法乃是大數(shù)據(jù)范式中的典型方法, 而且這項小應用規(guī)模雖小, 畢竟也需動用計算機, 從而在手段上跟大數(shù)據(jù)范式也算搭界。
這項小應用就是確定某些歷史文件的年代。
確定歷史文件的年代一向是史學家們關心且必須要做的事情, 因為很多資料只有確定了年代才能發(fā)揮應有的作用。 但由于不難想象的種種原因, 很多歷史文件的年代是未知的。 為確定這類文件的年代, 一種典型的做法是求助于碳-14 年代測定法。 但是, 由此測定的年代往往有幾十年的誤差, 對遠古文件也許不算什么, 對近代文件卻稍嫌粗糙。 此外, 這種方法有時還會對文件產(chǎn)生一定程度的破壞。 除碳-14 年代測定法外, 利用紙張、 油墨等技術的演進歷史, 從文件所用的紙張或油墨的類型上確定年代也是常用方法, 但可惜誤差往往也在幾十年以上。 這些方法的不盡如人意之處, 使得其它方法有了用武之地。 最近, 加拿大多倫多大學的研究者蒂拉亨等人就示范了一種新方法。
蒂拉亨等人的研究對象是英國中世紀 時期的大量契據(jù)。 那些契據(jù)大都為拉丁文, 記錄的是各類財產(chǎn)及土地的交易, 對研究中世紀時期的英國歷史有不小的參考價值。 不過, 在現(xiàn)存百萬份以上的契據(jù)中, 大部分是既沒有標注年代, 也無法從所述內(nèi)容中推斷出年代的。 另一方面, 中世紀距今不過幾百年, 前面提到的那些方法的幾十年誤差相對來說就顯得很大, 而且上百萬份的巨大數(shù)量也使那些方法變得不太現(xiàn)實。 為此, 蒂拉亨等人采用了一種新方法。 他們以幾千份年代已知的契據(jù)為基準, 對年代未知的契據(jù)與年代已知的契據(jù)中詞匯及詞組的分布規(guī)律進行統(tǒng)計對比, 由此分析出前者與不同年代的后者之間的相似程度, 并以此確定前者最有可能的年代 (即相似程度最大的年代); 或者, 也可以先由后者估算出不同詞匯及詞組在不同年代的出現(xiàn)概率, 再以它們在前者中的出現(xiàn)數(shù)量估算出前者在各個年代的出現(xiàn)概率, 進而確定最有可能的年代 (即出現(xiàn)概率最大的年代)。
這類方法的準確度如何呢? 蒂拉亨等人用一個很聰明的方法進行了測算, 那就是將之應用到年代已知的文件上, 將估算結(jié)果與實際年代進行比較。 他們發(fā)現(xiàn), 這種估算的平均誤差可縮小至 10 年以下, 從而比前面提到的那些方法更精確。
當然, 這種方法中也有許多不確定性, 比如契據(jù)之間的相似程度, 契據(jù)在不同年代的出現(xiàn)概率等都并無唯一定義, 統(tǒng)計對比所用的算法也不唯一。 這些不確定性在大數(shù)據(jù)范式中是很常見的, 它們有弊也有利。 “弊” 者在于理據(jù)不像碳-14 年代測定法之類的方法那樣明晰; “利” 者則在于提供了改進方法所需的額外自由度。 事實上, 蒂拉亨等人的研究本身就是這種額外自由度的體現(xiàn), 因為他們并不是這類方法的創(chuàng)始人, 而只是利用不確定性所提供的額外自由度, 引進了新的定義及算法。
蒂拉亨等人所示范的方法也適用于其它時期或其它類型的文件, 并且除了幫助確定年代外, 還有助于確定與文件有關的其它屬性。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11