
大數(shù)據(jù)等最核心的關(guān)鍵技術(shù):32個(gè)算法
奧地利符號(hào)計(jì)算研究所(Research Institute for Symbolic Computation,簡(jiǎn)稱RISC)的Christoph Koutschan博士在自己的頁面上發(fā)布了一篇文章,提到他做了一個(gè)調(diào)查,參與者大多數(shù)是計(jì)算機(jī)科學(xué)家,他請(qǐng)這些科學(xué)家投票選出最重要的算法,以下是這次調(diào)查的結(jié)果,按照英文名稱字母順序排序。
1、A* 搜索算法——圖形搜索算法,從給定起點(diǎn)到給定終點(diǎn)計(jì)算出路徑。其中使用了一種啟發(fā)式的估算,為每個(gè)節(jié)點(diǎn)估算通過該節(jié)點(diǎn)的最佳路徑,并以之為各個(gè)地點(diǎn)排定次序。算法以得到的次序訪問這些節(jié)點(diǎn)。因此,A*搜索算法是最佳優(yōu)先搜索的范例。
2、集束搜索(又名定向搜索,Beam Search)——最佳優(yōu)先搜索算法的優(yōu)化。使用啟發(fā)式函數(shù)評(píng)估它檢查的每個(gè)節(jié)點(diǎn)的能力。不過,集束搜索只能在每個(gè)深度中發(fā)現(xiàn)最前面的m個(gè)最符合條件的節(jié)點(diǎn),m是固定數(shù)字——集束的寬度。
3、二分查找(Binary Search)——在線性數(shù)組中找特定值的算法,每個(gè)步驟去掉一半不符合要求的數(shù)據(jù)。
4、分支界定算法(Branch and Bound)——在多種最優(yōu)化問題中尋找特定最優(yōu)化解決方案的算法,特別是針對(duì)離散、組合的最優(yōu)化。
5、Buchberger算法——一種數(shù)學(xué)算法,可將其視為針對(duì)單變量最大公約數(shù)求解的歐幾里得算法和線性系統(tǒng)中高斯消元法的泛化。
6、數(shù)據(jù)壓縮——采取特定編碼方案,使用更少的字節(jié)數(shù)(或是其他信息承載單元)對(duì)信息編碼的過程,又叫來源編碼。
7、Diffie-Hellman密鑰交換算法——一種加密協(xié)議,允許雙方在事先不了解對(duì)方的情況下,在不安全的通信信道中,共同建立共享密鑰。該密鑰以后可與一個(gè)對(duì)稱密碼一起,加密后續(xù)通訊。
8、Dijkstra算法——針對(duì)沒有負(fù)值權(quán)重邊的有向圖,計(jì)算其中的單一起點(diǎn)最短算法。
9、離散微分算法(Discrete differentiation)。
10、動(dòng)態(tài)規(guī)劃算法(Dynamic Programming)——展示互相覆蓋的子問題和最優(yōu)子架構(gòu)算法
11、歐幾里得算法(Euclidean algorithm)——計(jì)算兩個(gè)整數(shù)的最大公約數(shù)。最古老的算法之一,出現(xiàn)在公元前300前歐幾里得的《幾何原本》。
12、期望-最大算法(Expectation-maximization algorithm,又名EM-Training)——在統(tǒng)計(jì)計(jì)算中,期望-最大算法在概率模型中尋找可能性最大的參數(shù)估算值,其中模型依賴于未發(fā)現(xiàn)的潛在變量。EM在兩個(gè)步驟中交替計(jì)算,第一步是計(jì)算期望,利用對(duì)隱藏變量的現(xiàn)有估計(jì)值,計(jì)算其最大可能估計(jì)值;第二步是最大化,最大化在第一步上求得的最大可能值來計(jì)算參數(shù)的值。
13、快速傅里葉變換(Fast Fourier transform,F(xiàn)FT)——計(jì)算離散的傅里葉變換(DFT)及其反轉(zhuǎn)。該算法應(yīng)用范圍很廣,從數(shù)字信號(hào)處理到解決偏微分方程,到快速計(jì)算大整數(shù)乘積。
14、梯度下降(Gradient descent)——一種數(shù)學(xué)上的最優(yōu)化算法。
15、哈希算法(Hashing)。
16、堆排序(Heaps)。
17、Karatsuba乘法——需要完成上千位整數(shù)的乘法的系統(tǒng)中使用,比如計(jì)算機(jī)代數(shù)系統(tǒng)和大數(shù)程序庫,如果使用長(zhǎng)乘法,速度太慢。該算法發(fā)現(xiàn)于1962年。
18、LLL算法(Lenstra-Lenstra-Lovasz lattice reduction)——以格規(guī)約(lattice)基數(shù)為輸入,輸出短正交向量基數(shù)。LLL算法在以下公共密鑰加密方法中有大量使用:背包加密系統(tǒng)(knapsack)、有特定設(shè)置的RSA加密等等。
19、最大流量算法(Maximum flow)——該算法試圖從一個(gè)流量網(wǎng)絡(luò)中找到最大的流。它優(yōu)勢(shì)被定義為找到這樣一個(gè)流的值。最大流問題可以看作更復(fù)雜的網(wǎng)絡(luò)流問題的特定情況。最大流與網(wǎng)絡(luò)中的界面有關(guān),這就是最大流-最小截定理(Max-flow min-cut theorem)。Ford-Fulkerson 能找到一個(gè)流網(wǎng)絡(luò)中的最大流。
20、合并排序(Merge Sort)。
21、牛頓法(Newton's method)——求非線性方程(組)零點(diǎn)的一種重要的迭代法。
22、Q-learning學(xué)習(xí)算法——這是一種通過學(xué)習(xí)動(dòng)作值函數(shù)(action-value function)完成的強(qiáng)化學(xué)習(xí)算法,函數(shù)采取在給定狀態(tài)的給定動(dòng)作,并計(jì)算出期望的效用價(jià)值,在此后遵循固定的策略。Q-leanring的優(yōu)勢(shì)是,在不需要環(huán)境模型的情況下,可以對(duì)比可采納行動(dòng)的期望效用。
23、兩次篩法(Quadratic Sieve)——現(xiàn)代整數(shù)因子分解算法,在實(shí)踐中,是目前已知第二快的此類算法(僅次于數(shù)域篩法Number Field Sieve)。對(duì)于110位以下的十位整數(shù),它仍是最快的,而且都認(rèn)為它比數(shù)域篩法更簡(jiǎn)單。
24、RANSAC——是“RANdom SAmple Consensus”的縮寫。該算法根據(jù)一系列觀察得到的數(shù)據(jù),數(shù)據(jù)中包含異常值,估算一個(gè)數(shù)學(xué)模型的參數(shù)值。其基本假設(shè)是:數(shù)據(jù)包含非異化值,也就是能夠通過某些模型參數(shù)解釋的值,異化值就是那些不符合模型的數(shù)據(jù)點(diǎn)。
25、RSA——公鑰加密算法。首個(gè)適用于以簽名作為加密的算法。RSA在電商行業(yè)中仍大規(guī)模使用,大家也相信它有足夠安全長(zhǎng)度的公鑰。
26、Sch?nhage-Strassen算法——在數(shù)學(xué)中,Sch?nhage-Strassen算法是用來完成大整數(shù)的乘法的快速漸近算法。其算法復(fù)雜度為:O(N log(N) log(log(N))),該算法使用了傅里葉變換。
27、單純型算法(Simplex Algorithm)——在數(shù)學(xué)的優(yōu)化理論中,單純型算法是常用的技術(shù),用來找到線性規(guī)劃問題的數(shù)值解。線性規(guī)劃問題包括在一組實(shí)變量上的一系列線性不等式組,以及一個(gè)等待最大化(或最小化)的固定線性函數(shù)。
28、奇異值分解(Singular value decomposition,簡(jiǎn)稱SVD)——在線性代數(shù)中,SVD是重要的實(shí)數(shù)或復(fù)數(shù)矩陣的分解方法,在信號(hào)處理和統(tǒng)計(jì)中有多種應(yīng)用,比如計(jì)算矩陣的偽逆矩陣(以求解最小二乘法問題)、解決超定線性系統(tǒng)(overdetermined linear systems)、矩陣逼近、數(shù)值天氣預(yù)報(bào)等等。
29、求解線性方程組(Solving a system of linear equations)——線性方程組是數(shù)學(xué)中最古老的問題,它們有很多應(yīng)用,比如在數(shù)字信號(hào)處理、線性規(guī)劃中的估算和預(yù)測(cè)、數(shù)值分析中的非線性問題逼近等等。求解線性方程組,可以使用高斯—約當(dāng)消去法(Gauss-Jordan elimination),或是柯列斯基分解( Cholesky decomposition)。
30、Strukturtensor算法——應(yīng)用于模式識(shí)別領(lǐng)域,為所有像素找出一種計(jì)算方法,看看該像素是否處于同質(zhì)區(qū)域( homogenous region),看看它是否屬于邊緣,還是是一個(gè)頂點(diǎn)。
31、合并查找算法(Union-find)——給定一組元素,該算法常常用來把這些元素分為多個(gè)分離的、彼此不重合的組。不相交集(disjoint-set)的數(shù)據(jù)結(jié)構(gòu)可以跟蹤這樣的切分方法。合并查找算法可以在此種數(shù)據(jù)結(jié)構(gòu)上完成兩個(gè)有用的操作:
查找:判斷某特定元素屬于哪個(gè)組。
合并:聯(lián)合或合并兩個(gè)組為一個(gè)組。
32、維特比算法(Viterbi algorithm)——尋找隱藏狀態(tài)最有可能序列的動(dòng)態(tài)規(guī)劃算法,這種序列被稱為維特比路徑,其結(jié)果是一系列可以觀察到的事件,特別是在隱藏的Markov模型中。
以上就是Christoph博士對(duì)于最重要的算法的調(diào)查結(jié)果。你們熟悉哪些算法?又有哪些算法是你們經(jīng)常使用的?
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10