
數(shù)據(jù)關(guān)系挖掘算法、技術(shù)難點(diǎn)及應(yīng)用場景分析
數(shù)據(jù)關(guān)系挖掘作為解決數(shù)據(jù)孤島等難題的手段之一,可以有效的幫助企業(yè)將多樣化的數(shù)據(jù)進(jìn)行統(tǒng)一存儲并挖掘出其中隱藏的價值,目前在公安、電信、金融等傳統(tǒng)行業(yè)中的應(yīng)用也正變得愈加廣泛。為了了解數(shù)據(jù)關(guān)系挖掘背后的算法應(yīng)用、技術(shù)難點(diǎn)等問題,InfoQ對明略數(shù)據(jù)技術(shù)合伙人及SCOPA產(chǎn)品負(fù)責(zé)人任鑫琦進(jìn)行了獨(dú)家專訪。
SCOPA是明略數(shù)據(jù)去年底剛剛推出的一款數(shù)據(jù)關(guān)系挖掘新產(chǎn)品,它構(gòu)建在企業(yè)大數(shù)據(jù)平臺之上,可結(jié)合明略數(shù)據(jù)在特定領(lǐng)域與行業(yè)中積累的業(yè)務(wù)知識,進(jìn)行領(lǐng)域模型的轉(zhuǎn)換,并且將轉(zhuǎn)換后的領(lǐng)域模型對象數(shù)據(jù)進(jìn)行關(guān)聯(lián),將所有數(shù)據(jù)轉(zhuǎn)換成業(yè)務(wù)人員能輕松理解的數(shù)據(jù)形式,挖掘出這些數(shù)據(jù)之間的聯(lián)系,把有關(guān)聯(lián)的數(shù)據(jù)放在一起,最后交給上層的業(yè)務(wù)人員用以展示或分析。
明略技術(shù)合伙人任鑫琦
Q:提到數(shù)據(jù)挖掘和數(shù)據(jù)分析,就不得不談算法的問題。前一段時間谷歌AlphaGo在圍棋對戰(zhàn)中戰(zhàn)勝世界頂級圍棋棋手李世石,這使得機(jī)器算法的話題引起了一陣熱議。能否請您談一談明略的SCOPA在實(shí)際使用時都用到了哪些算法?怎么用的?這些算法各自又有什么不同的特點(diǎn)?
任鑫琦:SCOPA在做數(shù)據(jù)的關(guān)系構(gòu)建或數(shù)據(jù)關(guān)聯(lián)時,要用到的方法是多種多樣的。因?yàn)樵谶@一過程中所面對的數(shù)據(jù)形式、數(shù)據(jù)來源、數(shù)據(jù)種類同樣也是多種多樣的?;A(chǔ)的數(shù)據(jù)挖掘算法肯定是必要的,比如基礎(chǔ)的分類算法和聚類算法,這也是明略數(shù)據(jù)在公安和金融領(lǐng)域通過實(shí)踐而知的,不同于其他行業(yè)應(yīng)用的一個重要方面。
傳統(tǒng)行業(yè)的業(yè)務(wù)人員更多的是依靠自己的經(jīng)驗(yàn)和習(xí)慣去總結(jié)一些類似于公式的東西,然后將抽樣數(shù)據(jù)或者是能找到的結(jié)構(gòu)化數(shù)據(jù)套用在這個公式上去計算,然后得到比如像重點(diǎn)人防控的數(shù)據(jù)模型或者是金融行業(yè)里的反欺詐數(shù)據(jù)模型等等。這些模型的問題大多在于它是源于“人”的經(jīng)驗(yàn),其數(shù)據(jù)特征都是由“人”的主管意識來決定的。
從傳統(tǒng)的數(shù)據(jù)挖掘方法上來看,明略其實(shí)是利用相關(guān)技術(shù),先將所有數(shù)據(jù)進(jìn)行人工智能處理,比如先自動的按照一些基本特征去進(jìn)行分類、聚類,雖然這中間產(chǎn)生的數(shù)據(jù)處理結(jié)果并一定能被人類完全理解,但是SCOPA會在這個基礎(chǔ)之上再根據(jù)一些真實(shí)的數(shù)據(jù)樣本,比如公安部門中的案件數(shù)據(jù),或者金融領(lǐng)域里過去發(fā)生的欺詐行為的數(shù)據(jù),來作為樣本再進(jìn)行訓(xùn)練。這樣的話,之后得出來的規(guī)則集和模型,其實(shí)都是由真實(shí)的數(shù)據(jù)特征所決定的結(jié)果,相比“人”的主觀意識來說會更精確。
另外在解決數(shù)據(jù)關(guān)聯(lián)問題上,明略會把數(shù)據(jù)轉(zhuǎn)化成類似知識圖譜的形式去進(jìn)行存儲,幫助業(yè)務(wù)人員能夠更容易地去理解這些數(shù)據(jù)。而在這之后,就可以結(jié)合很多在互聯(lián)網(wǎng)領(lǐng)域中很成熟的圖像數(shù)據(jù)挖掘與分析的方法,從中再繼續(xù)提取數(shù)據(jù)特征,找到有用的信息。
比如一些離線的圖挖掘算法,可以做一個省內(nèi)一億人口之間的數(shù)據(jù)記錄關(guān)系網(wǎng),然后就能從數(shù)據(jù)關(guān)系網(wǎng)當(dāng)中挖掘出一些可疑的團(tuán)伙或是一些正常的交集群,這些通過現(xiàn)成的數(shù)據(jù)挖掘算法就可以實(shí)現(xiàn)。甚至還可以做一些link prediction的預(yù)測工作,分析這張數(shù)據(jù)關(guān)系網(wǎng)里面哪部分處于活躍狀態(tài),哪部分未來可能會發(fā)生一些關(guān)聯(lián)的事件。
同時這張數(shù)據(jù)關(guān)系網(wǎng)也可以做一些可視化的展示,或是可視化的分析。比如在一個群體內(nèi)部,可以分析出哪些方面是權(quán)重點(diǎn),而這就需要一些更具體的圖挖掘或圖分析的算法了。比如可以利用基于Betweenness或Closeness等方法去計算出一些核心點(diǎn)。
舉一些簡單例子,比如基于Betweenness計算的點(diǎn),它相當(dāng)于在一個犯罪團(tuán)伙內(nèi)所有通路和路徑交匯最多的一個點(diǎn),也相當(dāng)于這個團(tuán)伙組織架構(gòu)的一個核心點(diǎn),而這個點(diǎn)可能并不只一個,那么如果能夠把這些點(diǎn)都一一破獲的話,那么這個團(tuán)伙或者組織就基本會落網(wǎng)了,這在公安部門打擊一些非法傳銷或者非法金融鏈條的時候會有所應(yīng)用。而基于Closeness的方法則是利用計算中心度的方式來尋找一些團(tuán)伙內(nèi)真正的核心人物,這個人關(guān)聯(lián)到團(tuán)伙內(nèi)其他人的平均距離應(yīng)該是最短的,這也是打擊非法團(tuán)伙的最快方式。
此外由于在大量的結(jié)構(gòu)化數(shù)據(jù)之外還有很多非結(jié)構(gòu)化的數(shù)據(jù),尤其是像公安部門中的案情、筆錄、出警描述這樣的文本數(shù)據(jù),里面往往都包含著非常重要信息,所以SCOPA所使用比較多的另外一類算法,就是自然語言處理NLP,同時也會進(jìn)行非常精準(zhǔn)的命名實(shí)體識別,并計算實(shí)體之間的關(guān)系。比如可以通過一段文字描述鎖定在某地區(qū)出現(xiàn)過的一群人,同時分析這些人之間的聯(lián)系,其中哪些人跟某個案件有什么樣的關(guān)聯(lián),受害人或被害人是誰,他們是否有一些共同的特征,某些地址、單位是否會跟他們產(chǎn)生關(guān)聯(lián),這些都是自然語言處理算法需要解決的問題。
當(dāng)需要處理的案件描述非常多的情況下,比如110接警電話記錄,或是警察調(diào)查走訪的筆錄等等,那么SCOPA就可以進(jìn)行自動化的案件對比和分類工作,以便在大規(guī)模的案件描述里挖掘出一些數(shù)據(jù)特征,為一線調(diào)查人員的工作起到指引作用。
Q:數(shù)據(jù)關(guān)系挖掘的作用毋庸置疑,理論上的方法也有很多,但是要想在實(shí)際的應(yīng)用場景中做好落地,還需要考慮更多的細(xì)節(jié)問題。那么能否請您談一談進(jìn)行數(shù)據(jù)關(guān)系挖掘時會面臨哪些技術(shù)難點(diǎn)?
任鑫琦:關(guān)聯(lián)數(shù)據(jù)挖掘或者更深入的說關(guān)系數(shù)據(jù)挖掘,研究的不僅僅是客觀上的關(guān)聯(lián)度,還會深入挖掘在物理世界中真實(shí)存在的某種準(zhǔn)確的直接聯(lián)系,同時還要確定是什么樣的聯(lián)系。那么在進(jìn)行關(guān)系數(shù)據(jù)挖掘時的難點(diǎn),主要就在于確定數(shù)據(jù)模型的特征時,必須要保證數(shù)據(jù)特征的準(zhǔn)確性,否則可能做出來的模型也是不夠精確的,而這種似是而非的數(shù)據(jù)模型在很多行業(yè)中其實(shí)是沒有意義的,比如公安部門就必須要使用非常嚴(yán)格的數(shù)據(jù)模型。
SCOPA所使用的算法都是依賴于底層數(shù)據(jù)支持的,然而數(shù)據(jù)量越大并不一定就越好,而是數(shù)據(jù)的種類和來源越多越好。比如說公安部門需要確定犯罪嫌疑人之間的關(guān)系,那么如果能夠擁有關(guān)聯(lián)類數(shù)據(jù)、軌跡類數(shù)據(jù)、網(wǎng)絡(luò)虛擬化數(shù)據(jù)、電信運(yùn)營商數(shù)據(jù)等的話,就能確定嫌疑人經(jīng)常出現(xiàn)的位置,這樣可以依靠出現(xiàn)時間、空間、頻次等幾類模型來將這個人以及與之有關(guān)系的人或物給確定下來。
然而真正要完成這項工作,還需要克服兩個挑戰(zhàn),第一個是如何盡可能多的收集和處理數(shù)據(jù);第二個是如何在這么多復(fù)雜的數(shù)據(jù)之上挖掘關(guān)聯(lián)性,這需要足夠強(qiáng)的計算能力。
Q:隨著企業(yè)在大數(shù)據(jù)方面的需求不斷擴(kuò)大,數(shù)據(jù)的關(guān)聯(lián)、關(guān)系挖掘在行業(yè)中的應(yīng)用范圍也正變得越來越廣。您認(rèn)為數(shù)據(jù)關(guān)系挖掘相關(guān)技術(shù)最近有哪些發(fā)展趨勢呢?
任鑫琦:在沒有大數(shù)據(jù)概念之前,很多時候是用數(shù)據(jù)庫去做一些顯性關(guān)聯(lián)分析,而當(dāng)有了大數(shù)據(jù)概念之后,更多地其實(shí)是想做隱性的關(guān)聯(lián)分析與挖掘,也就是結(jié)合不同類型的數(shù)據(jù),然后找到其中的聯(lián)系。因此這其中的趨勢,實(shí)際就是目前的數(shù)據(jù)關(guān)系挖掘更加偏向于跨領(lǐng)域數(shù)據(jù)或者跨類型數(shù)據(jù)的綜合分析。
另外一個趨勢就是數(shù)據(jù)分析中需要考慮的數(shù)據(jù)各種特征以及各種維度都越來越多,比如時間緯度、空間緯度、關(guān)系緯度、頻次緯度等等,而這樣一來數(shù)據(jù)關(guān)系挖掘的結(jié)果就會變得越來越準(zhǔn)確。
目前還出現(xiàn)了一些類似于搜索引擎相關(guān)技術(shù)的數(shù)據(jù)分析技術(shù),它可以通過一些文本及文字的匹配,進(jìn)行一些類似關(guān)聯(lián)度分析的數(shù)據(jù)挖掘。但是這種數(shù)據(jù)關(guān)系挖掘,可能今后發(fā)展的空間以及潛力會相對少一些。
Q:目前看來,數(shù)據(jù)關(guān)系挖掘在保障公共安全以及維護(hù)治安方面的作用是非常顯著的,通過技術(shù)層面的手段,尋找數(shù)據(jù)之間的隱藏信息,這對于公安部門來說正是提升執(zhí)法效率的途徑之一,您能否簡單地介紹一個相關(guān)的數(shù)據(jù)關(guān)系挖掘應(yīng)用案例呢?
任鑫琦:明略曾經(jīng)為一個市級公安局做了數(shù)據(jù)系統(tǒng),之后當(dāng)某個區(qū)域內(nèi)經(jīng)常出現(xiàn)電動車或者電動三輪車盜竊案后,直接通過數(shù)據(jù)關(guān)系挖掘在一分鐘之內(nèi)鎖定了該盜竊團(tuán)伙。
這其實(shí)是根據(jù)這個區(qū)域中的攝像頭數(shù)據(jù),先找出一些可疑車輛,接著分析在一定時間范圍內(nèi)這些車輛出現(xiàn)的位置,基于這些篩查工作的結(jié)果,再對比車主個人信息、違章記錄以及與車主有關(guān)聯(lián)的人,從而把范圍縮小到一些小人群上,然后把這些人群的行為軌跡進(jìn)行區(qū)域數(shù)據(jù)模型驗(yàn)證,確定他們在固定的時間段內(nèi),在固定范圍內(nèi)出現(xiàn)的概率,在進(jìn)一步的篩查之后,計算出關(guān)聯(lián)度最高的那群人,最后由調(diào)查人員再通過進(jìn)一步的調(diào)查取證,鎖定了該電動車盜竊團(tuán)伙。
而過去一般遇到這樣的案件,如果警方只用傳統(tǒng)的數(shù)據(jù)檢索和數(shù)據(jù)比對的方式的話,可能至少需要一個小團(tuán)隊工作三到四天才能破案。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-18剛?cè)肼殘龌蚴窃诼殘稣媾R崗位替代、技能更新、人機(jī)協(xié)作等焦慮的打工人,想要找到一條破解職場焦慮和升職瓶頸的系統(tǒng)化學(xué)習(xí)提升 ...
2025-07-182025被稱為“AI元年”,而AI,與數(shù)據(jù)密不可分。網(wǎng)易公司創(chuàng)始人丁磊在《AI思維:從數(shù)據(jù)中創(chuàng)造價值的煉金術(shù) ...
2025-07-18CDA 數(shù)據(jù)分析師:數(shù)據(jù)時代的價值挖掘者 在大數(shù)據(jù)席卷全球的今天,數(shù)據(jù)已成為企業(yè)核心競爭力的重要組成部分。從海量數(shù)據(jù)中提取有 ...
2025-07-18SPSS 賦值后數(shù)據(jù)不顯示?原因排查與解決指南? 在 SPSS( Statistical Package for the Social Sciences)數(shù)據(jù)分析過程中,變量 ...
2025-07-18在 DBeaver 中利用 MySQL 實(shí)現(xiàn)表數(shù)據(jù)同步操作指南? ? 在數(shù)據(jù)庫管理工作中,將一張表的數(shù)據(jù)同步到另一張表是常見需求,這有助于 ...
2025-07-18數(shù)據(jù)分析師的技能圖譜:從數(shù)據(jù)到價值的橋梁? 在數(shù)據(jù)驅(qū)動決策的時代,數(shù)據(jù)分析師如同 “數(shù)據(jù)翻譯官”,將冰冷的數(shù)字轉(zhuǎn)化為清晰的 ...
2025-07-17Pandas 寫入指定行數(shù)據(jù):數(shù)據(jù)精細(xì)化管理的核心技能? 在數(shù)據(jù)處理的日常工作中,我們常常需要面對這樣的場景:在龐大的數(shù)據(jù)集里精 ...
2025-07-17解碼 CDA:數(shù)據(jù)時代的通行證? 在數(shù)字化浪潮席卷全球的今天,當(dāng)企業(yè)決策者盯著屏幕上跳動的數(shù)據(jù)曲線尋找增長密碼,當(dāng)科研人員在 ...
2025-07-17CDA 精益業(yè)務(wù)數(shù)據(jù)分析:數(shù)據(jù)驅(qū)動業(yè)務(wù)增長的實(shí)戰(zhàn)方法論 在企業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,“數(shù)據(jù)分析” 已從 “加分項” 成為 “必修課 ...
2025-07-16MySQL 中 ADD KEY 與 ADD INDEX 詳解:用法、差異與優(yōu)化實(shí)踐 在 MySQL 數(shù)據(jù)庫表結(jié)構(gòu)設(shè)計中,索引是提升查詢性能的核心手段。無論 ...
2025-07-16解析 MySQL Update 語句中 “query end” 狀態(tài):含義、成因與優(yōu)化指南? 在 MySQL 數(shù)據(jù)庫的日常運(yùn)維與開發(fā)中,開發(fā)者和 DBA 常會 ...
2025-07-16如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動的時代,面對海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時用t.test,何時用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11