99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀數(shù)據(jù)關(guān)系挖掘算法、技術(shù)難點(diǎn)及應(yīng)用場景分析
數(shù)據(jù)關(guān)系挖掘算法、技術(shù)難點(diǎn)及應(yīng)用場景分析
2016-05-11
收藏

數(shù)據(jù)關(guān)系挖掘算法、技術(shù)難點(diǎn)及應(yīng)用場景分析

數(shù)據(jù)關(guān)系挖掘作為解決數(shù)據(jù)孤島等難題的手段之一,可以有效的幫助企業(yè)將多樣化的數(shù)據(jù)進(jìn)行統(tǒng)一存儲并挖掘出其中隱藏的價值,目前在公安、電信、金融等傳統(tǒng)行業(yè)中的應(yīng)用也正變得愈加廣泛。為了了解數(shù)據(jù)關(guān)系挖掘背后的算法應(yīng)用、技術(shù)難點(diǎn)等問題,InfoQ對明略數(shù)據(jù)技術(shù)合伙人及SCOPA產(chǎn)品負(fù)責(zé)人任鑫琦進(jìn)行了獨(dú)家專訪。

SCOPA是明略數(shù)據(jù)去年底剛剛推出的一款數(shù)據(jù)關(guān)系挖掘新產(chǎn)品,它構(gòu)建在企業(yè)大數(shù)據(jù)平臺之上,可結(jié)合明略數(shù)據(jù)在特定領(lǐng)域與行業(yè)中積累的業(yè)務(wù)知識,進(jìn)行領(lǐng)域模型的轉(zhuǎn)換,并且將轉(zhuǎn)換后的領(lǐng)域模型對象數(shù)據(jù)進(jìn)行關(guān)聯(lián),將所有數(shù)據(jù)轉(zhuǎn)換成業(yè)務(wù)人員能輕松理解的數(shù)據(jù)形式,挖掘出這些數(shù)據(jù)之間的聯(lián)系,把有關(guān)聯(lián)的數(shù)據(jù)放在一起,最后交給上層的業(yè)務(wù)人員用以展示或分析。

明略技術(shù)合伙人任鑫琦:數(shù)據(jù)關(guān)系挖掘算法、技術(shù)難點(diǎn)及應(yīng)用場景分析-圖片1

明略技術(shù)合伙人任鑫琦

Q:提到數(shù)據(jù)挖掘和數(shù)據(jù)分析,就不得不談算法的問題。前一段時間谷歌AlphaGo在圍棋對戰(zhàn)中戰(zhàn)勝世界頂級圍棋棋手李世石,這使得機(jī)器算法的話題引起了一陣熱議。能否請您談一談明略的SCOPA在實(shí)際使用時都用到了哪些算法?怎么用的?這些算法各自又有什么不同的特點(diǎn)?

任鑫琦:SCOPA在做數(shù)據(jù)的關(guān)系構(gòu)建或數(shù)據(jù)關(guān)聯(lián)時,要用到的方法是多種多樣的。因?yàn)樵谶@一過程中所面對的數(shù)據(jù)形式、數(shù)據(jù)來源、數(shù)據(jù)種類同樣也是多種多樣的?;A(chǔ)的數(shù)據(jù)挖掘算法肯定是必要的,比如基礎(chǔ)的分類算法和聚類算法,這也是明略數(shù)據(jù)在公安和金融領(lǐng)域通過實(shí)踐而知的,不同于其他行業(yè)應(yīng)用的一個重要方面。

傳統(tǒng)行業(yè)的業(yè)務(wù)人員更多的是依靠自己的經(jīng)驗(yàn)和習(xí)慣去總結(jié)一些類似于公式的東西,然后將抽樣數(shù)據(jù)或者是能找到的結(jié)構(gòu)化數(shù)據(jù)套用在這個公式上去計算,然后得到比如像重點(diǎn)人防控的數(shù)據(jù)模型或者是金融行業(yè)里的反欺詐數(shù)據(jù)模型等等。這些模型的問題大多在于它是源于“人”的經(jīng)驗(yàn),其數(shù)據(jù)特征都是由“人”的主管意識來決定的。

從傳統(tǒng)的數(shù)據(jù)挖掘方法上來看,明略其實(shí)是利用相關(guān)技術(shù),先將所有數(shù)據(jù)進(jìn)行人工智能處理,比如先自動的按照一些基本特征去進(jìn)行分類、聚類,雖然這中間產(chǎn)生的數(shù)據(jù)處理結(jié)果并一定能被人類完全理解,但是SCOPA會在這個基礎(chǔ)之上再根據(jù)一些真實(shí)的數(shù)據(jù)樣本,比如公安部門中的案件數(shù)據(jù),或者金融領(lǐng)域里過去發(fā)生的欺詐行為的數(shù)據(jù),來作為樣本再進(jìn)行訓(xùn)練。這樣的話,之后得出來的規(guī)則集和模型,其實(shí)都是由真實(shí)的數(shù)據(jù)特征所決定的結(jié)果,相比“人”的主觀意識來說會更精確。

另外在解決數(shù)據(jù)關(guān)聯(lián)問題上,明略會把數(shù)據(jù)轉(zhuǎn)化成類似知識圖譜的形式去進(jìn)行存儲,幫助業(yè)務(wù)人員能夠更容易地去理解這些數(shù)據(jù)。而在這之后,就可以結(jié)合很多在互聯(lián)網(wǎng)領(lǐng)域中很成熟的圖像數(shù)據(jù)挖掘與分析的方法,從中再繼續(xù)提取數(shù)據(jù)特征,找到有用的信息。

比如一些離線的圖挖掘算法,可以做一個省內(nèi)一億人口之間的數(shù)據(jù)記錄關(guān)系網(wǎng),然后就能從數(shù)據(jù)關(guān)系網(wǎng)當(dāng)中挖掘出一些可疑的團(tuán)伙或是一些正常的交集群,這些通過現(xiàn)成的數(shù)據(jù)挖掘算法就可以實(shí)現(xiàn)。甚至還可以做一些link prediction的預(yù)測工作,分析這張數(shù)據(jù)關(guān)系網(wǎng)里面哪部分處于活躍狀態(tài),哪部分未來可能會發(fā)生一些關(guān)聯(lián)的事件。

同時這張數(shù)據(jù)關(guān)系網(wǎng)也可以做一些可視化的展示,或是可視化的分析。比如在一個群體內(nèi)部,可以分析出哪些方面是權(quán)重點(diǎn),而這就需要一些更具體的圖挖掘或圖分析的算法了。比如可以利用基于Betweenness或Closeness等方法去計算出一些核心點(diǎn)。

舉一些簡單例子,比如基于Betweenness計算的點(diǎn),它相當(dāng)于在一個犯罪團(tuán)伙內(nèi)所有通路和路徑交匯最多的一個點(diǎn),也相當(dāng)于這個團(tuán)伙組織架構(gòu)的一個核心點(diǎn),而這個點(diǎn)可能并不只一個,那么如果能夠把這些點(diǎn)都一一破獲的話,那么這個團(tuán)伙或者組織就基本會落網(wǎng)了,這在公安部門打擊一些非法傳銷或者非法金融鏈條的時候會有所應(yīng)用。而基于Closeness的方法則是利用計算中心度的方式來尋找一些團(tuán)伙內(nèi)真正的核心人物,這個人關(guān)聯(lián)到團(tuán)伙內(nèi)其他人的平均距離應(yīng)該是最短的,這也是打擊非法團(tuán)伙的最快方式。

此外由于在大量的結(jié)構(gòu)化數(shù)據(jù)之外還有很多非結(jié)構(gòu)化的數(shù)據(jù),尤其是像公安部門中的案情、筆錄、出警描述這樣的文本數(shù)據(jù),里面往往都包含著非常重要信息,所以SCOPA所使用比較多的另外一類算法,就是自然語言處理NLP,同時也會進(jìn)行非常精準(zhǔn)的命名實(shí)體識別,并計算實(shí)體之間的關(guān)系。比如可以通過一段文字描述鎖定在某地區(qū)出現(xiàn)過的一群人,同時分析這些人之間的聯(lián)系,其中哪些人跟某個案件有什么樣的關(guān)聯(lián),受害人或被害人是誰,他們是否有一些共同的特征,某些地址、單位是否會跟他們產(chǎn)生關(guān)聯(lián),這些都是自然語言處理算法需要解決的問題。

當(dāng)需要處理的案件描述非常多的情況下,比如110接警電話記錄,或是警察調(diào)查走訪的筆錄等等,那么SCOPA就可以進(jìn)行自動化的案件對比和分類工作,以便在大規(guī)模的案件描述里挖掘出一些數(shù)據(jù)特征,為一線調(diào)查人員的工作起到指引作用。

Q:數(shù)據(jù)關(guān)系挖掘的作用毋庸置疑,理論上的方法也有很多,但是要想在實(shí)際的應(yīng)用場景中做好落地,還需要考慮更多的細(xì)節(jié)問題。那么能否請您談一談進(jìn)行數(shù)據(jù)關(guān)系挖掘時會面臨哪些技術(shù)難點(diǎn)?

任鑫琦:關(guān)聯(lián)數(shù)據(jù)挖掘或者更深入的說關(guān)系數(shù)據(jù)挖掘,研究的不僅僅是客觀上的關(guān)聯(lián)度,還會深入挖掘在物理世界中真實(shí)存在的某種準(zhǔn)確的直接聯(lián)系,同時還要確定是什么樣的聯(lián)系。那么在進(jìn)行關(guān)系數(shù)據(jù)挖掘時的難點(diǎn),主要就在于確定數(shù)據(jù)模型的特征時,必須要保證數(shù)據(jù)特征的準(zhǔn)確性,否則可能做出來的模型也是不夠精確的,而這種似是而非的數(shù)據(jù)模型在很多行業(yè)中其實(shí)是沒有意義的,比如公安部門就必須要使用非常嚴(yán)格的數(shù)據(jù)模型。

SCOPA所使用的算法都是依賴于底層數(shù)據(jù)支持的,然而數(shù)據(jù)量越大并不一定就越好,而是數(shù)據(jù)的種類和來源越多越好。比如說公安部門需要確定犯罪嫌疑人之間的關(guān)系,那么如果能夠擁有關(guān)聯(lián)類數(shù)據(jù)、軌跡類數(shù)據(jù)、網(wǎng)絡(luò)虛擬化數(shù)據(jù)、電信運(yùn)營商數(shù)據(jù)等的話,就能確定嫌疑人經(jīng)常出現(xiàn)的位置,這樣可以依靠出現(xiàn)時間、空間、頻次等幾類模型來將這個人以及與之有關(guān)系的人或物給確定下來。

然而真正要完成這項工作,還需要克服兩個挑戰(zhàn),第一個是如何盡可能多的收集和處理數(shù)據(jù);第二個是如何在這么多復(fù)雜的數(shù)據(jù)之上挖掘關(guān)聯(lián)性,這需要足夠強(qiáng)的計算能力。

Q:隨著企業(yè)在大數(shù)據(jù)方面的需求不斷擴(kuò)大,數(shù)據(jù)的關(guān)聯(lián)、關(guān)系挖掘在行業(yè)中的應(yīng)用范圍也正變得越來越廣。您認(rèn)為數(shù)據(jù)關(guān)系挖掘相關(guān)技術(shù)最近有哪些發(fā)展趨勢呢?

任鑫琦:在沒有大數(shù)據(jù)概念之前,很多時候是用數(shù)據(jù)庫去做一些顯性關(guān)聯(lián)分析,而當(dāng)有了大數(shù)據(jù)概念之后,更多地其實(shí)是想做隱性的關(guān)聯(lián)分析與挖掘,也就是結(jié)合不同類型的數(shù)據(jù),然后找到其中的聯(lián)系。因此這其中的趨勢,實(shí)際就是目前的數(shù)據(jù)關(guān)系挖掘更加偏向于跨領(lǐng)域數(shù)據(jù)或者跨類型數(shù)據(jù)的綜合分析。

另外一個趨勢就是數(shù)據(jù)分析中需要考慮的數(shù)據(jù)各種特征以及各種維度都越來越多,比如時間緯度、空間緯度、關(guān)系緯度、頻次緯度等等,而這樣一來數(shù)據(jù)關(guān)系挖掘的結(jié)果就會變得越來越準(zhǔn)確。

目前還出現(xiàn)了一些類似于搜索引擎相關(guān)技術(shù)的數(shù)據(jù)分析技術(shù),它可以通過一些文本及文字的匹配,進(jìn)行一些類似關(guān)聯(lián)度分析的數(shù)據(jù)挖掘。但是這種數(shù)據(jù)關(guān)系挖掘,可能今后發(fā)展的空間以及潛力會相對少一些。

Q:目前看來,數(shù)據(jù)關(guān)系挖掘在保障公共安全以及維護(hù)治安方面的作用是非常顯著的,通過技術(shù)層面的手段,尋找數(shù)據(jù)之間的隱藏信息,這對于公安部門來說正是提升執(zhí)法效率的途徑之一,您能否簡單地介紹一個相關(guān)的數(shù)據(jù)關(guān)系挖掘應(yīng)用案例呢?

任鑫琦:明略曾經(jīng)為一個市級公安局做了數(shù)據(jù)系統(tǒng),之后當(dāng)某個區(qū)域內(nèi)經(jīng)常出現(xiàn)電動車或者電動三輪車盜竊案后,直接通過數(shù)據(jù)關(guān)系挖掘在一分鐘之內(nèi)鎖定了該盜竊團(tuán)伙。

這其實(shí)是根據(jù)這個區(qū)域中的攝像頭數(shù)據(jù),先找出一些可疑車輛,接著分析在一定時間范圍內(nèi)這些車輛出現(xiàn)的位置,基于這些篩查工作的結(jié)果,再對比車主個人信息、違章記錄以及與車主有關(guān)聯(lián)的人,從而把范圍縮小到一些小人群上,然后把這些人群的行為軌跡進(jìn)行區(qū)域數(shù)據(jù)模型驗(yàn)證,確定他們在固定的時間段內(nèi),在固定范圍內(nèi)出現(xiàn)的概率,在進(jìn)一步的篩查之后,計算出關(guān)聯(lián)度最高的那群人,最后由調(diào)查人員再通過進(jìn)一步的調(diào)查取證,鎖定了該電動車盜竊團(tuán)伙。

而過去一般遇到這樣的案件,如果警方只用傳統(tǒng)的數(shù)據(jù)檢索和數(shù)據(jù)比對的方式的話,可能至少需要一個小團(tuán)隊工作三到四天才能破案。


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗(yàn)證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }