
教你如何合理有效地選擇數(shù)據(jù)挖掘工具_數(shù)據(jù)分析師考試
數(shù)據(jù)挖掘作為一項從海量數(shù)據(jù)中提取知識的信息技術引起了國內外學術界和產業(yè)界的廣泛關注,它在商業(yè)方面的成功應用使得軟件開發(fā)商不斷開發(fā)新的數(shù)據(jù)挖掘工具,改進現(xiàn)有的數(shù)據(jù)挖掘工具,一時之間數(shù)據(jù)挖掘工具可謂琳瑯滿目,于是出現(xiàn)了如何合理選擇挖掘工具的問題。鑒于此,本文提出并討論了五點關于合理選擇數(shù)據(jù)挖掘工具的技巧。
數(shù)據(jù)倉庫 隨著數(shù)據(jù)庫和計算機網絡的廣泛應用,加上先進的數(shù)據(jù)自動生成和采集工具的使用,人們擁有的數(shù)據(jù)量急劇增大。然而數(shù)據(jù)的極速增長與數(shù)據(jù)分析方法的改進并不成正比,一方面人們希望在已有的大量數(shù)據(jù)的基礎上進行科學研究、商業(yè)決策、企業(yè)管理,另一方面?zhèn)鹘y(tǒng)的數(shù)據(jù)分析工具很難令人滿意的對數(shù)據(jù)進行深層次的處理,這樣二者之間的矛盾日益突出,正是在這種狀況下,數(shù)據(jù)挖掘應運而生。數(shù)據(jù)挖掘作為一項從海量數(shù)據(jù)中提取知識的信息技術是一個"以發(fā)現(xiàn)為驅動"的過程,已經引起了學術界和產業(yè)界的極大重視。
特別是從1989年8月在美國底特律召開的第11屆國際人工智能聯(lián)合會議上首次出現(xiàn)數(shù)據(jù)庫中的知識發(fā)現(xiàn)概念以來,數(shù)據(jù)挖掘在國際國內都受到了前所未有的重視,目前數(shù)據(jù)挖掘廣泛應用于各個領域,如地理學、地質學、生物醫(yī)學等等,總之數(shù)據(jù)挖掘的出現(xiàn)使數(shù)據(jù)庫技術進入了一個更高級的階段,不僅能對過去的數(shù)據(jù)進行查詢和遍歷,還能夠找出以往數(shù)據(jù)間潛在的聯(lián)系,促進信息的傳播。
數(shù)據(jù)挖掘技術概述
1、數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘是一個從數(shù)據(jù)中提取模式的過程,是一個受多個學科影響的交叉領域,包括數(shù)據(jù)庫系統(tǒng)、統(tǒng)計學、機器學習、可視化和信息科學等;數(shù)據(jù)挖掘反復使用多種數(shù)據(jù)挖掘算法從觀測數(shù)據(jù)中確定模式或合理模型,是一種決策支持過程。通過預測客戶的行為,幫助企業(yè)的決策者調整市場策略,減少風險,做出正確的決策。由于傳統(tǒng)的事物型工具(如查詢工具、報表工具)無法回答事先未定義的綜合性問題或跨部門/機構的問題,因此其用戶必須清楚地了解問題的目的。數(shù)據(jù)挖掘就可以回答事先未加定義的綜合性問題或跨部門/機構的問題,挖掘潛在的模式并預測未來的趨勢,用戶不必提出確切的問題,而且模糊問題更有利于發(fā)現(xiàn)未知的事實。
2、數(shù)據(jù)挖掘的主要方法和途徑 數(shù)據(jù)挖掘有很多種分類方法,如按發(fā)現(xiàn)的知識種類,挖掘的數(shù)據(jù)庫類型,挖掘方法,挖掘途徑,所采用的技術等等。下面只討論四個應用比較廣泛的方法: ?關聯(lián)規(guī)則(Association Rule) 在數(shù)據(jù)挖掘領域中,關聯(lián)規(guī)則應用最為廣泛,是重要的研究方向。表示數(shù)據(jù)庫中一組對象之間某種關聯(lián)關系的規(guī)則,一般來講,可以用多個參數(shù)來描述一個關聯(lián)規(guī)則的屬性,常用的有:可信度,支持度,興趣度,期望可信度,作用度。 ?離群數(shù)據(jù)(Outlier) 離群數(shù)據(jù)就是明顯偏離其他數(shù)據(jù)、不滿足數(shù)據(jù)的一般模式或行為、與存在的其他數(shù)據(jù)不一致的數(shù)據(jù)。
數(shù)據(jù)挖掘的大部分研究忽視了離群數(shù)據(jù)的存在和意義,現(xiàn)有的方法往往研究如何減少離群數(shù)據(jù)對正常數(shù)據(jù)的影響,或僅僅把其當作噪音來對待。這些離群數(shù)據(jù)可能來源于計算機錄入錯誤、人為錯誤等,也可能就是數(shù)據(jù)的真實反映。 ?基于案例的推理(case-based reasoning, CBR) 基于案例的推理來源于人類的認知心理活動,它屬于類比推理方法。其基本思想是基于人們在問題求解中習慣于過去處理類似問題的經驗和獲取的知識,在針對新舊情況的差異作相應的調整,從而得到新問題的解并形成新的案例。
CBR方法的應用越來越受到人們的重視,在許多領域都有較好的推廣前景,例如,在氣象、環(huán)保、地震、農業(yè)、醫(yī)療、商業(yè)、CAD等領域;CBR也可用在計算機軟硬件的生產中,如軟件及硬件的故障檢測;CBR方法尤其在不易總結出專家知識的領域中,應用越來越普遍,也越來越深入。 ?支持向量機(Support Vector Machine,SVM) 支持向量機是近幾年發(fā)展起來的新型通用的知識發(fā)現(xiàn)方法,在分類方面具有良好的性能。SVM是建立在計算學習理論的結構風險最小化原則之上,主要思想是針對兩類分類問題在高位空間中尋找一個超平面作為兩類的分割,以保證最小的分類錯誤率。
伴隨越來越多的軟件供應商加入數(shù)據(jù)挖掘這一行列,使得現(xiàn)有的挖掘工具的性能得到進一步的增強,使用更加便捷,也使得其價格門檻迅速降低,為應用的普及帶來了可能。當然數(shù)據(jù)倉庫技術的發(fā)展同樣功不可沒。數(shù)據(jù)倉庫是將海量復雜的客戶行為數(shù)據(jù)集中起來建立的一個整合的、結構化的數(shù)據(jù)模型,是實施數(shù)據(jù)挖掘的基礎,這里不作為討論的重點。
1、數(shù)據(jù)挖掘工具分類 一般來講,數(shù)據(jù)挖掘工具根據(jù)其適用的范圍分為兩類:專用數(shù)據(jù)挖掘工具和通用數(shù)據(jù)挖掘工具。專用數(shù)據(jù)挖掘工具是針對某個特定領域的問題提供解決方案,在涉及算法的時候充分考慮了數(shù)據(jù)、需求的特殊性,并作了優(yōu)化;而通用數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型。
2、數(shù)據(jù)挖掘工具的選擇 數(shù)據(jù)挖掘是一個過程,只有將數(shù)據(jù)挖掘工具提供的技術和實施經驗與企業(yè)的業(yè)務邏輯和需求緊密結合,并在實施的過程中不斷的磨合,才能取得成功,因此我們在選擇數(shù)據(jù)挖掘工具的時候,要全面考慮多方面的因素,主要包括以下幾點: 數(shù)據(jù)挖掘的功能和方法 即是否可以完成各種數(shù)據(jù)挖掘的任務,如:關聯(lián)分析、分類分析、序列分析、回歸分析、聚類分析、自動預測等。我們知道數(shù)據(jù)挖掘的過程一般包括數(shù)據(jù)抽樣、數(shù)據(jù)描述和預處理、數(shù)據(jù)變換、模型的建立、模型評估和發(fā)布等,因此一個好的數(shù)據(jù)挖掘工具應該能夠為每個步驟提供相應的功能集。數(shù)據(jù)挖掘工具還應該能夠方便的導出挖掘的模型,從而在以后的應用中使用該模型。
數(shù)據(jù)挖掘工具的可伸縮性 也就是說解決復雜問題的能力,一個好的數(shù)據(jù)挖掘工具應該可以處理盡可能大的數(shù)據(jù)量,可以處理盡可能多的數(shù)據(jù)類型,可以盡可能高的提高處理的效率,盡可能使處理的結果有效。如果在數(shù)據(jù)量和挖掘維數(shù)增加的情況下,挖掘的時間呈線性增長,那么可以認為該挖掘工具的伸縮性較好。
操作的簡易性 一個好的數(shù)據(jù)挖掘工具應該為用戶提供友好的可視化操作界面和圖形化報表工具,在進行數(shù)據(jù)挖掘的過程中應該盡可能提高自動化運行程度??傊敲嫦驈V大用戶的而不是熟練的專業(yè)人員。 ?數(shù)據(jù)挖掘工具的可視化 這包括源數(shù)據(jù)的可視化、挖掘模型的可視化、挖掘過程的可視化、挖掘結果的可視化,可視化的程度、質量和交互的靈活性都將嚴重影響到數(shù)據(jù)挖掘系統(tǒng)的使用和解釋能力。畢竟人們接受外界信息的80%是通過視覺獲得的,自然數(shù)據(jù)挖掘工具的可視化能力就相當重要。
數(shù)據(jù)挖掘工具的開放性 即數(shù)據(jù)挖掘工具與數(shù)據(jù)庫的結合能力。好的數(shù)據(jù)挖掘工具應該可以連接盡可能多的數(shù)據(jù)庫管理系統(tǒng)和其他的數(shù)據(jù)資源,應盡可能的與其他工具進行集成;盡管數(shù)據(jù)挖掘并不要求一定要在數(shù)據(jù)庫或數(shù)據(jù)倉庫之上進行,但數(shù)據(jù)挖掘的數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)變換等等將耗費巨大的時間和資源,因此數(shù)據(jù)挖掘工具必須要與數(shù)據(jù)庫緊密結合,減少數(shù)據(jù)轉換的時間,充分利用整個的數(shù)據(jù)和數(shù)據(jù)倉庫的處理能力,在數(shù)據(jù)倉庫內直接進行數(shù)據(jù)挖掘,而且開發(fā)模型,測試模型,部署模型都要充分利用數(shù)據(jù)倉庫的處理能力,另外,多個數(shù)據(jù)挖掘項目可以同時進行。 當然,上述的只是一些通用的參考指標,具體選擇挖掘工具時還需要從實際情況出發(fā)具體分析。
數(shù)據(jù)挖掘工具的現(xiàn)狀
比較著名的有IBM Intelligent Miner、SAS Enterprise Miner、SPSS Clementine等,它們都能夠提供常規(guī)的挖掘過程和挖掘模式。 1、Intelligent Miner 由美國IBM公司開發(fā)的數(shù)據(jù)挖掘軟件Intelligent Miner是一種分別面向數(shù)據(jù)庫和文本信息進行數(shù)據(jù)挖掘的軟件系列,它包括Intelligent Miner for Data和Intelligent Miner for Text。Intelligent Miner for Data可以挖掘包含在數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)中心中的隱含信息,幫助用戶利用傳統(tǒng)數(shù)據(jù)庫或普通文件中的結構化數(shù)據(jù)進行數(shù)據(jù)挖掘。
它已經成功應用于市場分析、詐騙行為監(jiān)測及客戶聯(lián)系管理等;Intelligent Miner for Text允許企業(yè)從文本信息進行數(shù)據(jù)挖掘,文本數(shù)據(jù)源可以是文本文件、Web頁面、電子郵件、Lotus Notes數(shù)據(jù)庫等等。
2、Enterprise Miner 這是一種在我國的企業(yè)中得到采用的數(shù)據(jù)挖掘工具,比較典型的包括上海寶鋼配礦系統(tǒng)應用和鐵路部門在春運客運研究中的應用。SAS Enterprise Miner是一種通用的數(shù)據(jù)挖掘工具,按照"抽樣--探索--轉換--建模--評估"的方法進行數(shù)據(jù)挖掘??梢耘cSAS數(shù)據(jù)倉庫和OLAP集成,實現(xiàn)從提出數(shù)據(jù)、抓住數(shù)據(jù)到得到解答的"端到端"知識發(fā)現(xiàn)。
3、SPSS Clementine SPSS Clementine是一個開放式數(shù)據(jù)挖掘工具,曾兩次獲得英國政府SMART 創(chuàng)新獎,它不但支持整個數(shù)據(jù)挖掘流程,從數(shù)據(jù)獲取、轉化、建模、評估到最終部署的全部過程,還支持數(shù)據(jù)挖掘的行業(yè)標準--CRISP-DM。Clementine的可視化數(shù)據(jù)挖掘使得"思路"分析成為可能,即將集中精力在要解決的問題本身,而不是局限于完成一些技術性工作(比如編寫代碼)。
提供了多種圖形化技術,有助理解數(shù)據(jù)間的關鍵性聯(lián)系,指導用戶以最便捷的途徑找到問題的最終解決辦法。 其它常用的數(shù)據(jù)挖掘工具還有LEVEL5 Quest 、MineSet (SGI) 、Partek 、SE-Learn 、SPSS 的數(shù)據(jù)挖掘軟件Snob、Ashraf Azmy 的SuperQuery 、WINROSA 、XmdvTool 等。
結束語 經過十多年的發(fā)展,數(shù)據(jù)挖掘工具的性能獲得了顯著的改善,不論是自動化程度還是適用范圍都發(fā)生了巨大變化,價格的門檻迅速降低,對于推進數(shù)據(jù)挖掘在企業(yè)和電子商務中的應用具有特殊的意義。但是還應該看到,現(xiàn)在的數(shù)據(jù)挖掘工具還存在許多的不足,1999年的調查顯示多數(shù)的數(shù)據(jù)挖掘工具只使用了有限的幾種技術,且集中在比較簡單的數(shù)據(jù)挖掘技術種類上。 所以我們呼吁每個企業(yè)都必須結合自己的實際情況,充分考慮本企業(yè)在數(shù)據(jù)挖掘領域的實施經驗,避免踏進僅僅是"選擇工具"的陷阱,從而獲得一個完善的數(shù)據(jù)挖掘解決方案,真正把數(shù)據(jù)挖掘融入到企業(yè)的經營決策中。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03