
將SPSS分析技術(shù)應(yīng)用于大數(shù)據(jù)
數(shù)十年來(lái),IBM SPSS 為統(tǒng)計(jì)人員和數(shù)據(jù)科學(xué)家提供了強(qiáng)大的工具。多年來(lái),SPSS 平臺(tái)已發(fā)生了演變,支持數(shù)據(jù)挖掘流程的所有階段,包括模型開(kāi)發(fā)、模型部署和模型刷新。在過(guò)去兩年,SPSS 中增加了處理大數(shù)據(jù)的新功能。本文將介紹 SPSS 如何與 IBM 大數(shù)據(jù)產(chǎn)品組合的 3 個(gè)組件相集成:Netezza、InfoSphere BigInsights 和 InfoSphere Streams。
SPSS 平臺(tái)概述與大數(shù)據(jù)集成的 SPSS 軟件組件:
SPSS Modeler
SPSS Analytic Server
SPSS Collaboration and Deployment Services
SPSS Analytic Catalyst
SPSS Modeler 是一個(gè)數(shù)據(jù)挖掘工作臺(tái),用于分析數(shù)據(jù)和部署分析資產(chǎn)。通用術(shù)語(yǔ)分析資產(chǎn) 用于描述解決某個(gè)業(yè)務(wù)問(wèn)題的一個(gè)操作集合。數(shù)據(jù)科學(xué)家在描述使用數(shù)據(jù)挖掘工具開(kāi)發(fā)的資產(chǎn)時(shí),通常會(huì)使用術(shù)語(yǔ)模型 或預(yù)測(cè)模型。除了模型之外,SPSS 分析資產(chǎn)還可包含數(shù)據(jù)準(zhǔn)備步驟和業(yè)務(wù)規(guī)則。圖 1 顯示了 SPSS Modeler 中開(kāi)發(fā)的一個(gè)示例分析資產(chǎn)。在此示例中,我們使用一個(gè)決策樹(shù)模型來(lái)執(zhí)行貸款違約預(yù)測(cè)。分析資產(chǎn)執(zhí)行以下操作:
合并來(lái)自 3 個(gè)歷史數(shù)據(jù)源的數(shù)據(jù)
使用一個(gè) Type 節(jié)點(diǎn)識(shí)別用于模型預(yù)測(cè)的目標(biāo)變量 (MortgageDefault)
構(gòu)建一個(gè)基于 C5.0 決策樹(shù)算法的模型
選擇具有積極的貸款違約預(yù)測(cè)的記錄
將結(jié)果顯示在一個(gè)表中
SPSS Modeler 是一個(gè)可視編程環(huán)境。分析資產(chǎn)可通過(guò)連接畫(huà)布上的可視編程節(jié)點(diǎn)來(lái)創(chuàng)建;在運(yùn)行時(shí),節(jié)點(diǎn)按照連接箭頭的方向執(zhí)行。節(jié)點(diǎn)可按照相關(guān)功能進(jìn)行組織:Sources、Record Operations、Field Operations、Modeling 等。Modeling 選項(xiàng)卡顯示用于生成模型的算法(參見(jiàn)圖 2)。SPSS 發(fā)布了 27 個(gè)建模算法和整套的節(jié)點(diǎn),對(duì)一個(gè)數(shù)據(jù)集運(yùn)行多種算法并選擇最佳的節(jié)點(diǎn)。除了所描述的可視節(jié)點(diǎn)之外,如果分析師希望擴(kuò)展 SPSS Modeler 的基本功能,那么他們可以使用 SQL 函數(shù)、R 模型和自定義開(kāi)發(fā)的節(jié)點(diǎn)。
分析師使用歷史數(shù)據(jù)來(lái)構(gòu)建模型。創(chuàng)建模型后,分析師會(huì)修改分析資產(chǎn),以便對(duì)操作數(shù)據(jù)進(jìn)行評(píng)分(參見(jiàn)圖 3)。我們不再需要 Mortgage Default 數(shù)據(jù)源,因?yàn)樗瑲v史數(shù)據(jù)。我們刪除了 Type 和 Decision Tree 算法節(jié)點(diǎn)。C5 決策樹(shù)算法節(jié)點(diǎn)用于構(gòu)建模型。創(chuàng)建的模型用金塊圖標(biāo)表示 (MortgageDefault)。分析師將 Table 節(jié)點(diǎn)替換為一個(gè) Export 節(jié)點(diǎn),這會(huì)將數(shù)據(jù)寫(xiě)入一個(gè)數(shù)據(jù)庫(kù)表中。現(xiàn)在可以將這個(gè)分析資產(chǎn)用于對(duì)新貸款申請(qǐng)進(jìn)行批量或?qū)崟r(shí)評(píng)分。
用于大數(shù)據(jù)的第二個(gè) SPSS 組件是 SPSS Analytic Server。它管理對(duì) Hadoop 數(shù)據(jù)源的訪(fǎng)問(wèn),并設(shè)計(jì)一個(gè) Modeler 流在 Hadoop 中的運(yùn)行。Modeler 操作以 MapReduce 作業(yè)的形式在 Hadoop 中運(yùn)行,得到一個(gè)提供了高性能和高可伸縮性的解決方案。
用于大數(shù)據(jù)的下一個(gè) SPSS 組件是 SPSS Collaboration and Deployment Services (C&DS)。C&DS 執(zhí)行兩種主要功能:
用作分析資產(chǎn)的存儲(chǔ)庫(kù)。在將某項(xiàng)資產(chǎn)存儲(chǔ)在存儲(chǔ)庫(kù)中后,就可以使用它來(lái)設(shè)計(jì)批處理作業(yè)。該存儲(chǔ)庫(kù)還提供了與 InfoSphere Streams 的連接,以便實(shí)時(shí)更新 SPSS 模型。
提供一個(gè)接口來(lái)計(jì)劃批處理作業(yè),建模使用數(shù)據(jù)庫(kù)和 Hadoop 數(shù)據(jù)源的刷新作業(yè)。
SPSS Analytic Catalyst 通過(guò)一種易于使用的 Web 接口來(lái)執(zhí)行統(tǒng)計(jì)分析。它是為可能沒(méi)有深入理解數(shù)據(jù)挖掘的業(yè)務(wù)用戶(hù)設(shè)計(jì)的。SPSS Analytic Catalyst 向選定的數(shù)據(jù)源應(yīng)用多種算法和統(tǒng)計(jì)分析技術(shù)。結(jié)果可以通過(guò)可視元素和純語(yǔ)言解釋來(lái)呈現(xiàn)。圖 4 顯示了一個(gè) SPSS Analytic Catalyst 項(xiàng)目的示例輸出。
SPSS Analytic Catalyst 分析在 Hadoop 中運(yùn)行。與 Hadoop 中現(xiàn)有數(shù)據(jù)的數(shù)據(jù)源連接由 SPSS Analytic Server 提供。SPSS 與 InfoSphere BigInsights 的集成 一節(jié)中描述的所有數(shù)據(jù)源都可以用在 SPSS Analytic Catalyst 中。較小的數(shù)據(jù)集可通過(guò) Web 界面加載到 SPSS Analytic Catalyst 中。一個(gè) Hadoop 發(fā)行版是安裝 SPSS Analytic Catalyst 的一個(gè)必要軟件。安裝之后,無(wú)需額外的集成即可對(duì)大數(shù)據(jù)執(zhí)行分析。
接下來(lái),讓我們深入講講 SPSS 與 Netezza、InfoSphere BigInsights 和 InfoSphere Streams 的集成。
SPSS 與 Netezza 的集成Netezza 是一個(gè)高性能數(shù)據(jù)倉(cāng)庫(kù)。SPSS 和 Netezza 的集成是 SPSS 的一種典型的大數(shù)據(jù)集成場(chǎng)景。存儲(chǔ)在 Netezza 中的數(shù)據(jù)可用于模型構(gòu)建、評(píng)分和模型刷新。
SPSS Modeler 通過(guò) Netezza 所提供的一個(gè)開(kāi)放數(shù)據(jù)庫(kù)連接 (ODBC) 驅(qū)動(dòng)程序連接到 Netezza。Netezza 中存儲(chǔ)的數(shù)據(jù)可用作一個(gè) SPSS Modeler 流的輸入或輸出數(shù)據(jù)源。SPSS Modeler 支持對(duì) Netezza 執(zhí)行 SQL 推回:在運(yùn)行時(shí),Modeler 流被轉(zhuǎn)換為 SQL 并在 Netezza 中執(zhí)行。SQL 推回操作不需要手動(dòng)將 SPSS 代碼導(dǎo)入 Netezza 中。導(dǎo)入由 SPSS 平臺(tái)自動(dòng)處理。
除了 SQL 推回操作之外,SPSS 為 Netezza 提供了一個(gè)評(píng)分適配器,它允許使用無(wú)法轉(zhuǎn)換為 SQL 的 SPSS 節(jié)點(diǎn)作為 Netezza 中的用戶(hù)定義的函數(shù) (UDF)。
SPSS Modeler 還支持在 Netezza 數(shù)據(jù)庫(kù)中進(jìn)行挖掘。對(duì)于 SQL 推回操作和評(píng)分適配器,SPSS Modeler 將會(huì)生成代碼并在 Netezza 中運(yùn)行它。數(shù)據(jù)庫(kù)中挖掘節(jié)點(diǎn)由 Netezza 提供并由 SPSS 調(diào)用。所有描述的實(shí)現(xiàn)的最終結(jié)果都是讓性能得到了提升,因?yàn)閿?shù)據(jù)無(wú)需在 Netezza 和 SPSS 服務(wù)器之間移動(dòng)。
用于 Netezza 數(shù)據(jù)庫(kù)中挖掘的建模節(jié)點(diǎn)如圖 5 中所示。一些模型可同時(shí)用于 SPSS 和 Netezza 中,而其他模型是 Netezza 所獨(dú)有的。Netezza 中的數(shù)據(jù)庫(kù)中挖掘節(jié)點(diǎn)通過(guò)安裝 INZA 包來(lái)啟用,該包包含在 Netezza 中。默認(rèn)情況下,在 SPSS Modeler 中會(huì)提供 Netezza 數(shù)據(jù)庫(kù)中數(shù)據(jù)挖掘的用戶(hù)界面:這些節(jié)點(diǎn)可通過(guò)選擇 Tools > Options > Helper Applications 顯示在模型面板中。
InfoSphere BigInsights 是一個(gè)企業(yè)級(jí)的 Hadoop 發(fā)行版。類(lèi)似于 Netezza,與 InfoSphere BigInsights 的集成可用在數(shù)據(jù)挖掘流程的所有階段。SPSS 與 InfoSphere BigInsights 的集成由 SPSS Analytic Server 啟用。SPSS Analytic Server 隱藏了訪(fǎng)問(wèn) Hadoop 數(shù)據(jù)源的復(fù)雜性,支持分析師對(duì) Hadoop 中存儲(chǔ)的數(shù)據(jù)應(yīng)用了 SPSS Modeler 中提供的所有數(shù)據(jù)挖掘操作。在 SPSS Analytic Server 中配置后,可通過(guò) Modeler 中的一個(gè)來(lái)源節(jié)點(diǎn)對(duì) Hadoop 數(shù)據(jù)源進(jìn)行輕松的訪(fǎng)問(wèn)(參見(jiàn) 圖 6)。SPSS Analytic Server 支持 HDFS 和 HCatalog 數(shù)據(jù)源。HCatalog 被用作 NoSQL 數(shù)據(jù)源的一個(gè)網(wǎng)關(guān),這些數(shù)據(jù)源包括 Hive、HBase、Accumulo、JSON 和 XML。
SPSS 為多個(gè) SPSS Modeler 節(jié)點(diǎn)提供了 Hadoop 中 執(zhí)行功能,這些是支持以 MapReduce 作業(yè)形式在 Hadoop 內(nèi)執(zhí)行操作的節(jié)點(diǎn)。以下 SPSS Modeler 節(jié)點(diǎn)支持 Hadoop 內(nèi)的執(zhí)行操作:
大多數(shù)數(shù)據(jù)準(zhǔn)備操作
模型評(píng)分:C&RT、Quest、CHAID、Linear、Regression、Neural Net、C5.0、Logistic、Genlin、GLMM、Cox、SVM、Bayes Net、TwoStep、KNN、Decision List、Discriminant、Self Learning、Anomaly Detection、Apriori、Carma、K-Means、Kohonen 和 Text Mining
模型構(gòu)建:Linear、Neural Net、C&RT、Chaid 和 Quest
SPSS Analytic Server 支持在 Hadoop 中運(yùn)行 R 模型。一個(gè)流可同時(shí)包含 SPSS 和 R 模型。
SPSS Analytic Server 還提供了與數(shù)據(jù)庫(kù)數(shù)據(jù)源的連接。此特性支持您將數(shù)據(jù)庫(kù)和 Hadoop 數(shù)據(jù)合并到單個(gè) SPSS Modeler 流中。在運(yùn)行時(shí),SPSS Analytic Server 與 SPSS Modeler 服務(wù)器聯(lián)合,確定 SPSS Modeler 流的最佳運(yùn)行環(huán)境(SQL 推回操作或 Hadoop 內(nèi)的執(zhí)行操作)。
SPSS Analytic Server 支持 InfoSphere BigInsights 2.0 和 2.1、IBM PureData? for Hadoop 設(shè)備、InfoSphere BigInsights with Platform Symphony,以及其他多個(gè) Hadoop 發(fā)行版。
SPSS 與 InfoSphere Streams 的集成InfoSphere Streams 是一個(gè)處理流數(shù)據(jù)的 IBM 平臺(tái)。在實(shí)時(shí)處理需要高級(jí)分析時(shí)會(huì)使用 SPSS 集成。實(shí)時(shí)應(yīng)用預(yù)測(cè)分析的用例的示例包括網(wǎng)絡(luò)安全、銀行和信用卡欺詐檢測(cè)、預(yù)測(cè)性維護(hù),以及實(shí)時(shí)營(yíng)銷(xiāo)產(chǎn)品。
InfoSphere Streams 和 SPSS 集成在數(shù)據(jù)挖掘生命周期的部署階段中。模型使用存儲(chǔ)在數(shù)據(jù)庫(kù)或 Hadoop 中的歷史數(shù)據(jù)來(lái)開(kāi)發(fā),部署在 InfoSphere Streams 中以進(jìn)行實(shí)時(shí)評(píng)分。InfoSphere Streams 和 SPSS 的集成由 SPSS Scoring Toolkit 啟用,安裝在 InfoSphere Streams 中。Scoring Toolkit 是 SPSS Collaboration and Deployment Services (C&DS) 的一個(gè)組件。
在安裝該工具包后,InfoSphere Streams 開(kāi)發(fā)人員可使用操作符 將 SPSS 分析資產(chǎn)與 InfoSphere Streams 應(yīng)用程序相集成。publish 操作符在應(yīng)用程序開(kāi)發(fā)階段用來(lái)獲取適合 InfoSphere Streams 部署的 SPSS 模型。scoring 操作符在運(yùn)行時(shí)用于調(diào)用 SPSS 模型。repository 操作符可用于自動(dòng)從 SPSS 模型存儲(chǔ)庫(kù)拉取模型的最新版本。圖 7 顯示了 SPSS 與 InfoSphere Streams 運(yùn)行時(shí)的集成的圖表。
SPSS 平臺(tái)與 Netezza、InfoSphere BigInsights 和 InfoSphere Streams 的內(nèi)置集成能夠讓分析師使用強(qiáng)大的分析工具處理大數(shù)據(jù)。SPSS 組件(提供了全面的分析功能)和大數(shù)據(jù)平臺(tái)(支持可伸縮性和性能)的組合,為大數(shù)據(jù)開(kāi)發(fā)人員提供了訪(fǎng)問(wèn) SPSS 技術(shù)的能力。可以輕松地對(duì) SPSS 分析資產(chǎn)進(jìn)行修改,以便連接到不同的大數(shù)據(jù)來(lái)源,這些分析資產(chǎn)可以在不同的部署模式(批處理或?qū)崟r(shí)模式)下運(yùn)行。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03