
將SPSS分析技術應用于大數(shù)據(jù)
了解 SPSS? 中處理大數(shù)據(jù)的新功能?,F(xiàn)在可以對 SPSS 分析資產(chǎn)輕松地進行修改,以便連接到不同的大數(shù)據(jù)來源,它們還可以在不同的部署模式(批處理或實時模式)下運行。SPSS 平臺的組件現(xiàn)在可與 IBM Netezza、InfoSphere? BigInsights? 和 InfoSphere Streams 結合使用,以支持分析師對大數(shù)據(jù)使用強大的分析工具。
數(shù)十年來,IBM SPSS 為統(tǒng)計人員和數(shù)據(jù)科學家提供了強大的工具。多年來,SPSS 平臺已發(fā)生了演變,支持數(shù)據(jù)挖掘流程的所有階段,包括模型開發(fā)、模型部署和模型刷新。在過去兩年,SPSS 中增加了處理大數(shù)據(jù)的新功能。本文將介紹 SPSS 如何與 IBM 大數(shù)據(jù)產(chǎn)品組合的 3 個組件相集成:Netezza、InfoSphere BigInsights 和 InfoSphere Streams。
與大數(shù)據(jù)集成的 SPSS 軟件組件:
1.SPSS Modeler
2.SPSS Analytic Server
3.SPSS Collaboration and Deployment Services
4.SPSS Analytic Catalyst
SPSS Modeler 是一個數(shù)據(jù)挖掘工作臺,用于分析數(shù)據(jù)和部署分析資產(chǎn)。通用術語分析資產(chǎn) 用于描述解決某個業(yè)務問題的一個操作集合。數(shù)據(jù)科學家在描述使用數(shù)據(jù)挖掘工具開發(fā)的資產(chǎn)時,通常會使用術語模型 或預測模型。除了模型之外,SPSS 分析資產(chǎn)還可包含數(shù)據(jù)準備步驟和業(yè)務規(guī)則。圖 1 顯示了 SPSS Modeler 中開發(fā)的一個示例分析資產(chǎn)。在此示例中,我們使用一個決策樹模型來執(zhí)行貸款違約預測。分析資產(chǎn)執(zhí)行以下操作:
1.合并來自 3 個歷史數(shù)據(jù)源的數(shù)據(jù)
2.使用一個 Type 節(jié)點識別用于模型預測的目標變量 (MortgageDefault)
3.構建一個基于 C5.0 決策樹算法的模型
4.選擇具有積極的貸款違約預測的記錄
5.將結果顯示在一個表中
圖 1. SPSS Modeler 中開發(fā)的分析資產(chǎn)
該圖顯示了決策樹模型圖
SPSS Modeler 是一個可視編程環(huán)境。分析資產(chǎn)可通過連接畫布上的可視編程節(jié)點來創(chuàng)建;在運行時,節(jié)點按照連接箭頭的方向執(zhí)行。節(jié)點可按照相關功能進行組織:Sources、Record Operations、Field Operations、Modeling 等。Modeling 選項卡顯示用于生成模型的算法(參見圖 2)。SPSS 發(fā)布了 27 個建模算法和整套的節(jié)點,對一個數(shù)據(jù)集運行多種算法并選擇最佳的節(jié)點。除了所描述的可視節(jié)點之外,如果分析師希望擴展 SPSS Modeler 的基本功能,那么他們可以使用 SQL 函數(shù)、R 模型和自定義開發(fā)的節(jié)點。
圖 2. 包含生成模型的算法的 Modeling 選項卡
Modeling 選項卡顯示了每種算法的符號
分析師使用歷史數(shù)據(jù)來構建模型。創(chuàng)建模型后,分析師會修改分析資產(chǎn),以便對操作數(shù)據(jù)進行評分(參見圖 3)。我們不再需要 Mortgage Default 數(shù)據(jù)源,因為它包含歷史數(shù)據(jù)。我們刪除了 Type 和 Decision Tree 算法節(jié)點。C5 決策樹算法節(jié)點用于構建模型。創(chuàng)建的模型用金塊圖標表示 (MortgageDefault)。分析師將 Table 節(jié)點替換為一個 Export 節(jié)點,這會將數(shù)據(jù)寫入一個數(shù)據(jù)庫表中。現(xiàn)在可以將這個分析資產(chǎn)用于對新貸款申請進行批量或實時評分。
圖 3. 包含 Type、Decision Tree 并刪除了 Mortgage Default 數(shù)據(jù)源的已修改模型
更新的圖表僅顯示剩下的算法
用于大數(shù)據(jù)的第二個 SPSS 組件是 SPSS Analytic Server。它管理對 Hadoop 數(shù)據(jù)源的訪問,并設計一個 Modeler 流在 Hadoop 中的運行。Modeler 操作以 MapReduce 作業(yè)的形式在 Hadoop 中運行,得到一個提供了高性能和高可伸縮性的解決方案。
用于大數(shù)據(jù)的下一個 SPSS 組件是 SPSS Collaboration and Deployment Services (C&DS)。C&DS 執(zhí)行兩種主要功能:
用作分析資產(chǎn)的存儲庫。在將某項資產(chǎn)存儲在存儲庫中后,就可以使用它來設計批處理作業(yè)。該存儲庫還提供了與 InfoSphere Streams 的連接,以便實時更新 SPSS 模型。
提供一個接口來計劃批處理作業(yè),建模使用數(shù)據(jù)庫和 Hadoop 數(shù)據(jù)源的刷新作業(yè)。
SPSS Analytic Catalyst 通過一種易于使用的 Web 接口來執(zhí)行統(tǒng)計分析。它是為可能沒有深入理解數(shù)據(jù)挖掘的業(yè)務用戶設計的。SPSS Analytic Catalyst 向選定的數(shù)據(jù)源應用多種算法和統(tǒng)計分析技術。結果可以通過可視元素和純語言解釋來呈現(xiàn)。圖 4 顯示了一個 SPSS Analytic Catalyst 項目的示例輸出。
圖 4. SPSS Analytic Catalyst 返回對某個數(shù)據(jù)源的分析的結果
決策樹顯示了一個基于設備年齡的結構
SPSS Analytic Catalyst 分析在 Hadoop 中運行。與 Hadoop 中現(xiàn)有數(shù)據(jù)的數(shù)據(jù)源連接由 SPSS Analytic Server 提供。SPSS 與 InfoSphere BigInsights 的集成 一節(jié)中描述的所有數(shù)據(jù)源都可以用在 SPSS Analytic Catalyst 中。較小的數(shù)據(jù)集可通過 Web 界面加載到 SPSS Analytic Catalyst 中。一個 Hadoop 發(fā)行版是安裝 SPSS Analytic Catalyst 的一個必要軟件。安裝之后,無需額外的集成即可對大數(shù)據(jù)執(zhí)行分析。
接下來,讓我們深入講講 SPSS 與 Netezza、InfoSphere BigInsights 和 InfoSphere Streams 的集成。
Netezza 是一個高性能數(shù)據(jù)倉庫。SPSS 和 Netezza 的集成是 SPSS 的一種典型的大數(shù)據(jù)集成場景。存儲在 Netezza 中的數(shù)據(jù)可用于模型構建、評分和模型刷新。
SPSS Modeler 通過 Netezza 所提供的一個開放數(shù)據(jù)庫連接 (ODBC) 驅動程序連接到 Netezza。Netezza 中存儲的數(shù)據(jù)可用作一個 SPSS Modeler 流的輸入或輸出數(shù)據(jù)源。SPSS Modeler 支持對 Netezza 執(zhí)行 SQL 推回:在運行時,Modeler 流被轉換為 SQL 并在 Netezza 中執(zhí)行。SQL 推回操作不需要手動將 SPSS 代碼導入 Netezza 中。導入由 SPSS 平臺自動處理。
除了 SQL 推回操作之外,SPSS 為 Netezza 提供了一個評分適配器,它允許使用無法轉換為 SQL 的 SPSS 節(jié)點作為 Netezza 中的用戶定義的函數(shù) (UDF)。
SPSS Modeler 還支持在 Netezza 數(shù)據(jù)庫中進行挖掘。對于 SQL 推回操作和評分適配器,SPSS Modeler 將會生成代碼并在 Netezza 中運行它。數(shù)據(jù)庫中挖掘節(jié)點由 Netezza 提供并由 SPSS 調用。所有描述的實現(xiàn)的最終結果都是讓性能得到了提升,因為數(shù)據(jù)無需在 Netezza 和 SPSS 服務器之間移動。
用于 Netezza 數(shù)據(jù)庫中挖掘的建模節(jié)點如圖 5 中所示。一些模型可同時用于 SPSS 和 Netezza 中,而其他模型是 Netezza 所獨有的。Netezza 中的數(shù)據(jù)庫中挖掘節(jié)點通過安裝 INZA 包來啟用,該包包含在 Netezza 中。默認情況下,在 SPSS Modeler 中會提供 Netezza 數(shù)據(jù)庫中數(shù)據(jù)挖掘的用戶界面:這些節(jié)點可通過選擇 Tools > Options > Helper Applications 顯示在模型面板中。
圖 5. 用于 Netezza 數(shù)據(jù)庫中數(shù)據(jù)挖掘的建模節(jié)點
該圖顯示了包含建模節(jié)點的圖標的數(shù)據(jù)庫建模選項卡
InfoSphere BigInsights 是一個企業(yè)級的 Hadoop 發(fā)行版。類似于 Netezza,與 InfoSphere BigInsights 的集成可用在數(shù)據(jù)挖掘流程的所有階段。SPSS 與 InfoSphere BigInsights 的集成由 SPSS Analytic Server 啟用。SPSS Analytic Server 隱藏了訪問 Hadoop 數(shù)據(jù)源的復雜性,支持分析師對 Hadoop 中存儲的數(shù)據(jù)應用了 SPSS Modeler 中提供的所有數(shù)據(jù)挖掘操作。在 SPSS Analytic Server 中配置后,可通過 Modeler 中的一個來源節(jié)點對 Hadoop 數(shù)據(jù)源進行輕松的訪問(參見 圖 6)。SPSS Analytic Server 支持 HDFS 和 HCatalog 數(shù)據(jù)源。HCatalog 被用作 NoSQL 數(shù)據(jù)源的一個網(wǎng)關,這些數(shù)據(jù)源包括 Hive、HBase、Accumulo、JSON 和 XML。
InfoSphere BigInsights Quick Start Edition
InfoSphere BigInsights Quick Start Edition 是 IBM 基于 Hadoop 的 InfoSphere BigInsights 產(chǎn)品的一個可下載的免費版本。使用 Quick Start Edition,您可嘗試 IBM 構建的功能來提高開源 Hadoop 的價值,比如 Big SQL、文本分析和 BigSheets。引導式學習可讓您的學習體驗非常順利,包括循序漸進、自訂進度的教程和視頻,可幫助您讓 Hadoop 為您工作。沒有時間和數(shù)據(jù)限制,您可以在自己的時間里試驗大量數(shù)據(jù)。觀看視頻,學習教程 (PDF) 和 立即下載 BigInsights Quick Start Edition。
圖 6. 在 SPSS Modeler 來源節(jié)點中訪問 Hadoop 數(shù)據(jù)源
預覽模式中的 Table 選項卡顯示了客戶 ID
SPSS 為多個 SPSS Modeler 節(jié)點提供了 Hadoop 中 執(zhí)行功能,這些是支持以 MapReduce 作業(yè)形式在 Hadoop 內執(zhí)行操作的節(jié)點。以下 SPSS Modeler 節(jié)點支持 Hadoop 內的執(zhí)行操作:
1.大多數(shù)數(shù)據(jù)準備操作
2.模型評分:
C&RT、Quest、CHAID、Linear、Regression、Neural Net、C5.0、Logistic、Genlin、GLMM、Cox、SVM、Bayes Net、TwoStep、KNN、Decision List、Discriminant、Self Learning、Anomaly Detection、Apriori、Carma、K-Means、Kohonen 和 Text Mining
3.模型構建:Linear、Neural Net、C&RT、Chaid 和 Quest
SPSS Analytic Server 支持在 Hadoop 中運行 R 模型。一個流可同時包含 SPSS 和 R 模型。
SPSS Analytic Server 還提供了與數(shù)據(jù)庫數(shù)據(jù)源的連接。此特性支持您將數(shù)據(jù)庫和 Hadoop 數(shù)據(jù)合并到單個 SPSS Modeler 流中。在運行時,SPSS Analytic Server 與 SPSS Modeler 服務器聯(lián)合,確定 SPSS Modeler 流的最佳運行環(huán)境(SQL 推回操作或 Hadoop 內的執(zhí)行操作)。
SPSS Analytic Server 支持 InfoSphere BigInsights 2.0 和 2.1、IBM PureData? for Hadoop 設備、InfoSphere BigInsights with Platform Symphony,以及其他多個 Hadoop 發(fā)行版。
InfoSphere Streams 是一個處理流數(shù)據(jù)的 IBM 平臺。在實時處理需要高級分析時會使用 SPSS 集成。實時應用預測分析的用例的示例包括網(wǎng)絡安全、銀行和信用卡欺詐檢測、預測性維護,以及實時營銷產(chǎn)品。
InfoSphere Streams Quick Start Edition
InfoSphere Streams Quick Start Edition 是 InfoSphere Streams 的一個免費、可下載的非生產(chǎn)版本,后者是 IBM 的高性能計算平臺,用戶開發(fā)的應用程序在接收來自數(shù)千個實時來源的信息時可以快速地執(zhí)行獲取、分析和關聯(lián)。沒有數(shù)據(jù)或時間限制,InfoSphere Streams Quick Start Edition 支持您在自己的獨特環(huán)境中試驗流計算。構建一個強大的分析平臺,它能夠處理難以置信的高數(shù)據(jù)吞吐量,高達每秒數(shù)百萬個事件或消息。立即下載 InfoSphere Streams Quick Start Edition。
InfoSphere Streams 和 SPSS 集成在數(shù)據(jù)挖掘生命周期的部署階段中。模型使用存儲在數(shù)據(jù)庫或 Hadoop 中的歷史數(shù)據(jù)來開發(fā),部署在 InfoSphere Streams 中以進行實時評分。InfoSphere Streams 和 SPSS 的集成由 SPSS Scoring Toolkit 啟用,安裝在 InfoSphere Streams 中。Scoring Toolkit 是 SPSS Collaboration and Deployment Services (C&DS) 的一個組件。
在安裝該工具包后,InfoSphere Streams 開發(fā)人員可使用操作符 將 SPSS 分析資產(chǎn)與 InfoSphere Streams 應用程序相集成。publish 操作符在應用程序開發(fā)階段用來獲取適合 InfoSphere Streams 部署的 SPSS 模型。scoring 操作符在運行時用于調用 SPSS 模型。repository 操作符可用于自動從 SPSS 模型存儲庫拉取模型的最新版本。圖 7 顯示了 SPSS 與 InfoSphere Streams 運行時的集成的圖表。
圖 7. SPSS 與 InfoSphere Streams 的運行時集成圖
該圖顯示了數(shù)據(jù)源、存儲庫、SPSS 模型的工作流
SPSS 平臺與 Netezza、InfoSphere BigInsights 和 InfoSphere Streams 的內置集成能夠讓分析師使用強大的分析工具處理大數(shù)據(jù)。SPSS 組件(提供了全面的分析功能)和大數(shù)據(jù)平臺(支持可伸縮性和性能)的組合,為大數(shù)據(jù)開發(fā)人員提供了訪問 SPSS 技術的能力??梢暂p松地對 SPSS 分析資產(chǎn)進行修改,以便連接到不同的大數(shù)據(jù)來源,這些分析資產(chǎn)可以在不同的部署模式(批處理或實時模式)下運行。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03