99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線(xiàn)電話(huà):13121318867

登錄
首頁(yè)精彩閱讀將SPSS分析技術(shù)應(yīng)用于大數(shù)據(jù)
將SPSS分析技術(shù)應(yīng)用于大數(shù)據(jù)
2016-07-20
收藏

將SPSS分析技術(shù)應(yīng)用于大數(shù)據(jù)

數(shù)十年來(lái),IBM SPSS 為統(tǒng)計(jì)人員和數(shù)據(jù)科學(xué)家提供了強(qiáng)大的工具。多年來(lái),SPSS 平臺(tái)已發(fā)生了演變,支持數(shù)據(jù)挖掘流程的所有階段,包括模型開(kāi)發(fā)、模型部署和模型刷新。在過(guò)去兩年,SPSS 中增加了處理大數(shù)據(jù)的新功能。本文將介紹 SPSS 如何與 IBM 大數(shù)據(jù)產(chǎn)品組合的 3 個(gè)組件相集成:Netezza、InfoSphere BigInsights 和 InfoSphere Streams。

SPSS 平臺(tái)概述

與大數(shù)據(jù)集成的 SPSS 軟件組件:

SPSS Modeler

SPSS Analytic Server

SPSS Collaboration and Deployment Services

SPSS Analytic Catalyst

SPSS Modeler 是一個(gè)數(shù)據(jù)挖掘工作臺(tái),用于分析數(shù)據(jù)和部署分析資產(chǎn)。通用術(shù)語(yǔ)分析資產(chǎn) 用于描述解決某個(gè)業(yè)務(wù)問(wèn)題的一個(gè)操作集合。數(shù)據(jù)科學(xué)家在描述使用數(shù)據(jù)挖掘工具開(kāi)發(fā)的資產(chǎn)時(shí),通常會(huì)使用術(shù)語(yǔ)模型 或預(yù)測(cè)模型。除了模型之外,SPSS 分析資產(chǎn)還可包含數(shù)據(jù)準(zhǔn)備步驟和業(yè)務(wù)規(guī)則。圖 1 顯示了 SPSS Modeler 中開(kāi)發(fā)的一個(gè)示例分析資產(chǎn)。在此示例中,我們使用一個(gè)決策樹(shù)模型來(lái)執(zhí)行貸款違約預(yù)測(cè)。分析資產(chǎn)執(zhí)行以下操作:

合并來(lái)自 3 個(gè)歷史數(shù)據(jù)源的數(shù)據(jù)

使用一個(gè) Type 節(jié)點(diǎn)識(shí)別用于模型預(yù)測(cè)的目標(biāo)變量 (MortgageDefault)

構(gòu)建一個(gè)基于 C5.0 決策樹(shù)算法的模型

選擇具有積極的貸款違約預(yù)測(cè)的記錄

將結(jié)果顯示在一個(gè)表中

圖 1. SPSS Modeler 中開(kāi)發(fā)的分析資產(chǎn)

SPSS Modeler 是一個(gè)可視編程環(huán)境。分析資產(chǎn)可通過(guò)連接畫(huà)布上的可視編程節(jié)點(diǎn)來(lái)創(chuàng)建;在運(yùn)行時(shí),節(jié)點(diǎn)按照連接箭頭的方向執(zhí)行。節(jié)點(diǎn)可按照相關(guān)功能進(jìn)行組織:Sources、Record Operations、Field Operations、Modeling 等。Modeling 選項(xiàng)卡顯示用于生成模型的算法(參見(jiàn)圖 2)。SPSS 發(fā)布了 27 個(gè)建模算法和整套的節(jié)點(diǎn),對(duì)一個(gè)數(shù)據(jù)集運(yùn)行多種算法并選擇最佳的節(jié)點(diǎn)。除了所描述的可視節(jié)點(diǎn)之外,如果分析師希望擴(kuò)展 SPSS Modeler 的基本功能,那么他們可以使用 SQL 函數(shù)、R 模型和自定義開(kāi)發(fā)的節(jié)點(diǎn)。

圖 2. 包含生成模型的算法的 Modeling 選項(xiàng)卡

分析師使用歷史數(shù)據(jù)來(lái)構(gòu)建模型。創(chuàng)建模型后,分析師會(huì)修改分析資產(chǎn),以便對(duì)操作數(shù)據(jù)進(jìn)行評(píng)分(參見(jiàn)圖 3)。我們不再需要 Mortgage Default 數(shù)據(jù)源,因?yàn)樗瑲v史數(shù)據(jù)。我們刪除了 Type 和 Decision Tree 算法節(jié)點(diǎn)。C5 決策樹(shù)算法節(jié)點(diǎn)用于構(gòu)建模型。創(chuàng)建的模型用金塊圖標(biāo)表示 (MortgageDefault)。分析師將 Table 節(jié)點(diǎn)替換為一個(gè) Export 節(jié)點(diǎn),這會(huì)將數(shù)據(jù)寫(xiě)入一個(gè)數(shù)據(jù)庫(kù)表中。現(xiàn)在可以將這個(gè)分析資產(chǎn)用于對(duì)新貸款申請(qǐng)進(jìn)行批量或?qū)崟r(shí)評(píng)分。

圖 3. 包含 Type、Decision Tree 并刪除了 Mortgage Default 數(shù)據(jù)源的已修改模型

用于大數(shù)據(jù)的第二個(gè) SPSS 組件是 SPSS Analytic Server。它管理對(duì) Hadoop 數(shù)據(jù)源的訪(fǎng)問(wèn),并設(shè)計(jì)一個(gè) Modeler 流在 Hadoop 中的運(yùn)行。Modeler 操作以 MapReduce 作業(yè)的形式在 Hadoop 中運(yùn)行,得到一個(gè)提供了高性能和高可伸縮性的解決方案。

用于大數(shù)據(jù)的下一個(gè) SPSS 組件是 SPSS Collaboration and Deployment Services (C&DS)。C&DS 執(zhí)行兩種主要功能:

用作分析資產(chǎn)的存儲(chǔ)庫(kù)。在將某項(xiàng)資產(chǎn)存儲(chǔ)在存儲(chǔ)庫(kù)中后,就可以使用它來(lái)設(shè)計(jì)批處理作業(yè)。該存儲(chǔ)庫(kù)還提供了與 InfoSphere Streams 的連接,以便實(shí)時(shí)更新 SPSS 模型。

提供一個(gè)接口來(lái)計(jì)劃批處理作業(yè),建模使用數(shù)據(jù)庫(kù)和 Hadoop 數(shù)據(jù)源的刷新作業(yè)。

SPSS Analytic Catalyst 通過(guò)一種易于使用的 Web 接口來(lái)執(zhí)行統(tǒng)計(jì)分析。它是為可能沒(méi)有深入理解數(shù)據(jù)挖掘的業(yè)務(wù)用戶(hù)設(shè)計(jì)的。SPSS Analytic Catalyst 向選定的數(shù)據(jù)源應(yīng)用多種算法和統(tǒng)計(jì)分析技術(shù)。結(jié)果可以通過(guò)可視元素和純語(yǔ)言解釋來(lái)呈現(xiàn)。圖 4 顯示了一個(gè) SPSS Analytic Catalyst 項(xiàng)目的示例輸出。

圖 4. SPSS Analytic Catalyst 返回對(duì)某個(gè)數(shù)據(jù)源的分析的結(jié)果

SPSS Analytic Catalyst 分析在 Hadoop 中運(yùn)行。與 Hadoop 中現(xiàn)有數(shù)據(jù)的數(shù)據(jù)源連接由 SPSS Analytic Server 提供。SPSS 與 InfoSphere BigInsights 的集成 一節(jié)中描述的所有數(shù)據(jù)源都可以用在 SPSS Analytic Catalyst 中。較小的數(shù)據(jù)集可通過(guò) Web 界面加載到 SPSS Analytic Catalyst 中。一個(gè) Hadoop 發(fā)行版是安裝 SPSS Analytic Catalyst 的一個(gè)必要軟件。安裝之后,無(wú)需額外的集成即可對(duì)大數(shù)據(jù)執(zhí)行分析。

接下來(lái),讓我們深入講講 SPSS 與 Netezza、InfoSphere BigInsights 和 InfoSphere Streams 的集成。

SPSS 與 Netezza 的集成

Netezza 是一個(gè)高性能數(shù)據(jù)倉(cāng)庫(kù)。SPSS 和 Netezza 的集成是 SPSS 的一種典型的大數(shù)據(jù)集成場(chǎng)景。存儲(chǔ)在 Netezza 中的數(shù)據(jù)可用于模型構(gòu)建、評(píng)分和模型刷新。

SPSS Modeler 通過(guò) Netezza 所提供的一個(gè)開(kāi)放數(shù)據(jù)庫(kù)連接 (ODBC) 驅(qū)動(dòng)程序連接到 Netezza。Netezza 中存儲(chǔ)的數(shù)據(jù)可用作一個(gè) SPSS Modeler 流的輸入或輸出數(shù)據(jù)源。SPSS Modeler 支持對(duì) Netezza 執(zhí)行 SQL 推回:在運(yùn)行時(shí),Modeler 流被轉(zhuǎn)換為 SQL 并在 Netezza 中執(zhí)行。SQL 推回操作不需要手動(dòng)將 SPSS 代碼導(dǎo)入 Netezza 中。導(dǎo)入由 SPSS 平臺(tái)自動(dòng)處理。

除了 SQL 推回操作之外,SPSS 為 Netezza 提供了一個(gè)評(píng)分適配器,它允許使用無(wú)法轉(zhuǎn)換為 SQL 的 SPSS 節(jié)點(diǎn)作為 Netezza 中的用戶(hù)定義的函數(shù) (UDF)。

SPSS Modeler 還支持在 Netezza 數(shù)據(jù)庫(kù)中進(jìn)行挖掘。對(duì)于 SQL 推回操作和評(píng)分適配器,SPSS Modeler 將會(huì)生成代碼并在 Netezza 中運(yùn)行它。數(shù)據(jù)庫(kù)中挖掘節(jié)點(diǎn)由 Netezza 提供并由 SPSS 調(diào)用。所有描述的實(shí)現(xiàn)的最終結(jié)果都是讓性能得到了提升,因?yàn)閿?shù)據(jù)無(wú)需在 Netezza 和 SPSS 服務(wù)器之間移動(dòng)。

用于 Netezza 數(shù)據(jù)庫(kù)中挖掘的建模節(jié)點(diǎn)如圖 5 中所示。一些模型可同時(shí)用于 SPSS 和 Netezza 中,而其他模型是 Netezza 所獨(dú)有的。Netezza 中的數(shù)據(jù)庫(kù)中挖掘節(jié)點(diǎn)通過(guò)安裝 INZA 包來(lái)啟用,該包包含在 Netezza 中。默認(rèn)情況下,在 SPSS Modeler 中會(huì)提供 Netezza 數(shù)據(jù)庫(kù)中數(shù)據(jù)挖掘的用戶(hù)界面:這些節(jié)點(diǎn)可通過(guò)選擇 Tools > Options > Helper Applications 顯示在模型面板中。

圖 5. 用于 Netezza 數(shù)據(jù)庫(kù)中數(shù)據(jù)挖掘的建模節(jié)點(diǎn)

SPSS 與 InfoSphere BigInsights 的集成

InfoSphere BigInsights 是一個(gè)企業(yè)級(jí)的 Hadoop 發(fā)行版。類(lèi)似于 Netezza,與 InfoSphere BigInsights 的集成可用在數(shù)據(jù)挖掘流程的所有階段。SPSS 與 InfoSphere BigInsights 的集成由 SPSS Analytic Server 啟用。SPSS Analytic Server 隱藏了訪(fǎng)問(wèn) Hadoop 數(shù)據(jù)源的復(fù)雜性,支持分析師對(duì) Hadoop 中存儲(chǔ)的數(shù)據(jù)應(yīng)用了 SPSS Modeler 中提供的所有數(shù)據(jù)挖掘操作。在 SPSS Analytic Server 中配置后,可通過(guò) Modeler 中的一個(gè)來(lái)源節(jié)點(diǎn)對(duì) Hadoop 數(shù)據(jù)源進(jìn)行輕松的訪(fǎng)問(wèn)(參見(jiàn) 圖 6)。SPSS Analytic Server 支持 HDFS 和 HCatalog 數(shù)據(jù)源。HCatalog 被用作 NoSQL 數(shù)據(jù)源的一個(gè)網(wǎng)關(guān),這些數(shù)據(jù)源包括 Hive、HBase、Accumulo、JSON 和 XML。

圖 6. 在 SPSS Modeler 來(lái)源節(jié)點(diǎn)中訪(fǎng)問(wèn) Hadoop 數(shù)據(jù)源

SPSS 為多個(gè) SPSS Modeler 節(jié)點(diǎn)提供了 Hadoop 中 執(zhí)行功能,這些是支持以 MapReduce 作業(yè)形式在 Hadoop 內(nèi)執(zhí)行操作的節(jié)點(diǎn)。以下 SPSS Modeler 節(jié)點(diǎn)支持 Hadoop 內(nèi)的執(zhí)行操作:

大多數(shù)數(shù)據(jù)準(zhǔn)備操作

模型評(píng)分:C&RT、Quest、CHAID、Linear、Regression、Neural Net、C5.0、Logistic、Genlin、GLMM、Cox、SVM、Bayes Net、TwoStep、KNN、Decision List、Discriminant、Self Learning、Anomaly Detection、Apriori、Carma、K-Means、Kohonen 和 Text Mining

模型構(gòu)建:Linear、Neural Net、C&RT、Chaid 和 Quest

SPSS Analytic Server 支持在 Hadoop 中運(yùn)行 R 模型。一個(gè)流可同時(shí)包含 SPSS 和 R 模型。

SPSS Analytic Server 還提供了與數(shù)據(jù)庫(kù)數(shù)據(jù)源的連接。此特性支持您將數(shù)據(jù)庫(kù)和 Hadoop 數(shù)據(jù)合并到單個(gè) SPSS Modeler 流中。在運(yùn)行時(shí),SPSS Analytic Server 與 SPSS Modeler 服務(wù)器聯(lián)合,確定 SPSS Modeler 流的最佳運(yùn)行環(huán)境(SQL 推回操作或 Hadoop 內(nèi)的執(zhí)行操作)。

SPSS Analytic Server 支持 InfoSphere BigInsights 2.0 和 2.1、IBM PureData? for Hadoop 設(shè)備、InfoSphere BigInsights with Platform Symphony,以及其他多個(gè) Hadoop 發(fā)行版。

SPSS 與 InfoSphere Streams 的集成

InfoSphere Streams 是一個(gè)處理流數(shù)據(jù)的 IBM 平臺(tái)。在實(shí)時(shí)處理需要高級(jí)分析時(shí)會(huì)使用 SPSS 集成。實(shí)時(shí)應(yīng)用預(yù)測(cè)分析的用例的示例包括網(wǎng)絡(luò)安全、銀行和信用卡欺詐檢測(cè)、預(yù)測(cè)性維護(hù),以及實(shí)時(shí)營(yíng)銷(xiāo)產(chǎn)品。

InfoSphere Streams 和 SPSS 集成在數(shù)據(jù)挖掘生命周期的部署階段中。模型使用存儲(chǔ)在數(shù)據(jù)庫(kù)或 Hadoop 中的歷史數(shù)據(jù)來(lái)開(kāi)發(fā),部署在 InfoSphere Streams 中以進(jìn)行實(shí)時(shí)評(píng)分。InfoSphere Streams 和 SPSS 的集成由 SPSS Scoring Toolkit 啟用,安裝在 InfoSphere Streams 中。Scoring Toolkit 是 SPSS Collaboration and Deployment Services (C&DS) 的一個(gè)組件。

在安裝該工具包后,InfoSphere Streams 開(kāi)發(fā)人員可使用操作符 將 SPSS 分析資產(chǎn)與 InfoSphere Streams 應(yīng)用程序相集成。publish 操作符在應(yīng)用程序開(kāi)發(fā)階段用來(lái)獲取適合 InfoSphere Streams 部署的 SPSS 模型。scoring 操作符在運(yùn)行時(shí)用于調(diào)用 SPSS 模型。repository 操作符可用于自動(dòng)從 SPSS 模型存儲(chǔ)庫(kù)拉取模型的最新版本。圖 7 顯示了 SPSS 與 InfoSphere Streams 運(yùn)行時(shí)的集成的圖表。

圖 7. SPSS 與 InfoSphere Streams 的運(yùn)行時(shí)集成圖

結(jié)束語(yǔ)

SPSS 平臺(tái)與 Netezza、InfoSphere BigInsights 和 InfoSphere Streams 的內(nèi)置集成能夠讓分析師使用強(qiáng)大的分析工具處理大數(shù)據(jù)。SPSS 組件(提供了全面的分析功能)和大數(shù)據(jù)平臺(tái)(支持可伸縮性和性能)的組合,為大數(shù)據(jù)開(kāi)發(fā)人員提供了訪(fǎng)問(wèn) SPSS 技術(shù)的能力。可以輕松地對(duì) SPSS 分析資產(chǎn)進(jìn)行修改,以便連接到不同的大數(shù)據(jù)來(lái)源,這些分析資產(chǎn)可以在不同的部署模式(批處理或?qū)崟r(shí)模式)下運(yùn)行。

數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線(xiàn)
立即咨詢(xún)
客服在線(xiàn)
立即咨詢(xún)
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶(hù)后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }