
制造企業(yè)利用文本挖掘提煉商業(yè)價(jià)值
通常,制造工程師會(huì)花大把時(shí)間將數(shù)字吃透,以確保生產(chǎn)和效率水平始終處于高峰。而今,一家總部位于美國(guó)休斯頓的石油設(shè)備生產(chǎn)公司的管理者們發(fā)現(xiàn),分析對(duì)象除了數(shù)字,還可以是文字。結(jié)合對(duì)這兩者的分析,可令制造工藝更加優(yōu)化。
“我們始終期望改進(jìn)運(yùn)作模式,使其變得更好、更高效?!盕MC科技的全球業(yè)務(wù)卓越經(jīng)理Dan Fortune如是說,“而我們發(fā)現(xiàn),文本挖掘能幫助我們有效實(shí)現(xiàn)這一目標(biāo)?!?a href='/map/wenbenwajue/' style='color:#000;font-size:inherit;'>文本挖掘需將單詞與詞組基于共性進(jìn)行分類。在FMC科技,這些由制造報(bào)告中提取出的字詞,將由SAS公司的統(tǒng)計(jì)發(fā)現(xiàn)軟件JMP進(jìn)行編碼及分析。
FMC科技是全球石油與天然氣設(shè)備(包括海底采油、地面井頭、海洋裝卸作業(yè)等專業(yè)系統(tǒng))工業(yè)領(lǐng)導(dǎo)者,其生產(chǎn)的一些設(shè)備具備在海底近兩英里左右深處運(yùn)行的性能。精確分析工程設(shè)計(jì)及產(chǎn)品性能,是制造商須長(zhǎng)期具備的技能——因?yàn)樵O(shè)計(jì)在安裝時(shí)需調(diào)整,所以常易成為可變因素。在FMC,遍布16個(gè)國(guó)家的30處生產(chǎn)設(shè)施需要持續(xù)分析與故障排除的服務(wù)。
“制造商有很多,可我們是海底設(shè)備制造商中的佼佼者?!盕ortune表示。Fortune表示,在過去幾年中,F(xiàn)MC科技運(yùn)用JMP軟件的統(tǒng)計(jì)和圖形分析法,使生產(chǎn)工藝更加高效,并大幅節(jié)約了成本。
“如果我想知道2013年的所有生產(chǎn)缺陷區(qū)域,兩個(gè)員工可能要奮斗整整一周,才能做好。但有了JMP,我15分鐘就可以搞定,還可以反復(fù)實(shí)驗(yàn)、研究,或者以不同的視角來(lái)查看結(jié)果?!盕ortune說。
文本挖掘:額外優(yōu)勢(shì)
對(duì)工程師們來(lái)說,研究數(shù)字是很自然的,但在分析中加入字詞能獲取額外信息,有助于改善優(yōu)先次序及問題解決型任務(wù)。FMC西部地區(qū)海底系統(tǒng)規(guī)劃經(jīng)理GokhanSarpkaya如是說。
“我們的目標(biāo)是減少或消除變異。”Sarpkaya表示,“文本數(shù)據(jù)在這方面具有優(yōu)勢(shì)。它能讓我們的分析更加深入,有助于決策者做出更優(yōu)決策。”
用于分析的文本是從公司數(shù)據(jù)庫(kù)內(nèi)的書面描述中取得,用以標(biāo)識(shí)生產(chǎn)流程中的問題、不規(guī)律性或其它情況?!爱?dāng)問題發(fā)生的時(shí)候,對(duì)于它的書面描述通常十分準(zhǔn)確?!盕ortune說,“通過文本挖掘,我們可為相似問題分類,即使它們的書面表達(dá)方式不同。這樣我們就能找出未達(dá)到應(yīng)有水平的項(xiàng)目。這種方式有助實(shí)現(xiàn)重大轉(zhuǎn)變?!?/span>
Fortune可運(yùn)用JMP選取文本,并使用咨詢公司Adsurgo提供的JMP定制腳本,將數(shù)據(jù)發(fā)送至開源代碼的統(tǒng)計(jì)與圖形分析軟件R,實(shí)現(xiàn)所需的文本挖掘功能。所得結(jié)果將被返回JMP,以便進(jìn)行進(jìn)一步分析與可視化。該腳本允許用戶自定義JMP數(shù)據(jù)在R軟件中的處理方式,且無(wú)需編碼。
Fortune表示,文本挖掘功能解決了“詞干”和“停用詞”問題,使分析結(jié)果更加精準(zhǔn)。為了解決詞干問題,每個(gè)單詞都被拆解到詞根,不論它們?cè)谔囟ň渥又谐尸F(xiàn)何種形式。例如,“正在行走”“行走過”和“行走著”都可由詞干“行走”統(tǒng)一歸類。“同一詞干的詞,結(jié)尾雖不一樣,表達(dá)的意思卻是一致的?!盕ortune這樣解釋。
而停用詞,則會(huì)在分析開始前從文本中剔除,因?yàn)樗鼈儗?duì)文本內(nèi)容并不構(gòu)成實(shí)際意義。這類詞包括定冠詞、代詞、“在……上”等之類的介詞。“我們用R來(lái)降低文本數(shù)據(jù)的復(fù)雜度,并將其構(gòu)成一個(gè)數(shù)字矩陣,以便JMP的后續(xù)分析操作。這就是奇異值分解法。”Fortune表示,“R將數(shù)據(jù)返回到JMP,JMP則完成所有的分析工作?!币坏﹫?zhí)行以上操作,文本中出現(xiàn)的相似語(yǔ)句就會(huì)被分類、添加到專供JMP分析的數(shù)值型數(shù)據(jù)中。
文本分析能幫助解決數(shù)字系統(tǒng)中經(jīng)常彈出的錯(cuò)誤。Fortune說:“編碼與文本不匹配的情況常常發(fā)生。”Fortune還表示,如數(shù)字編碼分類太寬泛,對(duì)某一問題的具體判斷無(wú)法獲準(zhǔn)取得編碼,就會(huì)出現(xiàn)錯(cuò)誤。另外,如編碼過于具體,導(dǎo)致系統(tǒng)對(duì)指定條目的正確名稱決策混亂,也會(huì)出現(xiàn)錯(cuò)誤。“編碼過多,將給數(shù)據(jù)錄入人員的工作帶來(lái)困難,使他們無(wú)法正確進(jìn)入條目?!盕ortune說。
用圖形分析文本與數(shù)據(jù),讓管理者們得以在重復(fù)性操作過程中發(fā)現(xiàn)趨勢(shì),例如:從預(yù)期起止時(shí)間與實(shí)際起止時(shí)間之間的差異,以及由于個(gè)人行為而產(chǎn)生的品質(zhì)不等。在FMC,這些原本都被視作艱巨任務(wù)?!叭绻矣形鍌€(gè)項(xiàng)目,其中包含15000個(gè)活動(dòng),也就意味著它們包含著75000個(gè)條目?!盕ortune解釋道。
“對(duì)于人來(lái)說,要投身如此巨大的數(shù)據(jù)分析中,并結(jié)合傳達(dá)相同意義的不同文本作出分析,基本上是不可能的。但運(yùn)用文本挖掘與聚類分析,雖也要用一些時(shí)間,但比起‘近乎不可能’來(lái)已是很好了?!?/span>
轉(zhuǎn)向JMP
JMP還是FMC公司項(xiàng)目?jī)?yōu)先級(jí)劃分的重要軟件。項(xiàng)目?jī)?yōu)先級(jí)劃分是保持領(lǐng)先競(jìng)爭(zhēng)力的一個(gè)重要步驟。此外,JMP也被培訓(xùn)主管們運(yùn)用于六西格瑪項(xiàng)目,以保障生產(chǎn)成品質(zhì)量,降低成本、提高客戶滿意度。Sarpkaya說,在去年轉(zhuǎn)用JMP之前,他已用Minitab軟件對(duì)新用戶培訓(xùn)六西格瑪體系長(zhǎng)達(dá)十年。
“我十分高興轉(zhuǎn)用JMP?!彼f,“這款軟件的客戶定制程度較高。你可以撰寫自己的文本,這樣更靈活些?!?/span>
Fortune說,他極力支持在FMC公司的六西格瑪項(xiàng)目中使用JMP軟件,因?yàn)樗谥熬吐毜墓纠镞\(yùn)用JMP軟件,并認(rèn)為其功能卓越。此前,F(xiàn)ortune曾以一個(gè)項(xiàng)目為FMC節(jié)省了大量成本;這有助于FMC的高管們認(rèn)同JMP軟件。
Fortune說,能源業(yè)的設(shè)備造價(jià)高昂、體積龐大,有些僅零件就重達(dá)80噸;而被認(rèn)定有缺陷、不可靠的零件必須報(bào)廢,因此FMC公司在某些工程案例中為單個(gè)零件就花費(fèi)了25萬(wàn)美金或更多。2011年進(jìn)入董事會(huì)并擔(dān)任質(zhì)量部門領(lǐng)導(dǎo)后,F(xiàn)ortune對(duì)判定設(shè)備服務(wù)期限的測(cè)量方法存在懷疑,便運(yùn)用JMP做了一次分析。
“我運(yùn)用JMP的圖形分析功能計(jì)算出結(jié)果,并向公司里許多完全不懂統(tǒng)計(jì)技術(shù)的人展示,成功地讓他們明白:這中間存在許多問題,我們需要第三方對(duì)零件進(jìn)行評(píng)估?!彪S后的第三方評(píng)估結(jié)果顯示,一些曾被指明報(bào)廢的零件是可靠的,可以回歸使用。其中兩個(gè)零件的總價(jià)值達(dá)到40萬(wàn)美元。由此,F(xiàn)ortune為FMC公司節(jié)省了近50萬(wàn)美元的成本。
不過,F(xiàn)ortune表示,JMP的最大優(yōu)勢(shì)在于其提升FMC公司“滿足客戶期望”能力的方式?!拔覀児旧a(chǎn)的海底設(shè)備,設(shè)計(jì)幾乎全都是獨(dú)一無(wú)二的。”他這樣解釋,“但我們也制造地面設(shè)備,這在市場(chǎng)上的競(jìng)爭(zhēng)激烈得難以想象。所以,進(jìn)行精準(zhǔn)預(yù)測(cè)以確保永遠(yuǎn)滿足客戶的需求,對(duì)我們來(lái)說就尤為重要?!?/span>
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03