
工業(yè)大數(shù)據(jù)分析的誤區(qū)與建議
作為數(shù)據(jù)價值變現(xiàn)的核心技術手段之一,大數(shù)據(jù)分析的作用被廣泛宣傳甚至神化。對于工業(yè)大數(shù)據(jù)分析,產業(yè)界存在有不少困惑。是否把商業(yè)大數(shù)據(jù)分析照搬過來就是就足夠了?只要有了海量數(shù)據(jù),大數(shù)據(jù)分析是否不需要任何假設前提了?是否機理模型或領域經驗就不重要了?工業(yè)大數(shù)據(jù)分析有沒有典型的范式來指導實際操作?
從行業(yè)數(shù)據(jù)分析實踐者的角度,本文第一部分剖析了工業(yè)大數(shù)據(jù)分析的常見誤區(qū)與正確的價值變現(xiàn)之路,指出工業(yè)大數(shù)據(jù)分析應該注重與機理模型的融合,充分利用領域先驗知識;第二部分從分析算法的應用側重點、分析模型與機理模型融合方式、業(yè)務應用場景等三個維度歸納了工業(yè)大數(shù)據(jù)分析的典型范式。
工業(yè)大數(shù)據(jù)“大,不一樣”
在與工業(yè)企業(yè)的交流中,筆者感受到業(yè)界對大數(shù)據(jù)分析的期望與“神化”。
謂之“神化”,是由于大數(shù)據(jù)應用在國內外實踐產生的案例,在提質增效及個性化服務方面,產生的利潤與之煽動的蝴蝶效應,讓有些工業(yè)企業(yè)以為只要安裝了傳感器,能把數(shù)據(jù)采集下來,就能讓數(shù)據(jù)說話,就能從上千種因素中定位出故障原因,就能精準指導研發(fā)、生產、運營。甚至誤認為經典的機理模型或多年積累的經驗不再重要。
然而脫離機理與領域知識的大數(shù)據(jù)分析結果常常是“你以為你以為的不是你以為的”。
工業(yè)大數(shù)據(jù)的“小”與“大”
從傳統(tǒng)大數(shù)據(jù)3V(Volume, Velocity, Variety)或4V(Veracity)度量角度來看,工業(yè)數(shù)據(jù)當然屬于大數(shù)據(jù)的范疇,在體量上甚至超過互聯(lián)網大數(shù)據(jù)[1]。然在數(shù)據(jù)分析中仍不時感覺到工業(yè)數(shù)據(jù)之“小”,主要體現(xiàn)在3個方面。
1)價值密度:王建民教授曾指出[2],相對于產品圖紙、工藝設計等傳統(tǒng)“小”數(shù)據(jù),工業(yè)“大”數(shù)據(jù)的價值密度低。工業(yè)大數(shù)據(jù)分析無法脫離這些基礎信息的支撐,不舉小數(shù)據(jù)之“綱”,難行大數(shù)據(jù)之“目”。
2)大數(shù)據(jù)永遠是物理世界的“小”樣本:以SMT(Surface Mount Technology)生產線為例,最終產品質量由工藝參數(shù)、材料特性、生產設備等上千個參數(shù)共同影響,生產檢測大數(shù)據(jù)僅僅覆蓋了很小的參數(shù)組合空間(curse of dimension)。并且不是所有關鍵因素都有測量,測量值也不一定能反映分布式參數(shù)系統(tǒng)的全部(比如回流焊的溫度監(jiān)測值并不等于電路板的表面溫度)。工業(yè)數(shù)據(jù)分析更需要利用先驗知識縮小搜索空間,同時保持一種“大膽探索、小心求證”的態(tài)度。
3)對分析有直接意義的樣本比例通常很小:工業(yè)通常是運行在設計的常態(tài)模式下,對不期望的干擾因素會進行很多壓制,造成絕大部分數(shù)據(jù)對應非常相似的環(huán)境與過程。特別對于故障分析、殘次品因素分析等大數(shù)據(jù)分析,樣本不均衡程度非常高(biased data)。雖然物理系統(tǒng)相對社會系統(tǒng)更容易做一些控制性實驗,但由于很多工業(yè)領域控制實驗(比如風機葉片斷裂、油氣管道泄漏等)成本或風險太高,實際上也很難提供足夠的異常情形樣本。
因此,工業(yè)大數(shù)據(jù)的“大”不能僅從數(shù)據(jù)量、數(shù)據(jù)類型、產生速度、質量等角度來看,而應考慮以下兩個方面。
1)維度之大:風力發(fā)電機組的健康分析應該從時間(過去故障記錄、整機性能演化等)、空間(相同機型在不同風場的表現(xiàn))、環(huán)境(氣象、地理)、業(yè)務運作(設計、維修、限電等)等多個維度綜合來看。獨立看似異常的事件,很多其實是正常業(yè)務操作引起的(如風機功率低可能是由于啟動限功率運行模式以降低對居民區(qū)的影響)。對于工業(yè)數(shù)據(jù),更應構建全面的上下文(context model),才有可能分析出一些有價值的結果。
2)先驗知識基礎之大:工業(yè)領域通常有大量的機理模型、專家經驗的深厚積累,可以為數(shù)據(jù)分析縮小參數(shù)空間、提供有用的特征變量(如齒輪箱震動的倒譜參數(shù)),數(shù)據(jù)分析也應思考如何有這些基礎更好的互動與融合,以期創(chuàng)造更大的價值。
工業(yè)數(shù)據(jù)分析與商業(yè)數(shù)據(jù)分析:一字之別?
當前很多流行的大數(shù)據(jù)理念來自于互聯(lián)網和商務領域,不少分析技術也是針對商業(yè)大數(shù)據(jù)。但工業(yè)大數(shù)據(jù)與商業(yè)大數(shù)據(jù)在很多地方存在比較大的差別,郭朝輝等行業(yè)專家對此從不同角度進行了深刻剖析[2,3],我們將其歸納為如下表所示的四個維度[4]。
1)研究對象不同:工業(yè)領域以物理系統(tǒng)(物理實體或環(huán)境)為中心,研究動態(tài)過程的規(guī)律和因果關系,而商業(yè)大數(shù)據(jù)以人造系統(tǒng)(人或流程)為研究對象,試圖理解其中的行為模式。當然,工業(yè)領域的一些簡單產品(如個人電子消費品)制造業(yè)和商業(yè)產品在產品定義、營銷和售后有不少相似之處,但對于復雜產品(如高端裝備、高精度制造),區(qū)別是非常顯著的。
2)現(xiàn)有基礎不同:在工業(yè)領域,人們對生產過程的研究一般比較深入,形成了很多系統(tǒng)化的中觀、微觀機理模型,領域知識也比較豐富。客觀來講,對物理系統(tǒng)本身的突破性知識發(fā)現(xiàn)難度很大。工業(yè)數(shù)據(jù)中體現(xiàn)出來的規(guī)律常常難以突破現(xiàn)有生產技術人員的認知范圍。與之相比,商業(yè)領域中僅存在一些宏觀理念,定性描述人的行為偏好和經濟活動規(guī)律,給大數(shù)據(jù)分析留有廣泛的提升空間。
3)新的驅動力不同:感知技術的發(fā)展和普及是工業(yè)大數(shù)據(jù)的驅動力,現(xiàn)有的工控技術很難處理大數(shù)據(jù)量的挑戰(zhàn),大量的監(jiān)測數(shù)據(jù)也為大數(shù)據(jù)分析帶來與業(yè)務數(shù)據(jù)融合分析的機會。而互聯(lián)網的發(fā)展為企業(yè)帶來與客戶交互的新渠道,極大促進了商業(yè)大數(shù)據(jù)分析的發(fā)展。工業(yè)領域的大數(shù)據(jù)大多是具有時空信息的結構化數(shù)據(jù),且背后有明確的物理結構(如系統(tǒng)動力學、網絡拓撲關系等),對時間序列、時空模式、序列模式等結構模式挖掘非常重要。而商業(yè)大數(shù)據(jù)分析大多集中在結構化的數(shù)據(jù)倉庫表或非結構化數(shù)據(jù)(如文本、視頻),數(shù)據(jù)間除了實體關系和部分時空信息外,結構性關系較弱。
4)對分析技術的要求不同:工業(yè)系統(tǒng)的實時性高,動態(tài)性強,對分析結果的精度要求高,很難接受概率性預測,而商業(yè)應用常遵循大數(shù)原則,概率性的分析就可以為運營提供很大的幫助。不同工業(yè)應用場景對技術指標的要求也不同,比如在風機領域,大部件的故障檢測報警已經在PLC中實現(xiàn),大數(shù)據(jù)分析只有提前若干小時的故障預警才有意義;油氣管道泄漏檢測中,泄漏發(fā)生后的及時報警也很有意義,但其要求零漏報、極低的誤報(管道深埋地下,誤報會給一線工作人員帶來很大工作量);在抽油機監(jiān)測分析中,可容忍分析算法對一些罕見或復雜故障類型的無法研判(類似漏報),但分析算法可以研判的出示功圖異常的的準確率應該是100%(這樣就可以降低70~80%的重復性工作)。
工業(yè)數(shù)據(jù)分析的價值實現(xiàn)之道
綜上所述,工業(yè)大數(shù)據(jù)分析更應該抱著“小數(shù)據(jù)”的心態(tài),敬畏機理模型和領域經驗,把數(shù)據(jù)分析模型與機理模型充分融合。數(shù)據(jù)分析對工業(yè)領域知識的幫助主要體現(xiàn)在如下3個渠道:
1)物理過程和業(yè)務過程的融合。能將物理量與經營過程量(如產品質量、生產效率、設備可靠性等)的關系定量化,突破現(xiàn)有生產技術人員的知識盲點,實現(xiàn)過程痕跡的可視化。
2)對于物理過程環(huán)節(jié),重視知識的“自動化”,而不僅僅是知識的“發(fā)現(xiàn)”。將領域知識進行系統(tǒng)化管理,通過大數(shù)據(jù)分析進行檢索和更新優(yōu)化;對于相對明確的專家知識,借助大數(shù)據(jù)建模工具提供的典型時空模式描述與識別技術,進行形式化建模,在海量歷史數(shù)據(jù)上進行驗證和優(yōu)化,不斷萃取專家知識,充分利用多維度融合帶來的統(tǒng)計顯著性(比如個別風場看似偶發(fā)的故障,在全體風場上可能有穩(wěn)定的統(tǒng)計規(guī)律)
3)“軟”測量。在工業(yè)應用中,不同過程量監(jiān)測的技術可行性、精度、頻度、成本差別較大,通過大數(shù)據(jù)分析,建立指標間的關聯(lián)關系模型,通過易測的過程量去推斷難測的過程量,提升生產過程的整體可觀可控。
小結如前所述,工業(yè)大數(shù)據(jù)分析更應秉承“小數(shù)據(jù)”思維,尊重機理模型和領域知識,利用數(shù)據(jù)分析技術手段,披沙簡金,釋放工業(yè)大數(shù)據(jù)的價值。為更明確指導工業(yè)大數(shù)據(jù)分析軟件架構,接下來本文將從分析算法側重點、分析模型與機理模型融合方式、業(yè)務應用場景等3個方面分享工業(yè)大數(shù)據(jù)分析的典型范式。
6類算法應用范式
數(shù)據(jù)分析本質上是一種統(tǒng)計手段,需要足夠的樣本才有可能發(fā)揮顯著作用。另外,數(shù)據(jù)分析作為探索未知的一種技術手段,它的作用也與機理復雜度密切相關。這里從產品相似度、機理復雜度兩個維度,將分析算法應用分為6類范式。
1)從工業(yè)產品的相似度來看,可分為大量相似產品(如風力發(fā)電機)和少量定制化產品(如就地建設的化工反應塔)。相似產品在數(shù)據(jù)分析時可以充分利用產品間的交叉驗證,而少量定制化產品應深度挖掘時間維度。
2)從產品機理的復雜性來看,有無需機理模型的black-box產品(如電子消費品,通常不會深入元器件內部去分析)、簡單明確機理產品(如風力發(fā)電機)、復雜機理產品(如鼓風機、化工廠)。復雜機理產品在工業(yè)大數(shù)據(jù)分析時,應更加重視機理模型和專家經驗的融入。
4種融合范式
分析模型與機理模型的融合可以分為4種范式:
1)分析模型為機理模型做model calibration,提供參數(shù)的點估計或分布估計。例如Kalman濾波。
2)分析模型為機理模型做post-processing。比如,利用統(tǒng)計方法對WRF等天氣預報模型的結果做修正或多個機理模型綜合,提高預測的穩(wěn)定性。
3)機理模型的部分結果作為分析模型的feature。例如,在風機結冰預測中,計算風機的理論功率、理論轉速作為數(shù)據(jù)挖掘模型的重要特征。
4)分析模型與機理模型做ensemble。比如,在空氣質量預測中,WRF-CHEM/CMAQ等機理模型可及時捕獲全局動態(tài)演化過程,而統(tǒng)計模型可對局部穩(wěn)態(tài)周期模式有較高精度的刻畫,model ensemble可有效融合兩類模型的各自優(yōu)勢。
3類業(yè)務應用范式
通過對復雜過程的演化過程和上下文的全面深入刻畫,工業(yè)大數(shù)據(jù)對產品/設備可靠性、運作效率、產業(yè)互聯(lián)網等3類業(yè)務應用場景都有很大促進作用。一些行業(yè)的典型工業(yè)大數(shù)據(jù)分析場景如下圖所示。
小結
工業(yè)大數(shù)據(jù)分析能否真正落地,取決于能否創(chuàng)造經濟價值。價值的持續(xù)創(chuàng)造,必須與生產/管理流程和上下文相結合,必須理解工業(yè)的特點、工業(yè)數(shù)據(jù)的特征和工業(yè)界的特殊要求。
這些特殊性決定了工業(yè)大數(shù)據(jù)分析的思路和方法有別于商務大數(shù)據(jù),更應以“小數(shù)據(jù)分析”的心態(tài),融合機理模型和領域經驗。在分析模式上,本文將工業(yè)大數(shù)據(jù)分析歸納為6類算法應用范式、4種融合范式和3類業(yè)務應用范式,以期促進不同行業(yè)分析模型的復用。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
AI 浪潮下的生存與進階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導白皮書) 發(fā)布機構:CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04