
工業(yè)大數(shù)據(jù)分析的誤區(qū)與建議
作為數(shù)據(jù)價值變現(xiàn)的核心技術(shù)手段之一,大數(shù)據(jù)分析的作用被廣泛宣傳甚至神化。對于工業(yè)大數(shù)據(jù)分析,產(chǎn)業(yè)界存在有不少困惑。是否把商業(yè)大數(shù)據(jù)分析照搬過來就是就足夠了?只要有了海量數(shù)據(jù),大數(shù)據(jù)分析是否不需要任何假設(shè)前提了?是否機(jī)理模型或領(lǐng)域經(jīng)驗(yàn)就不重要了?工業(yè)大數(shù)據(jù)分析有沒有典型的范式來指導(dǎo)實(shí)際操作?
從行業(yè)數(shù)據(jù)分析實(shí)踐者的角度,本文第一部分剖析了工業(yè)大數(shù)據(jù)分析的常見誤區(qū)與正確的價值變現(xiàn)之路,指出工業(yè)大數(shù)據(jù)分析應(yīng)該注重與機(jī)理模型的融合,充分利用領(lǐng)域先驗(yàn)知識;第二部分從分析算法的應(yīng)用側(cè)重點(diǎn)、分析模型與機(jī)理模型融合方式、業(yè)務(wù)應(yīng)用場景等三個維度歸納了工業(yè)大數(shù)據(jù)分析的典型范式。
工業(yè)大數(shù)據(jù)“大,不一樣”
在與工業(yè)企業(yè)的交流中,筆者感受到業(yè)界對大數(shù)據(jù)分析的期望與“神化”。
謂之“神化”,是由于大數(shù)據(jù)應(yīng)用在國內(nèi)外實(shí)踐產(chǎn)生的案例,在提質(zhì)增效及個性化服務(wù)方面,產(chǎn)生的利潤與之煽動的蝴蝶效應(yīng),讓有些工業(yè)企業(yè)以為只要安裝了傳感器,能把數(shù)據(jù)采集下來,就能讓數(shù)據(jù)說話,就能從上千種因素中定位出故障原因,就能精準(zhǔn)指導(dǎo)研發(fā)、生產(chǎn)、運(yùn)營。甚至誤認(rèn)為經(jīng)典的機(jī)理模型或多年積累的經(jīng)驗(yàn)不再重要。
然而脫離機(jī)理與領(lǐng)域知識的大數(shù)據(jù)分析結(jié)果常常是“你以為你以為的不是你以為的”。
工業(yè)大數(shù)據(jù)的“小”與“大”
從傳統(tǒng)大數(shù)據(jù)3V(Volume, Velocity, Variety)或4V(Veracity)度量角度來看,工業(yè)數(shù)據(jù)當(dāng)然屬于大數(shù)據(jù)的范疇,在體量上甚至超過互聯(lián)網(wǎng)大數(shù)據(jù)[1]。然在數(shù)據(jù)分析中仍不時感覺到工業(yè)數(shù)據(jù)之“小”,主要體現(xiàn)在3個方面。
1)價值密度:王建民教授曾指出[2],相對于產(chǎn)品圖紙、工藝設(shè)計(jì)等傳統(tǒng)“小”數(shù)據(jù),工業(yè)“大”數(shù)據(jù)的價值密度低。工業(yè)大數(shù)據(jù)分析無法脫離這些基礎(chǔ)信息的支撐,不舉小數(shù)據(jù)之“綱”,難行大數(shù)據(jù)之“目”。
2)大數(shù)據(jù)永遠(yuǎn)是物理世界的“小”樣本:以SMT(Surface Mount Technology)生產(chǎn)線為例,最終產(chǎn)品質(zhì)量由工藝參數(shù)、材料特性、生產(chǎn)設(shè)備等上千個參數(shù)共同影響,生產(chǎn)檢測大數(shù)據(jù)僅僅覆蓋了很小的參數(shù)組合空間(curse of dimension)。并且不是所有關(guān)鍵因素都有測量,測量值也不一定能反映分布式參數(shù)系統(tǒng)的全部(比如回流焊的溫度監(jiān)測值并不等于電路板的表面溫度)。工業(yè)數(shù)據(jù)分析更需要利用先驗(yàn)知識縮小搜索空間,同時保持一種“大膽探索、小心求證”的態(tài)度。
3)對分析有直接意義的樣本比例通常很?。汗I(yè)通常是運(yùn)行在設(shè)計(jì)的常態(tài)模式下,對不期望的干擾因素會進(jìn)行很多壓制,造成絕大部分?jǐn)?shù)據(jù)對應(yīng)非常相似的環(huán)境與過程。特別對于故障分析、殘次品因素分析等大數(shù)據(jù)分析,樣本不均衡程度非常高(biased data)。雖然物理系統(tǒng)相對社會系統(tǒng)更容易做一些控制性實(shí)驗(yàn),但由于很多工業(yè)領(lǐng)域控制實(shí)驗(yàn)(比如風(fēng)機(jī)葉片斷裂、油氣管道泄漏等)成本或風(fēng)險太高,實(shí)際上也很難提供足夠的異常情形樣本。
因此,工業(yè)大數(shù)據(jù)的“大”不能僅從數(shù)據(jù)量、數(shù)據(jù)類型、產(chǎn)生速度、質(zhì)量等角度來看,而應(yīng)考慮以下兩個方面。
1)維度之大:風(fēng)力發(fā)電機(jī)組的健康分析應(yīng)該從時間(過去故障記錄、整機(jī)性能演化等)、空間(相同機(jī)型在不同風(fēng)場的表現(xiàn))、環(huán)境(氣象、地理)、業(yè)務(wù)運(yùn)作(設(shè)計(jì)、維修、限電等)等多個維度綜合來看。獨(dú)立看似異常的事件,很多其實(shí)是正常業(yè)務(wù)操作引起的(如風(fēng)機(jī)功率低可能是由于啟動限功率運(yùn)行模式以降低對居民區(qū)的影響)。對于工業(yè)數(shù)據(jù),更應(yīng)構(gòu)建全面的上下文(context model),才有可能分析出一些有價值的結(jié)果。
2)先驗(yàn)知識基礎(chǔ)之大:工業(yè)領(lǐng)域通常有大量的機(jī)理模型、專家經(jīng)驗(yàn)的深厚積累,可以為數(shù)據(jù)分析縮小參數(shù)空間、提供有用的特征變量(如齒輪箱震動的倒譜參數(shù)),數(shù)據(jù)分析也應(yīng)思考如何有這些基礎(chǔ)更好的互動與融合,以期創(chuàng)造更大的價值。
工業(yè)數(shù)據(jù)分析與商業(yè)數(shù)據(jù)分析:一字之別?
當(dāng)前很多流行的大數(shù)據(jù)理念來自于互聯(lián)網(wǎng)和商務(wù)領(lǐng)域,不少分析技術(shù)也是針對商業(yè)大數(shù)據(jù)。但工業(yè)大數(shù)據(jù)與商業(yè)大數(shù)據(jù)在很多地方存在比較大的差別,郭朝輝等行業(yè)專家對此從不同角度進(jìn)行了深刻剖析[2,3],我們將其歸納為如下表所示的四個維度[4]。
1)研究對象不同:工業(yè)領(lǐng)域以物理系統(tǒng)(物理實(shí)體或環(huán)境)為中心,研究動態(tài)過程的規(guī)律和因果關(guān)系,而商業(yè)大數(shù)據(jù)以人造系統(tǒng)(人或流程)為研究對象,試圖理解其中的行為模式。當(dāng)然,工業(yè)領(lǐng)域的一些簡單產(chǎn)品(如個人電子消費(fèi)品)制造業(yè)和商業(yè)產(chǎn)品在產(chǎn)品定義、營銷和售后有不少相似之處,但對于復(fù)雜產(chǎn)品(如高端裝備、高精度制造),區(qū)別是非常顯著的。
2)現(xiàn)有基礎(chǔ)不同:在工業(yè)領(lǐng)域,人們對生產(chǎn)過程的研究一般比較深入,形成了很多系統(tǒng)化的中觀、微觀機(jī)理模型,領(lǐng)域知識也比較豐富??陀^來講,對物理系統(tǒng)本身的突破性知識發(fā)現(xiàn)難度很大。工業(yè)數(shù)據(jù)中體現(xiàn)出來的規(guī)律常常難以突破現(xiàn)有生產(chǎn)技術(shù)人員的認(rèn)知范圍。與之相比,商業(yè)領(lǐng)域中僅存在一些宏觀理念,定性描述人的行為偏好和經(jīng)濟(jì)活動規(guī)律,給大數(shù)據(jù)分析留有廣泛的提升空間。
3)新的驅(qū)動力不同:感知技術(shù)的發(fā)展和普及是工業(yè)大數(shù)據(jù)的驅(qū)動力,現(xiàn)有的工控技術(shù)很難處理大數(shù)據(jù)量的挑戰(zhàn),大量的監(jiān)測數(shù)據(jù)也為大數(shù)據(jù)分析帶來與業(yè)務(wù)數(shù)據(jù)融合分析的機(jī)會。而互聯(lián)網(wǎng)的發(fā)展為企業(yè)帶來與客戶交互的新渠道,極大促進(jìn)了商業(yè)大數(shù)據(jù)分析的發(fā)展。工業(yè)領(lǐng)域的大數(shù)據(jù)大多是具有時空信息的結(jié)構(gòu)化數(shù)據(jù),且背后有明確的物理結(jié)構(gòu)(如系統(tǒng)動力學(xué)、網(wǎng)絡(luò)拓?fù)潢P(guān)系等),對時間序列、時空模式、序列模式等結(jié)構(gòu)模式挖掘非常重要。而商業(yè)大數(shù)據(jù)分析大多集中在結(jié)構(gòu)化的數(shù)據(jù)倉庫表或非結(jié)構(gòu)化數(shù)據(jù)(如文本、視頻),數(shù)據(jù)間除了實(shí)體關(guān)系和部分時空信息外,結(jié)構(gòu)性關(guān)系較弱。
4)對分析技術(shù)的要求不同:工業(yè)系統(tǒng)的實(shí)時性高,動態(tài)性強(qiáng),對分析結(jié)果的精度要求高,很難接受概率性預(yù)測,而商業(yè)應(yīng)用常遵循大數(shù)原則,概率性的分析就可以為運(yùn)營提供很大的幫助。不同工業(yè)應(yīng)用場景對技術(shù)指標(biāo)的要求也不同,比如在風(fēng)機(jī)領(lǐng)域,大部件的故障檢測報警已經(jīng)在PLC中實(shí)現(xiàn),大數(shù)據(jù)分析只有提前若干小時的故障預(yù)警才有意義;油氣管道泄漏檢測中,泄漏發(fā)生后的及時報警也很有意義,但其要求零漏報、極低的誤報(管道深埋地下,誤報會給一線工作人員帶來很大工作量);在抽油機(jī)監(jiān)測分析中,可容忍分析算法對一些罕見或復(fù)雜故障類型的無法研判(類似漏報),但分析算法可以研判的出示功圖異常的的準(zhǔn)確率應(yīng)該是100%(這樣就可以降低70~80%的重復(fù)性工作)。
工業(yè)數(shù)據(jù)分析的價值實(shí)現(xiàn)之道
綜上所述,工業(yè)大數(shù)據(jù)分析更應(yīng)該抱著“小數(shù)據(jù)”的心態(tài),敬畏機(jī)理模型和領(lǐng)域經(jīng)驗(yàn),把數(shù)據(jù)分析模型與機(jī)理模型充分融合。數(shù)據(jù)分析對工業(yè)領(lǐng)域知識的幫助主要體現(xiàn)在如下3個渠道:
1)物理過程和業(yè)務(wù)過程的融合。能將物理量與經(jīng)營過程量(如產(chǎn)品質(zhì)量、生產(chǎn)效率、設(shè)備可靠性等)的關(guān)系定量化,突破現(xiàn)有生產(chǎn)技術(shù)人員的知識盲點(diǎn),實(shí)現(xiàn)過程痕跡的可視化。
2)對于物理過程環(huán)節(jié),重視知識的“自動化”,而不僅僅是知識的“發(fā)現(xiàn)”。將領(lǐng)域知識進(jìn)行系統(tǒng)化管理,通過大數(shù)據(jù)分析進(jìn)行檢索和更新優(yōu)化;對于相對明確的專家知識,借助大數(shù)據(jù)建模工具提供的典型時空模式描述與識別技術(shù),進(jìn)行形式化建模,在海量歷史數(shù)據(jù)上進(jìn)行驗(yàn)證和優(yōu)化,不斷萃取專家知識,充分利用多維度融合帶來的統(tǒng)計(jì)顯著性(比如個別風(fēng)場看似偶發(fā)的故障,在全體風(fēng)場上可能有穩(wěn)定的統(tǒng)計(jì)規(guī)律)
3)“軟”測量。在工業(yè)應(yīng)用中,不同過程量監(jiān)測的技術(shù)可行性、精度、頻度、成本差別較大,通過大數(shù)據(jù)分析,建立指標(biāo)間的關(guān)聯(lián)關(guān)系模型,通過易測的過程量去推斷難測的過程量,提升生產(chǎn)過程的整體可觀可控。
小結(jié)如前所述,工業(yè)大數(shù)據(jù)分析更應(yīng)秉承“小數(shù)據(jù)”思維,尊重機(jī)理模型和領(lǐng)域知識,利用數(shù)據(jù)分析技術(shù)手段,披沙簡金,釋放工業(yè)大數(shù)據(jù)的價值。為更明確指導(dǎo)工業(yè)大數(shù)據(jù)分析軟件架構(gòu),接下來本文將從分析算法側(cè)重點(diǎn)、分析模型與機(jī)理模型融合方式、業(yè)務(wù)應(yīng)用場景等3個方面分享工業(yè)大數(shù)據(jù)分析的典型范式。
6類算法應(yīng)用范式
數(shù)據(jù)分析本質(zhì)上是一種統(tǒng)計(jì)手段,需要足夠的樣本才有可能發(fā)揮顯著作用。另外,數(shù)據(jù)分析作為探索未知的一種技術(shù)手段,它的作用也與機(jī)理復(fù)雜度密切相關(guān)。這里從產(chǎn)品相似度、機(jī)理復(fù)雜度兩個維度,將分析算法應(yīng)用分為6類范式。
1)從工業(yè)產(chǎn)品的相似度來看,可分為大量相似產(chǎn)品(如風(fēng)力發(fā)電機(jī))和少量定制化產(chǎn)品(如就地建設(shè)的化工反應(yīng)塔)。相似產(chǎn)品在數(shù)據(jù)分析時可以充分利用產(chǎn)品間的交叉驗(yàn)證,而少量定制化產(chǎn)品應(yīng)深度挖掘時間維度。
2)從產(chǎn)品機(jī)理的復(fù)雜性來看,有無需機(jī)理模型的black-box產(chǎn)品(如電子消費(fèi)品,通常不會深入元器件內(nèi)部去分析)、簡單明確機(jī)理產(chǎn)品(如風(fēng)力發(fā)電機(jī))、復(fù)雜機(jī)理產(chǎn)品(如鼓風(fēng)機(jī)、化工廠)。復(fù)雜機(jī)理產(chǎn)品在工業(yè)大數(shù)據(jù)分析時,應(yīng)更加重視機(jī)理模型和專家經(jīng)驗(yàn)的融入。
4種融合范式
分析模型與機(jī)理模型的融合可以分為4種范式:
1)分析模型為機(jī)理模型做model calibration,提供參數(shù)的點(diǎn)估計(jì)或分布估計(jì)。例如Kalman濾波。
2)分析模型為機(jī)理模型做post-processing。比如,利用統(tǒng)計(jì)方法對WRF等天氣預(yù)報模型的結(jié)果做修正或多個機(jī)理模型綜合,提高預(yù)測的穩(wěn)定性。
3)機(jī)理模型的部分結(jié)果作為分析模型的feature。例如,在風(fēng)機(jī)結(jié)冰預(yù)測中,計(jì)算風(fēng)機(jī)的理論功率、理論轉(zhuǎn)速作為數(shù)據(jù)挖掘模型的重要特征。
4)分析模型與機(jī)理模型做ensemble。比如,在空氣質(zhì)量預(yù)測中,WRF-CHEM/CMAQ等機(jī)理模型可及時捕獲全局動態(tài)演化過程,而統(tǒng)計(jì)模型可對局部穩(wěn)態(tài)周期模式有較高精度的刻畫,model ensemble可有效融合兩類模型的各自優(yōu)勢。
3類業(yè)務(wù)應(yīng)用范式
通過對復(fù)雜過程的演化過程和上下文的全面深入刻畫,工業(yè)大數(shù)據(jù)對產(chǎn)品/設(shè)備可靠性、運(yùn)作效率、產(chǎn)業(yè)互聯(lián)網(wǎng)等3類業(yè)務(wù)應(yīng)用場景都有很大促進(jìn)作用。一些行業(yè)的典型工業(yè)大數(shù)據(jù)分析場景如下圖所示。
小結(jié)
工業(yè)大數(shù)據(jù)分析能否真正落地,取決于能否創(chuàng)造經(jīng)濟(jì)價值。價值的持續(xù)創(chuàng)造,必須與生產(chǎn)/管理流程和上下文相結(jié)合,必須理解工業(yè)的特點(diǎn)、工業(yè)數(shù)據(jù)的特征和工業(yè)界的特殊要求。
這些特殊性決定了工業(yè)大數(shù)據(jù)分析的思路和方法有別于商務(wù)大數(shù)據(jù),更應(yīng)以“小數(shù)據(jù)分析”的心態(tài),融合機(jī)理模型和領(lǐng)域經(jīng)驗(yàn)。在分析模式上,本文將工業(yè)大數(shù)據(jù)分析歸納為6類算法應(yīng)用范式、4種融合范式和3類業(yè)務(wù)應(yīng)用范式,以期促進(jìn)不同行業(yè)分析模型的復(fù)用。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11