
處理不確定數(shù)據(jù)的方法研究
成果簡介:不確定性是客觀存在的大量現(xiàn)象和事物的特征,其表現(xiàn)形式也具有多樣性,如隨機(jī)性、模糊性、粗糙性以及多重不確定性等。隨著研究范圍的擴(kuò)大、研究內(nèi)容的深入,對不確定現(xiàn)象與事物的研究及其數(shù)據(jù)處理方法也亟待突破和落地應(yīng)用。本研究針對不確定性的數(shù)學(xué)理論、算法及應(yīng)用開展了多層次研究:數(shù)據(jù)分析師,在隨機(jī)性數(shù)據(jù)處理方面,應(yīng)用已有的成熟算法對實際生活中常見的不確定性現(xiàn)象開展分析,包括了多維標(biāo)度法在親屬關(guān)系中的分析應(yīng)用、Bayes判別法在醫(yī)學(xué)領(lǐng)中的分析應(yīng)用;在粗糙性數(shù)據(jù)處理方面,發(fā)展了若干處理不確定性數(shù)據(jù)的新方法,包括了合成集值信息系統(tǒng)的屬性特征分析方法以及基于包含度的結(jié)構(gòu)粗糙集近似方法研究。
成果內(nèi)容提要:
隨著信息技術(shù)的日星月異,一些具有海量、高維、動態(tài)等特征的大規(guī)模復(fù)雜數(shù)據(jù)不對涌現(xiàn),這些數(shù)據(jù)以數(shù)字、語言、聲音、圖像等形式進(jìn)行存儲,并形成了大量的復(fù)雜信息系統(tǒng),人們迫切需要去分析處理這些復(fù)雜數(shù)據(jù),從中找到有價值的信息和知識。然而,(數(shù)據(jù)分析師)由于這些數(shù)據(jù)帶有的高度不確定性,直接對這些數(shù)據(jù)進(jìn)行處理面臨著嚴(yán)重的計算問題。瞎子摸象的故事就反映了在信息不確定性下進(jìn)行應(yīng)用推理會產(chǎn)生認(rèn)知的偏差。因此,如何有效、快速地處理不確定性數(shù)據(jù),并提取出隱含其中、潛在有用的知識,一直是智能信息處理領(lǐng)域的一個研究熱點。
作為知識獲取和數(shù)據(jù)挖掘的重要理論,概率論與包含度理論是處理隨機(jī)性和粗糙性數(shù)據(jù)工具的基礎(chǔ)理論。本作品針對若干不確定性的數(shù)學(xué)理論、算法及應(yīng)用開展了多層次研究,在隨機(jī)和粗糙性數(shù)據(jù)處理方面取得了以下兩方面的研究成果,對推動不確定性數(shù)據(jù)處理的理論、方法和實際應(yīng)用研究具體重要的現(xiàn)實意義。
1、在隨機(jī)性數(shù)據(jù)處理方面,應(yīng)用基于概率論的統(tǒng)計分析算法對實際生活的常見不確定性現(xiàn)象開展分析。
(1)多維標(biāo)度法在親屬關(guān)系中的分析應(yīng)用:簡單地介紹了多維標(biāo)度法和加權(quán)多維標(biāo)度法的理論及原理,對親屬關(guān)系間的不確定現(xiàn)象進(jìn)行建模,采用多維標(biāo)度法分析了親屬關(guān)系的親密程度,展示了15種親屬關(guān)系可分為五大類,并由此得到在人們心中親屬的分類情況,最終根據(jù)這些分類來解釋一些親屬間的關(guān)系,理解人際關(guān)系中的一些社會現(xiàn)象,幫助緩和彼此之間的一些矛盾。
(2)Bayes判別法在醫(yī)學(xué)領(lǐng)中的分析應(yīng)用:Bayes判別在進(jìn)行判別分析時考慮到各總體出現(xiàn)的先驗概率、預(yù)報的先驗概率及錯判造成的損失,其判別效能優(yōu)于其他判別方法。在對Bayes判別方法詳細(xì)介紹基礎(chǔ)上,本研究利用R軟件對一組舒張壓和膽固醇數(shù)據(jù)分別進(jìn)行Bayes判別分析、Fisher判別分析和基于距離的判別分析,對比三種不同方法下得到的判別結(jié)果。結(jié)果表明,Bayes判別分析得到的分類結(jié)果精度較高,在醫(yī)學(xué)領(lǐng)域有較好的應(yīng)用前景。
2、在粗糙性數(shù)據(jù)處理方面,發(fā)展了基于包含度理論的若干粗糙性數(shù)據(jù)處理新理論和新方法。
(1)合成集值信息系統(tǒng)的屬性特征:屬性特征是描述數(shù)據(jù)的重要表征,也是研究信息系統(tǒng)中屬性重要性的方法之一。對一個信息系統(tǒng)而言,知識庫中的屬性并不是同等重要的,其中有些屬性是冗余的,即不必要屬性,而有些屬性是必需的,即必要屬性。而當(dāng)信息系統(tǒng)中的數(shù)據(jù)是隨機(jī)采集時,其冗余性更為普遍。因此,研究信息系統(tǒng)中屬性的重要性即屬性特征具有重要的理論與實際意義。本研究基于集值信息系統(tǒng)中的擬序關(guān)系,給出了對象合成、屬性合成集值信息系統(tǒng),討論了集值信息系統(tǒng)與合成集值信息系統(tǒng)的協(xié)調(diào)集、屬性特征之間的關(guān)系,進(jìn)而定義了對象(屬性)子集值信息系統(tǒng),研究了子集值信息系統(tǒng)與原集值信息系統(tǒng)等的必要屬性及不必要屬性之間的關(guān)系。
(2)(數(shù)據(jù)分析師)基于包含度的結(jié)構(gòu)粗糙集近似方法研究:基于包含度理論的粗糙集是一種處理不確定性和不完整性的數(shù)學(xué)工具,不僅能有效地分析不完整、不一致、不精確等不完備的信息,還能對數(shù)據(jù)進(jìn)行分析與推理,從中發(fā)現(xiàn)隱含的的知識,揭示其潛在的規(guī)律。本研究在Pawlak下、上近似和Bryniarski下、上近似的基礎(chǔ)上,研究了結(jié)構(gòu)粗糙集近似及其性質(zhì),主要包括基于概率粗糙集近似研究及其性質(zhì),利用包含度度量等價類和被近似集之間的包含程度,基于包含度的粗糙集近似及其性質(zhì),以及基于包含度的結(jié)構(gòu)粗糙集近似。
綜上,上述兩方面的理論和應(yīng)用研究,有助于隨機(jī)和粗糙性數(shù)據(jù)的合成、傳播和修正,為不確定數(shù)據(jù)處理理論和應(yīng)用研究提供了借鑒,同時也對產(chǎn)生新的不確定推理技術(shù)有著明顯的指導(dǎo)作用。
社會反映:
當(dāng)今世界處在一個信息時代,信息是人類社會認(rèn)識世界和改造世界的知識源泉,人們接觸到的各種各樣的信息有時候是確定的,更多的時候是不確定的。信息本身的確定或不確定屬性無所謂好壞,問題在于我們怎樣去正視不確定性、認(rèn)識不確定性、把握不確定性,確定與不確定揭示和反映事物變化發(fā)展過程中的必然與偶然、清晰與模糊、精確與近似之間的關(guān)系,確定性是指客觀事物聯(lián)系和發(fā)展過程中有規(guī)律的、必然的、清晰的、精確的屬性,不確定性是指客觀事物聯(lián)系和發(fā)展的過程中無序的、或然的、模糊的、近似的屬性,確定與不確定,既有本質(zhì)區(qū)別,又有內(nèi)在聯(lián)系,兩者之間的關(guān)系是辯證統(tǒng)一的。
不確定性的數(shù)據(jù)分析研究是在概率論、可信性理論、包含度理論等基礎(chǔ)理論支撐逐漸開展的,是指對決策受到各種事前無法控制的外部因素變化與影響所進(jìn)行的研究和估計,可以盡量弄清和減少不確定性因素對關(guān)注問題的影響。本研究旨在提供處理若干不確定性問題的理論分析和數(shù)學(xué)工具,內(nèi)容包括隨機(jī)性數(shù)據(jù)與粗糙性數(shù)據(jù)的處理兩大方面,部分反映了不確定性數(shù)據(jù)處理的最新研究成果、研究方法和研究動向,在理論體系和方法上均有所創(chuàng)新。本作品可作為應(yīng)用數(shù)學(xué)、運(yùn)籌學(xué)、管理科學(xué)、計算機(jī)科學(xué)、系統(tǒng)科學(xué)、信息科學(xué)與工程技術(shù)等專業(yè)師生和研究人員探討分析不確定性數(shù)據(jù)處理的參考資料,也可作為相關(guān)專業(yè)的教師和研究人員的參考書。
(1)多維標(biāo)度法在親屬關(guān)系中的分析應(yīng)用
(2)Bayes判別分析在醫(yī)學(xué)中的應(yīng)用
判別分析是用以判別個體所屬群體的一種統(tǒng)計學(xué)方法,它產(chǎn)生于20世紀(jì)30年代,近年來,在許多自然科學(xué)的各個分支和技術(shù)部門中,得到了廣泛應(yīng)用。判別分析假設(shè)訓(xùn)練樣本由一個因變量和個自變量的個樣本點構(gòu)成依據(jù)這樣的訓(xùn)練樣本,判別分析建立起因變量與自變量之間的關(guān)系,稱為判別規(guī)則,然后依據(jù)這種判別規(guī)則針對待判樣本的每一個樣品做出該樣本點應(yīng)歸屬與哪一類判別分析的方法很多,大致上分為兩大類,一類是以距離為判別準(zhǔn)則; 另一類是以概率為判別準(zhǔn)則的Bayes判別。距離判別最簡單、最直觀的一種判別方法,但其存在不足,在實際中常用的是基于概率的Bayes判別。本研究對Bayes判別分析進(jìn)行了詳細(xì)的研究,給出了Bayes判別思想并且應(yīng)用R軟件程序?qū)σ粋€醫(yī)學(xué)實例進(jìn)行Bayes判別分析,同時將Bayes判別分析與Fisher判別分析以及基于距離的判別分析方法得到的結(jié)果進(jìn)行了比較,說明了Bayes判別分析的分類結(jié)果精度高。由此判斷,Bayes判別分析在病例診斷等醫(yī)學(xué)領(lǐng)域應(yīng)用中可以發(fā)揮不可估量的作用,隨著數(shù)據(jù)庫技術(shù)的飛速發(fā)展以及人們獲取數(shù)據(jù)手段的多樣化,計算機(jī)輔助診斷將會有廣泛的應(yīng)用前景和發(fā)展空間。
(3)合成集值信息系統(tǒng)的屬性特征
Pawlak粗糙集理論以論域中的對象在任意屬性下取值為單個值的信息系統(tǒng)為研究對象,以等價關(guān)系為基礎(chǔ)研究概念近似(上下近似)和屬性約簡。近年來,許多學(xué)者將Pawlak粗糙集進(jìn)行了推廣,提出了基于不同二元關(guān)系的粗糙集理論模型。然而,一方面,現(xiàn)實世界中的信息系統(tǒng)形式復(fù)雜多樣,要保證每個對象的所有屬性值的完整性和唯一性往往是非常困難的。在不確定信息或缺省信息,即不完備信息的情況下,就需要研究不完備信息系統(tǒng)。另一方面,數(shù)據(jù)庫的合成與分解是實際應(yīng)用中非常重要的一個問題,它所對應(yīng)的數(shù)學(xué)模型是信息系統(tǒng)的合成與分解,而實際處理數(shù)據(jù)時,經(jīng)常要研究基于取值為集合的集值信息系統(tǒng),所以研究集值信息系統(tǒng)的合成與分解就變得非常必要。
屬性特征是研究信息系統(tǒng)中屬性重要性的一種重要方法。由于任意一個信息系統(tǒng)的知識庫都是確定的,故可根據(jù)不同的要求對信息系統(tǒng)進(jìn)行分類、知識獲取和規(guī)則提取。在實際應(yīng)用中,經(jīng)常會出現(xiàn)在原信息系統(tǒng)上添加對象、增加或刪除屬性,進(jìn)而在新的信息系統(tǒng)上進(jìn)行分類、獲取知識等。故而研究新的信息系統(tǒng)與原信息系統(tǒng)在知識庫、知識獲取、分類及規(guī)則提取等方面的關(guān)系是一個值得研究的問題。鑒于現(xiàn)實中存在著大量的信息是不確定、不完備或者是多值的系統(tǒng),而等價關(guān)系又極大的限制了粗糙集的屬性約簡等方法的研究與應(yīng)用。故而,本研究將上述單值信息系統(tǒng)的合成方法推廣到集值信息系統(tǒng)中,研究合成的集值信息系統(tǒng)的屬性特征。具體是研究了集值信息系統(tǒng)上擬序關(guān)系的性質(zhì),給出了集值信息系統(tǒng)的合成——對象合成集值信息系統(tǒng)與屬性合成集值信息系統(tǒng),研究了這兩種合成集值信息系統(tǒng)與原集值信息系統(tǒng)的協(xié)調(diào)集及屬性特征之間的關(guān)系;進(jìn)而討論了集值信息系統(tǒng)的分解問題,給出了對象及屬性子集值信息系統(tǒng),討論了集值信息系統(tǒng)與其子集值信息系統(tǒng)的屬性特征——必要屬性與不必要屬性之間的關(guān)系。上述理論的研究提供了一種處理不精確和不完全知識的工具,一定程度上解決了刻畫粗糙集理論中屬性重要性的核心問題。
(4)合成集值信息系統(tǒng)的屬性特征
Zadeh L A于1965年提出的模糊集是對“經(jīng)典集合”的擴(kuò)充,從而刻畫了“對象”的不確定性,包含度理論是對“包含關(guān)系”的擴(kuò)充,從而包容了“關(guān)系”的不確定性。模糊集理論與包含度理論相輔相成,成為研究不確定性的重要工具,在各種關(guān)系型數(shù)據(jù)庫中有著直接的應(yīng)用。在包含度理論基礎(chǔ)上,Pawlak在粗糙集理論中提出的上、下近似是利用等價關(guān)系產(chǎn)生的等價類與被近似集之間的關(guān)系來刻畫未知的知識。1989年Bryniarski提出了利用等價類刻畫未知知識的帶有結(jié)構(gòu)特征的下、上近似,它保留了Pawlak下、上近似中等價類與被近似集之間的關(guān)系,但給出了滿足上述關(guān)系的結(jié)構(gòu)信息。本研究是在Pawlak下、上近似和Bryniarski下、上近似的基礎(chǔ)上,總結(jié)了近年來我國不確定系統(tǒng)研究工作者的最新成果,研究了結(jié)構(gòu)粗糙集近似及其性質(zhì),發(fā)展了基于包含度的粒計算的理論與方法,對于人工智能、專家系統(tǒng)、模式識別、管理決策都有重要意義。數(shù)據(jù)分析師培訓(xùn)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11