
大數(shù)據(jù)來襲 企業(yè)如何保護(hù)非結(jié)構(gòu)化大數(shù)據(jù)
目前企業(yè)已經(jīng)進(jìn)入全新的大數(shù)據(jù)時代。在高帶寬、移動的、網(wǎng)絡(luò)環(huán)境中工作和生活的我們,會產(chǎn)生大量的數(shù)據(jù),這些都成為大數(shù)據(jù)的來源,而這些信息很少存在于同一個地方。在幾微秒中,信息就能夠發(fā)布給世界各地的很多人。企業(yè)的高管門(包括CEO、CIO、CSO等)都必須面對因為大數(shù)據(jù)帶來的風(fēng)險和安全挑戰(zhàn),并規(guī)劃好如何去應(yīng)對他們。本文將討論如何看待非結(jié)構(gòu)化數(shù)據(jù)相對于傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)帶來的安全風(fēng)險和挑戰(zhàn)以及多層面防護(hù)方法。
識別非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)安全保護(hù)的差異
信息通常被歸類為結(jié)構(gòu)化形式的或非結(jié)構(gòu)化形式的。不同的類型有不同的保護(hù)方法。舉個例子來說,非結(jié)構(gòu)化的Excel電子數(shù)據(jù)表實(shí)際上包含結(jié)構(gòu)化的數(shù)據(jù)。在經(jīng)典的術(shù)語中,結(jié)構(gòu)化的數(shù)據(jù)是指數(shù)據(jù)符合某種嚴(yán)格的數(shù)據(jù)模型和限制的模型。比如,模型可以定義一個業(yè)務(wù)流程控制信息流經(jīng)過一些面向服務(wù)的架構(gòu)(SOA)系統(tǒng),或者也可定義數(shù)據(jù)如何在內(nèi)存的一個數(shù)組中存儲。但是對于大多數(shù)IT和數(shù)據(jù)庫管理專家來說,結(jié)構(gòu)化數(shù)據(jù)是駐留在數(shù)據(jù)庫中,并基于數(shù)據(jù)庫架構(gòu)和相關(guān)數(shù)據(jù)庫規(guī)則被組織的信息。而作為一個安全專家來說,這就意味著兩個重要的事情:
數(shù)據(jù)庫駐留在數(shù)據(jù)中心,周圍是物理安全設(shè)施(包括磚墻、金屬柜子等)、網(wǎng)絡(luò)防火墻和其他安全措施,允許你能夠控制對數(shù)據(jù)的訪問。
數(shù)據(jù)本身的結(jié)構(gòu)化方式通常允許對數(shù)據(jù)的簡單分類。舉個例子,你能在數(shù)據(jù)庫中識別一個特定的人的醫(yī)療記錄和應(yīng)用相應(yīng)的安全控制。
所以,因為你知道結(jié)構(gòu)化數(shù)據(jù)是什么樣的以及它駐留在哪里,你有嚴(yán)格的控制機(jī)制來決定誰能訪問它。對于結(jié)構(gòu)化數(shù)據(jù)定義和應(yīng)用安全控制相對簡單,要么使用結(jié)構(gòu)內(nèi)置的特性或者專門為特定結(jié)構(gòu)設(shè)計的第三方工具即可完成控制。
而在相比之下,非結(jié)構(gòu)化數(shù)據(jù)的管理和安全更加困難。非結(jié)構(gòu)化數(shù)據(jù)能在任何地方、以任何格式、在任何設(shè)備上存在,并且在大數(shù)據(jù)時代能夠跨越任何網(wǎng)絡(luò)。舉個例子說明非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用復(fù)雜性,一個病人的記錄從數(shù)據(jù)庫中被提取出來顯示在一個網(wǎng)頁上,從網(wǎng)頁拷貝到數(shù)據(jù)表格中,附在電子郵件中,然后發(fā)送到另外一個網(wǎng)絡(luò)的郵箱中。
并且,非結(jié)構(gòu)化的數(shù)據(jù)沒有嚴(yán)格的格式。當(dāng)然,我們的Word文檔,電子郵件等符合定義它們內(nèi)部結(jié)構(gòu)的標(biāo)準(zhǔn);然而,它們其中包含的數(shù)據(jù)幾乎沒有限制。比如上面列舉的那個病人記錄的例子,假設(shè)一個用戶改變內(nèi)容后把它從網(wǎng)頁上拷貝到數(shù)據(jù)表格中,可能刪除了某些字段和標(biāo)題。因為這個信息從一種格式轉(zhuǎn)變成了另外一種格式,它原始的機(jī)構(gòu)被有效的改變了。
保護(hù)存儲成結(jié)構(gòu)化的數(shù)據(jù)和信息是相對簡單的。但是隨著一個信息從結(jié)構(gòu)化的形式移轉(zhuǎn)變?yōu)榉墙Y(jié)構(gòu)化的時候,這個情況就會變得非常的復(fù)雜??紤]這樣一個例子,很多分析人士的報告表明在當(dāng)前的企業(yè)組織中,80%或者超過80%的電子信息是非結(jié)構(gòu)化的,還有非結(jié)構(gòu)化數(shù)據(jù)增長的速度是結(jié)構(gòu)化數(shù)據(jù)的10到20倍。也考慮一下媒體上的新聞文章不斷強(qiáng)調(diào)知識產(chǎn)權(quán)的竊取、信息的意外丟失、數(shù)據(jù)的惡意使用等,最核心的問題就是非結(jié)構(gòu)化的數(shù)據(jù)。在2010年,全球總的非結(jié)構(gòu)化的數(shù)據(jù)估計大概有100萬PB(1048576000000GB),被認(rèn)為將以每年25%的速度增加。我們顯然需要去理解我們?nèi)绾伪Wo(hù)非結(jié)構(gòu)化數(shù)據(jù)的安全。
非結(jié)構(gòu)化數(shù)據(jù)需安全保護(hù)的“三態(tài)”
非結(jié)構(gòu)化的數(shù)據(jù)在任何給定的時間總是處在三種狀態(tài)中的一種:非使用、傳輸中、使用中。非使用也就是在存儲設(shè)備中;它可能在傳輸中意味著它從一個地方被拷貝到另一個地方。或者,它可能在使用中(被一些應(yīng)用程序打開著)。比如一個PDF文件,它可能存儲在一個USB設(shè)備上,不在使用狀態(tài);同一個PDF文件可能從USB設(shè)備拷貝,并附在電子郵件中發(fā)送到因特網(wǎng)上。PDF從USB設(shè)備上被拷貝,通過很多州到電子郵件服務(wù)器,通過網(wǎng)絡(luò)從發(fā)件箱到收件箱。最后,收件人收到郵件并打開PDF文件,在那個時刻非結(jié)構(gòu)化數(shù)據(jù)處于使用狀態(tài)(駐留在內(nèi)存中),在一個應(yīng)用程序的控制下(例如Adobe Reader閱讀器),并被呈現(xiàn)給可以交互的用戶。
結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為非結(jié)構(gòu)化數(shù)據(jù)帶來風(fēng)險
基于上面三種狀態(tài)的描述,可以更加詳細(xì)地討論目前對保護(hù)非結(jié)構(gòu)化數(shù)據(jù)的挑戰(zhàn)。假設(shè)企業(yè)組織有一個HR的應(yīng)用程序,它包括一個維護(hù)每個員工信息的數(shù)據(jù)庫,包括他們的年度工資、以前的紀(jì)律處分信息、個人數(shù)據(jù)(例如家庭地址和社會安全號碼)等。如同大多數(shù)現(xiàn)代的HR應(yīng)用程序一樣,它是基于網(wǎng)頁的,所以當(dāng)一個認(rèn)證的用戶運(yùn)行一個報表的時候,報表是從結(jié)構(gòu)化的數(shù)據(jù)庫過渡到非結(jié)構(gòu)化的數(shù)據(jù),以HTML的格式傳遞給網(wǎng)頁瀏覽器。用戶應(yīng)用程序能夠很容易從瀏覽器的拷貝和粘貼這個信息到電子郵箱信息和通過其他方式轉(zhuǎn)發(fā)。當(dāng)這個信息一旦添加到郵件正文中,它失去了與原始的應(yīng)用程序所有結(jié)構(gòu)和關(guān)聯(lián)。用戶可能也會選擇只拷貝和粘貼一部分信息,更改一部分信息,或者在原始的信息中添加一些新的內(nèi)容。收到用戶發(fā)的電子郵件的人可能會拷貝和粘貼數(shù)據(jù)到電子表格。這些電子表格信息可能被用來創(chuàng)建一個圖示的信息,使用的原始的一些文本信息在圖形上作為標(biāo)簽。如同這個情況所示,結(jié)構(gòu)化信息很快就被三種狀態(tài)的改變而轉(zhuǎn)化成了非結(jié)構(gòu)化數(shù)據(jù),這些結(jié)構(gòu)化數(shù)據(jù)從以前的數(shù)據(jù)庫中改變并重構(gòu)、存儲在較小的數(shù)據(jù)格式中,它們包括電子郵件,文檔,圖片,視頻等等。
企業(yè)可能已經(jīng)很好的定義了安全模型去控制訪問HR的應(yīng)用程序和包含HR信息的數(shù)據(jù)庫。然而,信息需要傳遞給對有意義的人們或者應(yīng)用程序。如果它通過網(wǎng)絡(luò)傳輸了,企業(yè)和用戶能確定訪問網(wǎng)絡(luò)是安全的,然而,當(dāng)信息到達(dá)用戶時,它能夠被轉(zhuǎn)換成數(shù)千種不同的格式,發(fā)送給各種各樣的應(yīng)用程序和網(wǎng)絡(luò)。每個信息存在的地方能夠有保護(hù)的,它可能應(yīng)用訪問控制對共享文件和控制對數(shù)據(jù)駐留(內(nèi)容)的地方和網(wǎng)絡(luò)的訪問;然而,你的非結(jié)構(gòu)化信息可能在任何地方被終結(jié),因此很難對它保護(hù)。事實(shí)上,甚至很難對它定位、識別和分類信息。一旦HR的數(shù)據(jù)終結(jié)在電子郵件中,意外的轉(zhuǎn)發(fā)給錯誤的人,它就沒有存儲在數(shù)據(jù)庫原始數(shù)據(jù)的良好結(jié)構(gòu)了。它在從數(shù)據(jù)庫到一個未授權(quán)的用戶的收件箱的傳輸過程中,也被復(fù)制了好幾次。
事實(shí)上,在大數(shù)據(jù)時代,非結(jié)構(gòu)化的數(shù)據(jù)不斷的發(fā)生變化,數(shù)據(jù)終結(jié)在你沒有預(yù)期的地方,特別是因特網(wǎng)提供了一個令人難以置信的由擅長傳輸非結(jié)構(gòu)化數(shù)據(jù)的計算機(jī)組成的大型網(wǎng)絡(luò)。大量的金錢和精力投入到去建設(shè)社交網(wǎng)絡(luò)(SNS),文件共享和協(xié)助服務(wù),點(diǎn)對點(diǎn)的應(yīng)用。點(diǎn)對點(diǎn)提供了無數(shù)種將非結(jié)構(gòu)化數(shù)據(jù)在幾秒鐘內(nèi)發(fā)布給數(shù)十億的用戶。所以我們經(jīng)常聽到關(guān)于數(shù)據(jù)丟失的例子就不足為奇,現(xiàn)在我們創(chuàng)造了這么多令人驚訝的方法允許信息簡單的離開我們保護(hù)的邊界,我們的網(wǎng)絡(luò)控制用來阻止攻擊者范圍受我們保護(hù)的數(shù)據(jù)不再足以讓它安全了。
因此,企業(yè)高層管理者要充分意識到大數(shù)據(jù)時代非結(jié)構(gòu)化數(shù)據(jù)帶來的安全風(fēng)險和沖擊,并提前準(zhǔn)備好相應(yīng)的措施來應(yīng)對它。
多層面數(shù)據(jù)防泄露保護(hù)非結(jié)構(gòu)化數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù)通常需要以如下幾種方式進(jìn)行泄露管控:
針對以上需要,可以應(yīng)用數(shù)據(jù)防泄露進(jìn)行有效的防控。數(shù)據(jù)防泄露(也稱DLP)指的是一個相對較新的一組技術(shù)設(shè)計去監(jiān)控,發(fā)現(xiàn)和保護(hù)數(shù)據(jù)。你可能還聽到這種技術(shù)成為數(shù)據(jù)泄露防護(hù)—有時它也稱為“保護(hù)”這個詞代替“防護(hù)”。在任何情況下,DLP像一個你“數(shù)據(jù)的防火墻”。有各種各樣DLP的解決方案在市場上,通常能夠使用如下三種類型來分別在不同的層面保護(hù)非結(jié)構(gòu)化數(shù)據(jù):
網(wǎng)絡(luò)DLP 通常一個網(wǎng)絡(luò)應(yīng)用程序在主要的網(wǎng)絡(luò)周圍(大多數(shù)情況是在企業(yè)的組織網(wǎng)絡(luò)和互聯(lián)網(wǎng)之間)作為一個網(wǎng)關(guān)。網(wǎng)絡(luò)DLP監(jiān)控通過網(wǎng)關(guān)的流量試圖去探測敏感的數(shù)據(jù)或者做點(diǎn)相關(guān)的事情,通常會阻止它離開網(wǎng)絡(luò)。
存儲DLP軟件要么運(yùn)行在一個應(yīng)用程序上或者直接在文件服務(wù)器上,執(zhí)行像網(wǎng)路DLP一樣的功能。存儲DLP掃描存儲系統(tǒng)去發(fā)現(xiàn)敏感數(shù)據(jù)。當(dāng)找到的時候,它可以刪掉它,把它隔離或者簡單的通知管理員。
終端的DLP軟件運(yùn)行在終端系統(tǒng)上監(jiān)控操作系統(tǒng)活動和應(yīng)用程序,觀察內(nèi)存和網(wǎng)絡(luò)流量去探測敏感信息不恰當(dāng)?shù)氖褂谩?/span>
并且,網(wǎng)絡(luò)、存儲和終端的DLP經(jīng)常一起使用作為一個綜合DLP解決方案去滿足非結(jié)構(gòu)數(shù)據(jù)的安全管控需求。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10