
大數據來襲 企業(yè)如何保護非結構化大數據
目前企業(yè)已經進入全新的大數據時代。在高帶寬、移動的、網絡環(huán)境中工作和生活的我們,會產生大量的數據,這些都成為大數據的來源,而這些信息很少存在于同一個地方。在幾微秒中,信息就能夠發(fā)布給世界各地的很多人。企業(yè)的高管門(包括CEO、CIO、CSO等)都必須面對因為大數據帶來的風險和安全挑戰(zhàn),并規(guī)劃好如何去應對他們。本文將討論如何看待非結構化數據相對于傳統(tǒng)的結構化數據帶來的安全風險和挑戰(zhàn)以及多層面防護方法。
識別非結構化數據與結構化數據安全保護的差異
信息通常被歸類為結構化形式的或非結構化形式的。不同的類型有不同的保護方法。舉個例子來說,非結構化的Excel電子數據表實際上包含結構化 的數據。在經典的術語中,結構化的數據是指數據符合某種嚴格的數據模型和限制的模型。比如,模型可以定義一個業(yè)務流程控制信息流經過一些面向服務的架構(SOA)系統(tǒng),或者也可定義數據如何在內存的一個數組中存儲。但是對于大多數IT和數據庫管理專家來說,結構化數據是駐留在數據庫中,并基于數據庫架構和相關數據庫規(guī)則被組織的信息。而作為一個安全專家來說,這就意味著兩個重要的事情:
數據庫駐留在數據中心,周圍是物理安全設施(包括磚墻、金屬柜子等)、網絡防火墻和其他安全措施,允許你能夠控制對數據的訪問。
數據本身的結構化方式通常允許對數據的簡單分類。舉個例子,你能在數據庫中識別一個特定的人的醫(yī)療記錄和應用相應的安全控制。
所以,因為你知道結構化數據是什么樣的以及它駐留在哪里,你有嚴格的控制機制來決定誰能訪問它。對于結構化數據定義和應用安全控制相對簡單,要么使用結構內置的特性或者專門為特定結構設計的第三方工具即可完成控制。
而在相比之下,非結構化數據的管理和安全更加困難。非結構化數據能在任何地方、以任何格式、在任何設備上存在,并且在大數據時代能夠跨越任何網 絡。舉個例子說明非結構化數據的應用復雜性,一個病人的記錄從數據庫中被提取出來顯示在一個網頁上,從網頁拷貝到數據表格中,附在電子郵件中,然后發(fā)送到 另外一個網絡的郵箱中。
并且,非結構化的數據沒有嚴格的格式。當然,我們的Word文檔,電子郵件等符合定義它們內部結構的標準;然而,它們其中包含的數據幾乎沒有限 制。比如上面列舉的那個病人記錄的例子,假設一個用戶改變內容后把它從網頁上拷貝到數據表格中,可能刪除了某些字段和標題。因為這個信息從一種格式轉變成 了另外一種格式,它原始的機構被有效的改變了。
保護存儲成結構化的數據和信息是相對簡單的。但是隨著一個信息從結構化的形式移轉變?yōu)榉墙Y構化的時候,這個情況就會變得非常的復雜??紤]這樣一 個例子,很多分析人士的報告表明在當前的企業(yè)組織中,80%或者超過80%的電子信息是非結構化的,還有非結構化數據增長的速度是結構化數據的10到20 倍。也考慮一下媒體上的新聞文章不斷強調知識產權的竊取、信息的意外丟失、數據的惡意使用等,最核心的問題就是非結構化的數據。在2010年,全球總的非 結構化的數據估計大概有100萬PB(1048576000000GB),被認為將以每年25%的速度增加。我們顯然需要去理解我們如何保護非結構化數據 的安全。
非結構化數據需安全保護的“三態(tài)”
非結構化的數據在任何給定的時間總是處在三種狀態(tài)中的一種:非使用、傳輸中、使用中。非使用也就是在存儲設備中;它可能在傳輸中意味著它從一個地方被拷貝到另一個地方?;蛘?,它可能在使用中(被一些應用程序打開著)。比如一個PDF文件,它可能存儲在一個USB設備上,不在使用狀態(tài);同一個PDF文件可能從USB設備拷貝,并附在電子郵件中發(fā)送到因特網上。PDF從USB設備上被拷貝,通過很多州到電子郵件服務器,通過網絡從發(fā)件箱到收件箱。最后,收件人收到郵件并打開PDF文件,在那個時刻非結構化數據處于使用狀態(tài)(駐留在內存中),在一個應用程序的控制下(例如Adobe Reader閱讀器),并被呈現(xiàn)給可以交互的用戶。
結構化數據轉化為非結構化數據帶來風險
基于上面三種狀態(tài)的描述,可以更加詳細地討論目前對保護非結構化數據的挑戰(zhàn)。假設企業(yè)組織有一個HR的應用程序,它包括一個維護每個員工信息的數據庫,包括他們的年度工資、以前的紀律處分信息、個人數據(例如家庭地址和社會安全號碼)等。如同大多數現(xiàn)代的HR應用程序一樣,它是基于網頁的,所以當一個認證的用戶運行一個報表的時候,報表是從結構化的數據庫過渡到非結構化的數據,以HTML的格式傳遞給網頁瀏覽器。 用戶應用程序能夠很容易從瀏覽器的拷貝和粘貼這個信息到電子郵箱信息和通過其他方式轉發(fā)。當這個信息一旦添加到郵件正文中,它失去了與原始的應用程序所有 結構和關聯(lián)。用戶可能也會選擇只拷貝和粘貼一部分信息,更改一部分信息,或者在原始的信息中添加一些新的內容。收到用戶發(fā)的電子郵件的人可能會拷貝和粘貼 數據到電子表格。這些電子表格信息可能被用來創(chuàng)建一個圖示的信息,使用的原始的一些文本信息在圖形上作為標簽。如同這個情況所示,結構化信息很快就被三種 狀態(tài)的改變而轉化成了非結構化數據,這些結構化數據從以前的數據庫中改變并重構、存儲在較小的數據格式中,它們包括電子郵件,文檔,圖片,視頻等等。
企業(yè)可能已經很好的定義了安全模型去控制訪問HR的應用程序和包含HR信息的數據庫。然而,信息需要傳遞給對有意義的人們或者應用程序。如果它通過網絡傳輸了,企業(yè)和用戶能確定訪問網絡是安全的,然而,當信息到達用戶時,它能夠被轉換成數千種不同的格式,發(fā)送給各 種各樣的應用程序和網絡。每個信息存在的地方能夠有保護的,它可能應用訪問控制對共享文件和控制對數據駐留(內容)的地方和網絡的訪問;然而,你的非結構 化信息可能在任何地方被終結,因此很難對它保護。事實上,甚至很難對它定位、識別和分類信息。一旦HR的數據終結在電子郵件中,意外的轉發(fā)給錯誤的人,它 就沒有存儲在數據庫原始數據的良好結構了。它在從數據庫到一個未授權的用戶的收件箱的傳輸過程中,也被復制了好幾次。
事實上,在大數據時代,非結構化的數據不斷的發(fā)生變化,數據終結在你沒有預期的地方,特別是因特網提供了一個令人難以置信的由擅長傳輸非結構化數據的計算機組成的大型網絡。大量的金錢和精力投入到去建設社交網絡(SNS), 文件共享和協(xié)助服務,點對點的應用。點對點提供了無數種將非結構化數據在幾秒鐘內發(fā)布給數十億的用戶。所以我們經常聽到關于數據丟失的例子就不足為奇,現(xiàn) 在我們創(chuàng)造了這么多令人驚訝的方法允許信息簡單的離開我們保護的邊界,我們的網絡控制用來阻止攻擊者范圍受我們保護的數據不再足以讓它安全了。
因此,企業(yè)高層管理者要充分意識到大數據時代非結構化數據帶來的安全風險和沖擊,并提前準備好相應的措施來應對它。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數據分析師報考條件詳解與準備指南? ? 在數據驅動決策的時代浪潮下,CDA 數據分析師認證愈發(fā)受到矚目,成為眾多有志投身數 ...
2025-07-11數據透視表中兩列相乘合計的實用指南? 在數據分析的日常工作中,數據透視表憑借其強大的數據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數據分析師:連接數據與業(yè)務的價值轉化者? ? 在大數據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數據查詢到趨勢預判? ? 在數據驅動決策的時代,預測分析作為挖掘數據潛在價值的核心手段,正被廣泛 ...
2025-07-10數據查詢結束后:分析師的收尾工作與價值深化? ? 在數據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數 ...
2025-07-10CDA 數據分析師考試:從報考到取證的全攻略? 在數字經濟蓬勃發(fā)展的今天,數據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數據背后的時間軌跡? 在數據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數據類型:時間維度的精準切片? ? 在數據的世界里,時間是最不可或缺的維度之一,而year_month數據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數據分析師認證考試中,Python 作為數據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數據趨勢與突變分析的有力工具? ? ? 在數據分析的廣袤領域中,準確捕捉數據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數據分析師認證作為國內權威的數據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數 ...
2025-07-07CDA數據分析師證書考試全攻略? 在數字化浪潮席卷全球的當下,數據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數據分析師也因此成為 ...
2025-07-07剖析 CDA 數據分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數據分析師考試作為衡量數據專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數據處理的關鍵技能? 在數據處理與分析工作中,數據格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數據分析師視角:從數據迷霧中探尋商業(yè)真相? 在數字化浪潮席卷全球的今天,數據已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數據分析師:開啟數據職業(yè)發(fā)展新征程? ? 在數據成為核心生產要素的今天,數據分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03