
大數(shù)據(jù)應用模式及安全風險分析_數(shù)據(jù)分析師
當前各個領域數(shù)據(jù)生成速度逐漸加快,需要處理的數(shù)據(jù)量急劇膨脹。這些巨大的數(shù)據(jù)資源蘊藏著潛在的價值,需要對其進行有效的分析和利用。當前數(shù)據(jù)的特點除了數(shù)量龐大之外,數(shù)據(jù)類型也變得多樣化,其中包括了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)量龐大、種類繁多的海量數(shù)據(jù),給傳統(tǒng)分析工具帶來了巨大的挑戰(zhàn)。當前對數(shù)據(jù)的分析不再是簡單的生成統(tǒng)計報表,而是利用復雜的分析模型進行深人的分析,傳統(tǒng)分析技術例如關系數(shù)據(jù)庫技術已經(jīng)不能滿足其要求。在擴展性上,通過增加或更換內(nèi)存、CPU、硬盤等設備原件以打一展單個節(jié)點的能力的縱向打一展(scale up)系統(tǒng)遇到了瓶頸;只有通過增加計算節(jié)點,連接成大規(guī)模集群,進行分布式并行計算和管理的橫向打一展(scale out )系統(tǒng)才能滿足大數(shù)據(jù)的分析需求[u。因此傳統(tǒng)工具在擴展性上遇到了障礙,必須尋求可靠的數(shù)據(jù)存儲和分析技術來分析和利用這些龐大的資源。利用云計算平臺搭建Hadoop計算框架成為當前處理大數(shù)據(jù)的主要手段。然而由于云計算和Hadoop應用的特點和自身安全機制薄弱,不可避免地帶來了安全風險。
1、大數(shù)據(jù)應用模式
云計算(Cloud Computing)是一種基于Internet的計算,是以并行計算(Parallel Computing )、分布式計算(Distributed Computing)和網(wǎng)格計算(Grid Compu-tin助為基礎,融合了網(wǎng)絡存儲、虛擬化、負載均衡等技術的新興產(chǎn)物。它將原本需要由個人計算機和私有數(shù)據(jù)中心執(zhí)行的任務轉(zhuǎn)移給具備專業(yè)存儲和計算技術的大型計算中心來完成,實現(xiàn)了計算機軟件、硬件等計算資源的充分共享[z}。企業(yè)或個人不再需要花費大量的費用在基礎設施的購買上,更不需要花費精力對軟硬件進行安裝、配置和維護,這些都將由云計算服務商CSP( Cloud Service Provider)提供相應的服務。企業(yè)或個人只需按照計時或計量的方式支付租賃的計算資源。云計算服務商擁有大數(shù)據(jù)存儲能力和計算資源,被視為外包信息服務的最佳選擇[31因此大數(shù)據(jù)的應用往往與云計算相結(jié)合。
Hadoop是當前最廣為人知的大數(shù)據(jù)技術實施方案,它是Google云計算中的Map/Reduce}4}和GFS( Google File System)的開源實現(xiàn)。Hadoop提供了一種計算框架,其最為核心的技術是HDFS ( HadoopDistributed File System)以及MapReduee } HDFS提供了高吞吐量的分布式文件系統(tǒng),而MapReduee是大型數(shù)據(jù)的分布式處理模型。Hadoop為大數(shù)據(jù)提供了一個可靠的共享存儲和分析系統(tǒng)[5-6 }v
盡管有一些組織自建集群來運行Hadoop,但是仍有許多組織選擇在租賃硬件所搭建的云端運行Hadoop或提供Hadoop服務。例如提供在公有或私有云端運行Hadoop的Cloudera,還有由Amazon提供的稱為Elastic MapReduee的云服務等f}l。因此將云計算與Hadoop結(jié)合處理大數(shù)據(jù)已成為一種趨勢。
2、大數(shù)據(jù)安全風險分析
隨著大數(shù)據(jù)應用范圍越來越廣,對數(shù)據(jù)安全的需求也越來越迫切。
由于云計算的特點是將數(shù)據(jù)外包給云服務商提供服務,這種服務模式將數(shù)據(jù)的所有權轉(zhuǎn)移給了CSP,用戶失去了對物理資源的直接控制[A1。而云中存儲的大數(shù)據(jù)通常是以明文的方式存在的,CSP對數(shù)據(jù)具有底層控制權,惡意的CSP有可能在用戶不知情的情況下竊取用戶數(shù)據(jù),而云計算平臺亦可能受到攻擊致使安全機制失效或被非法控制從而導致非授權人讀取數(shù)據(jù),給大數(shù)據(jù)安全帶來了威脅。
Hadoop在設計之初并未考慮過安全問題,在Ha-doop 1. 0. 0和Cloudera CDH3版本之后,Hadoop加人了Kerberos的身份認證機制和基于ACL的訪問控制機制[91。即使在安全方面增加了身份認證和訪問控制策略,Hadoop的安全機制仍然非常薄弱,因為Ker-beros的認證機制只應用于客戶機(Clients )、密鑰分發(fā)中心(I}ey Distribution Center, I}DC )、服務器(Serv-er)之間,只是針對機器級別的安全認證,并未對Ha-doop應用平臺本身進行認證[}o}。而基于ACL的訪問控制策略需要通過在啟用ACL之后,對hadoop-policy. xml中的屬性進行配置,其中包括9條屬性,它們限制了用戶與組成員對Hadoop中資源的訪問以及Datanode和Namenode或Jobtracke:和Tasktrackers等節(jié)點間的通信,但該機制依賴于管理員對其的配置[川,這種基于傳統(tǒng)的訪問控制列表容易在服務器端被篡改而不易察覺。而且基于ACL的訪問控制策略粒度過粗,不能在MapReduce過程中以細粒度的方式保護用戶隱私字段。況且針對不同的用戶和不同應用,訪問控制列表需要經(jīng)常作對應的更改,這樣的操作過于繁瑣且不易維護。因此Hadoop自身的安全機制是不完善的。
2.1 不同應用模式下CSP及Uers帶來的安全風險
云計算中Hadoop有多種應用模式。在私有云中搭建Hadoop,即企業(yè)自己應用Hadoop,使用該平臺的是企業(yè)內(nèi)部各個部門的員工,外部人員無法訪問和使用這些資源。這時的CSP指的是Hadoop的創(chuàng)建和管理者,IaaS級和PaaS級CSP為相同的實體;在公有云平臺應用Hadoop , C SP有2級,IaaS級CSP,提供基礎設施;PaaS級C SP,負責Hadoop的搭建和管理。這時兩級CSP往往是不同的實體。
由于存儲在Hadoop上的數(shù)據(jù)是明文的,所以Hadoop中的安全隱患是多方面的,筆者關注的是CSP和用戶之間的安全問題,因此威脅對象分別是CSP和User,如圖1所示。
C SP對用戶數(shù)據(jù)的威脅指的是:CSP權限過大可在用戶不知情的情況下獲取用戶數(shù)據(jù)。用戶對CSP構(gòu)成的威脅指的是:Faked用戶獲取合法用戶數(shù)據(jù)或者惡意用戶對CSP發(fā)起不合法請求,獲取隱私數(shù)據(jù)。本文對位于Hadoop中不同狀態(tài)的數(shù)據(jù)可能受到的威脅點用三角表示,如圖2所示。其中1 ,5位置均指的是HDFS中,所以受到的威脅是相同的。
Malice IaaS級CSP可以通過物理磁盤在位置1,3 ,4 ,5對數(shù)據(jù)進行獲取。Hadoop中主要的文件結(jié)構(gòu)有如下幾種:SequenceFile , RC File , Avro、文本格式、外部格式。其中有些文件格式是二進制形式的,但像文本格式和外部格式并不都是二進制格式,因此是可讀的。由于是明文存儲,CSP便可以通過讀取數(shù)據(jù)塊內(nèi)容提取有價值的部分進行分析。IaaS級CSP對數(shù)據(jù)具有絕對的控制權,如果從物理磁盤竊取文件或數(shù)據(jù)塊,便獲得了其中的內(nèi)容??梢酝ㄟ^建立第三方審計系統(tǒng)來保障其安全,這部分不在本文的討論范圍內(nèi)。
Malice PaaS級CSP可以在用戶不知情的情況下通過超級用戶身份即特權管理員身份對文件權限進行更改,以合法身份對數(shù)據(jù)進行讀取和分析。因此可以在位置1 ,2,5進行數(shù)據(jù)竊取。不過在1 ,5的位置獲取數(shù)據(jù)是通過向Namenode請求數(shù)據(jù)塊,從Datan-ode獲取數(shù)據(jù)。
Fucked Use:假冒合法用戶身份對數(shù)據(jù)進行讀取,一旦獲取了合法用戶身份,便與合法用戶擁有相同的權限,可以在1 ,5的位置通過向Namenode請求數(shù)據(jù)塊,從Datanode獲取數(shù)據(jù),也可以在2的位置輸出需要的數(shù)據(jù)進行分析。
Malice Use:在利用數(shù)據(jù)擁有者提供的數(shù)據(jù)進行分析時,竊取部分敏感字段進行分析和輸出??梢栽?中提取數(shù)據(jù),在計算完后通過5獲取分析結(jié)果。
2. 2 威脅模型
上面提到的是提供Hadoop服務的C SP和使用Hadoop的Use:之間的安全風險,接下來對使用Ha-doop的用戶Use:角色進行細化,分析他們之間對數(shù)據(jù)隱私的竊取產(chǎn)生的安全問題。在云中搭建Hadoop提供服務的應用場景下,數(shù)據(jù)使用者收集數(shù)據(jù)擁有者的數(shù)據(jù),并將數(shù)據(jù)分塊存儲于HDFS中,數(shù)據(jù)計算者提供對數(shù)據(jù)分析的代碼,CSP提供數(shù)據(jù)存儲和分析平臺。因此涉及4類主體,數(shù)據(jù)擁有者、數(shù)據(jù)使用者、數(shù)據(jù)計算者和云服務提供商CSP。這里的不可信實體包括數(shù)據(jù)計算者和C SP。筆者通過實際的例子給出Hadoop中獲取隱私信息的可能途徑。
一個在線零售商BigShop ,擁有大量的客戶交易數(shù)據(jù)庫?,F(xiàn)在假定所有記錄是以<客戶、訂單、日期>的形式存在數(shù)據(jù)庫中,每個客戶一份記錄。一個機器學習專家Researcher,付給BigShop一些錢用來對特定的交易模式進行數(shù)據(jù)挖掘。BigShop加載數(shù)據(jù)到Hadoop框架中,Bob寫MapReduce代碼分析它。這里按照對角色的劃分,BigShop屬于數(shù)據(jù)使用者和CSP,客戶為數(shù)據(jù)擁有者,Researche:為數(shù)據(jù)計算者。
假設Researche:想要得到特殊日子D的訂單數(shù)口。他寫了一個Mappe:用來讀取每份記錄,如果記錄日期D,就輸出鍵/值對} K是字符串序列,reduce僅僅匯總與之有關的每個關鍵字K,并輸出結(jié)果。
這種情況下,對于BigShop的主要風險就是Re-searche:的代碼是不可信的,可能是有無意的漏洞或者是主動惡意漏洞。由于Researche:的Mappe:程序直接訪問BigShop專有的交易記錄,它可以存儲部分數(shù)據(jù)到某個文件中,過后由Researche:取走;或者程序把數(shù)據(jù)發(fā)送到網(wǎng)絡上。
這樣的泄露可能使得BigShop在商業(yè)上處于不利的地位并且由于沒有經(jīng)過客戶的同意把交易數(shù)據(jù)公開而遭受信譽問題。輸出的計算結(jié)果可能也會泄露信息。例如,Researche:的Mappe:程序可能會在輸人的數(shù)據(jù)庫中標記存在的(或者不存在)的一個特定客戶,通過操控特定日期的訂單數(shù)口:如果該客戶的記錄在這個數(shù)據(jù)集中,Mappe:程序輸出一個一百萬的訂單數(shù)口;否則,輸出0。很明顯,這個結(jié)果泄露了客戶的隱私。
上述提到的安全風險來自于數(shù)據(jù)計算者,這里的CSP是BigShop自身,數(shù)據(jù)由BigShop進行維護,并在其上進行計算,因此不存在安全問題。但是如果Big-Shop自身沒有相應存儲和計算設施或并未搭建和使用Hadoop框架,則需要應用外包服務模式,利用其它云服務商提供的Hadoop服務,此時安全風險除了來自數(shù)據(jù)計算者,還有C SP對數(shù)據(jù)的竊取,以及云平臺由于出現(xiàn)漏洞受到黑客攻擊,例如黑客通過Root-kith "}方式強迫口標操作系統(tǒng)安裝它的Hypervisor,并把口標操作系統(tǒng)移人一個普通的虛擬機中運行,由于在虛擬化環(huán)境中Hypervisor擁有最高特權,因此Ro-otkit可以獲得整個物理機的控制權,對數(shù)據(jù)安全構(gòu)成威脅。
因此上述威脅可以歸納為:
1)惡意的PaaS級CSP通過給自己設定權限對數(shù)據(jù)進行竊取,或通過備份中間數(shù)據(jù)到其他位置進行訪問,或不徹底刪除放人云中的數(shù)據(jù),留作他用。
2)在平臺安全機制失效的情況下,黑客通過某些途徑獲得root權限隨意讀取數(shù)據(jù),或偽造數(shù)據(jù)使用者身份讀取數(shù)據(jù)或進行篡改。
3)數(shù)據(jù)計算者通過map過程輸出某些敏感信息,并使用MapReduee進行統(tǒng)計。
3、安全策略
在大數(shù)據(jù)應用模式下,對文件及文件系統(tǒng)的保護稱為數(shù)據(jù)服務安全保護,對存儲的鍵值內(nèi)容及計算輸出結(jié)果的保護稱為隱私保護。從行為角度考慮服務安全性的同時,同樣需要考慮數(shù)據(jù)隱私安全問題。
對上面提到的安全問題,本文提出以下安全策略:
首先,需要對CSP和Use:的身份及平臺進行完整性驗證。Kerberos的雙向認證可以保證用戶和CSP雙方身份安全,這是在請求發(fā)起時所作的認證。
其次,在保障了身份的可靠性后,還需要驗證平臺的安全性,平臺安全性可以通過可信計算技術,利用TPM搭建可信云計算環(huán)境,對平臺環(huán)境進行度量,建立可信鏈,將可信鏈從物理層擴展到虛擬化層,保障云平臺的安全性。
最后,需要在數(shù)據(jù)使用過程中對行為請求進行監(jiān)控,建立監(jiān)控機制可以保障CSP對數(shù)據(jù)的非法請求,同時可以監(jiān)控數(shù)據(jù)計算者對數(shù)據(jù)的非法運算和輸出。可以通過使用LSM ( Linux Security Module)設立相應的訪問控制策略,利用hook函數(shù)對內(nèi)核調(diào)用進行控制[n},允許合法行為對數(shù)據(jù)的訪問,拒絕非法的不可信行為,保障數(shù)據(jù)流向合法請求主體。
4、結(jié)束語
本文首先提出大數(shù)據(jù)的應用模式是在云計算環(huán)境下使用Hadoop計算框架對大數(shù)據(jù)進行存儲和分析。給出在不同云計算部署模式下,Hadoop不同階段操作過程中,不可信主體對數(shù)據(jù)服務和隱私安全構(gòu)成的威脅,并給出了對應的威脅模型實例,得出在平臺環(huán)境可信的情況下,風險主要來自于CSP及數(shù)據(jù)計算者。CSP可以在不被用戶知曉的情況下更改文件權限獲取數(shù)據(jù)內(nèi)容,數(shù)據(jù)計算者可以通過計算程序輸出隱私字段等方式獲取相關數(shù)據(jù),因此需要保障數(shù)據(jù)服務及隱私安全。最后對相關安全問題給出了對應解決策略。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03