99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀閑話大數(shù)據(jù)--大數(shù)據(jù)的分析技術(shù)_數(shù)據(jù)分析師
閑話大數(shù)據(jù)--大數(shù)據(jù)的分析技術(shù)_數(shù)據(jù)分析師
2015-05-04
收藏


閑話大數(shù)據(jù)--大數(shù)據(jù)的分析技術(shù)_數(shù)據(jù)分析師



如果你還沒有意識到21世紀信息爆炸的速度是何等的驚人,以下事實應(yīng)該能讓你有一個大致的概念:

  ·現(xiàn)在《紐約時報》一周的信息量比18世紀一個人一生所收到的資訊總量更大

  ·現(xiàn)在全世界18個月產(chǎn)生的信息比過去5000年的信息總和更多

  ·現(xiàn)在一部蘋果手機的計算能力,已經(jīng)超出人類發(fā)射第一枚人造衛(wèi)星時用到的所有計算機計算能力的總和

  類似的事實還有很多,在此不一一列舉。但值得注意的是,信息的爆炸速度固然驚人,但如果沒有對這些信息加以利用和分析,并得出對我們有意義的結(jié)論,爆炸和不爆炸就沒有任何區(qū)別。為了讓它們從沒意義變得有意義,一個概念應(yīng)運而生,那就是現(xiàn)今越來越流行的一個詞匯:大數(shù)據(jù)(BigData)

  什么是大數(shù)據(jù)?

  什么是大數(shù)據(jù)?要了解這個問題,我們首先要了解:什么是數(shù)據(jù)?

  廣義上,對于任何事物、任何現(xiàn)象,以任何方式記錄下來的信息,都可以稱作數(shù)據(jù)(Data)。嚴格來說,人類從第一次在石頭上刻錄符號的那一天開始,就進入了數(shù)據(jù)時代。數(shù)據(jù),本質(zhì)上就是記錄下來的信息。毫不夸張的說,任何事物或現(xiàn)象都可以被量化,或者說被數(shù)據(jù)化,換言之,在數(shù)據(jù)科學家看來,世間萬事萬物皆數(shù)據(jù)。而大數(shù)據(jù),正是這一信條的堅定追隨者。

  一般來說,任何與大數(shù)據(jù)有關(guān)的概念,都需要在一定程度上和以下的四個V產(chǎn)生聯(lián)系:

  ·Volume(容量)

  ·Velocity(速率)

  ·Variety(多樣性)

  ·Value(價值)

  這四個V,定義了數(shù)據(jù)的四個維度。而有關(guān)數(shù)據(jù)的一切活動,包括獲取、記錄、挖掘、分析、整合等等,在這四個維度上的拓展和延伸,都可稱作是大數(shù)據(jù)行為。下面,我們分別來看看這四個V是如何在實際生活中發(fā)揮作用的。

  1. Volume(容量)

  提到大數(shù)據(jù),人們最容易想到的就是“大量的數(shù)據(jù)”。雖然這樣的“成見”被各路專家詬病已久,但不得不承認的是,大量的數(shù)據(jù)的確是人們進行精確量化分析的基 礎(chǔ)。單個的數(shù)據(jù)意義不大,但大量的數(shù)據(jù)累加,就會產(chǎn)生重大的意義。好比在零售業(yè),一個顧客的購買偏好不是那么重要,但一萬個顧客的購買偏好就會對決策者產(chǎn) 生重大的影響,而一億個顧客的偏好足以重新定義市場。從哲學上說,這就是量變到質(zhì)變的轉(zhuǎn)化。

  關(guān)于“大容量數(shù)據(jù)”,一個有名的例子是Google于2008年推出的Google流感預(yù)測趨勢(Google Flu Trends, 簡稱GFT)。GFT來自一個很簡單的想法:在流感爆發(fā)的季節(jié),人們在Google上搜尋流感防治相關(guān)資訊的比例會增加。通過分析海量的關(guān)鍵字(比如“咳嗽”、“發(fā)燒”等)搜尋記錄,可準確且快速的預(yù)測流感將在哪些地區(qū)出現(xiàn),以及對應(yīng)的傳播范圍。

  再比如,2014年,美國舊金山附近發(fā)生了一場6.0級的地震,地震發(fā)生時間大約是凌晨的3點20分。 第二天,有一個可穿戴式設(shè)備的制造商發(fā)布了一組大數(shù)據(jù),他們發(fā)現(xiàn)通過他們的可穿戴式設(shè)備他們可以知道在地震的時候有多少人醒了,多少人翻身,并且可以明顯 的看到隨著離震源的距離不斷變大,醒來和翻身的人數(shù)逐漸減少。在科學家看來,這件事情具有劃時代的意義,因為這是人類歷史上第一次能夠宣稱說有一天晚上我 們知道這個地區(qū)有多少人處于深度睡眠,有多少人處于淺度睡眠,有多少人醒來,并且是在什么時刻醒來,又有多少人過了多久再次睡著。如果你對數(shù)據(jù)分析有著敏 銳的嗅覺,你會發(fā)現(xiàn)這是一件很恐怖的事情。為什么?因為單單是這樣的睡眠數(shù)據(jù)就已經(jīng)能夠解釋太多問題了!比如,為什么第二天這個地區(qū)的交通事故增加?為什 么藥店的某種藥物銷量劇增?為什么購買暖色服裝的人數(shù)減少?為什么某個電視頻道變得更受歡迎?…..心理學家或者社會學家還能用這些數(shù)據(jù)解釋更多的問題,這是在十年之前不能想象的事情。

  在上面這個故事中,我們不妨想想,假如是你,你為什么要戴上可穿戴式設(shè)備?你是為了收集你個人的睡眠數(shù)據(jù),用以監(jiān)控你的健康狀況。然而,當有千萬個和你一樣 的人在做同樣事情的時候,這些數(shù)據(jù)匯集到一起,能解釋的事情就遠超個人本身了。這叫做數(shù)據(jù)的外部性。換言之,數(shù)據(jù)的作用超出了最初收集它的目的。本來這些 數(shù)據(jù)是為個人健康服務(wù),但事實上一旦容量足夠大,它就可以在更高的層次上解釋更宏觀的事情。通過在不同層次上的應(yīng)用,數(shù)據(jù)的作用和價值被層層放大,這就是 大容量(Volume)數(shù)據(jù)的優(yōu)勢。

  2. Velocity(速率)

  大數(shù)據(jù)的高速率特性,主要體現(xiàn)在數(shù)據(jù)的生成、采集和分析上。在傳統(tǒng)的數(shù)據(jù)分析領(lǐng)域,數(shù)據(jù)從采集、處理到分析,要經(jīng)過一段較長的時間。而在高速率的數(shù)據(jù)環(huán)境下,由于每時每刻都有大量數(shù)據(jù)產(chǎn)生,我們必須對數(shù)據(jù)進行實時的收集和分析,以免造成數(shù)據(jù)的流失。

  還是看看Google(沒辦法,這是大數(shù)據(jù)分析的龍頭老大)。Google地圖里包含了實時路況分析功能,可以實時判斷某一路段車流大小,從而為道路使用者提供最優(yōu)化的交通方案。這一功能的實現(xiàn),就是基于高速率數(shù)據(jù)采集與分析的技術(shù)。比如在某個路段內(nèi),Google通過帶GPS功能的手機以及其他移動設(shè)備匿名收集信息,當你允許Google Maps獲取你的地址時,手機會上傳你移動的速度到服務(wù)器。這些移動設(shè)備會向Google的分析中心提供實時的數(shù)據(jù),而分析中心可以利用這些數(shù)據(jù)快速推算出該路段的擁堵狀況,從而實現(xiàn)實時路況分析。

  之前提到過的Google流感預(yù)測也是一個很好的例子。Google挑選美國九個區(qū)域進行流感預(yù)測趨勢的測試,發(fā)現(xiàn)這個技術(shù)可以比美國聯(lián)邦疾病預(yù)防與控制中心提前一到兩周準確預(yù)測流感的爆發(fā)。因為傳統(tǒng)的流感監(jiān)測系統(tǒng)要用7到14天來收集和發(fā)布監(jiān)測數(shù)據(jù),而Google對關(guān)鍵詞搜索數(shù)據(jù)的分析可以在極短的時間內(nèi)自動完成。根據(jù)Google的軟件工程師的評估,這個流感預(yù)測趨勢可以為流感的爆發(fā)提供一個早期的預(yù)警系統(tǒng)。

  根據(jù)以往的資料,Google流感預(yù)測趨勢的分析結(jié)果與美國聯(lián)邦疾病預(yù)防與控制中心公布的結(jié)果十分相似(見圖,藍色代表Google的結(jié)果,黃色代表聯(lián)邦疾病防控中心的結(jié)果)。另外,這套預(yù)測系統(tǒng)在其他國家也有不俗的表現(xiàn)。

  3. Variety(多樣性)

  數(shù) 據(jù)的多樣性,主要體現(xiàn)在兩個方面:一是數(shù)據(jù)的來源多樣,二是數(shù)據(jù)的形式多樣。拿衛(wèi)生保健數(shù)據(jù)舉例,大致有藥理學科研數(shù)據(jù),臨床數(shù)據(jù),個人行為和情感數(shù)據(jù), 就診索賠記錄和開銷數(shù)據(jù)四類,而每一類數(shù)據(jù)的形式也千差萬別(比如臨床數(shù)據(jù)就包括病歷的文本數(shù)據(jù),醫(yī)患的電子郵件記錄,電話記錄,醫(yī)學儀器診療結(jié)果等 等)。而對于不同來源、不同形式的數(shù)據(jù)加以挖掘和整合,是讓Variety產(chǎn)生價值的關(guān)鍵。

  例如,北京市交通智能化分析平臺數(shù)據(jù)源來自路網(wǎng)攝像頭/傳感器、地面公交、軌道交通、出租車以及省際客運、旅游、化危運輸、停車、租車等運輸行業(yè),還有問卷調(diào)查和GIS數(shù)據(jù)。這些數(shù)據(jù)從Volume和Velocity上也達到了大數(shù)據(jù)的規(guī)模:4萬輛浮動車每天產(chǎn)生2000萬條記錄,交通卡刷卡記錄每天1900萬條,手機定位數(shù)據(jù)每天1800萬條,出租車運營數(shù)據(jù)每天100萬條,高速ETC數(shù)據(jù)每天50萬條,針對8萬戶家庭的定期調(diào)查,等等。分析這類數(shù)據(jù)的重點,在于發(fā)掘這些形態(tài)各異、快慢不一的數(shù)據(jù)流之間的相關(guān)性。甚至,交通數(shù)據(jù)與其它領(lǐng)域的數(shù)據(jù)也存在較強的相關(guān)性。有研究發(fā)現(xiàn),可以從供水系統(tǒng)的數(shù)據(jù)中發(fā)現(xiàn)晨洗的高峰時間,加上一個偏移量(通常是滯后40-45分鐘)就是交通早高峰時間。同樣,可以從電網(wǎng)數(shù)據(jù)中統(tǒng)計出傍晚辦公樓集中關(guān)燈的時間,加上偏移量來估計出晚上的堵車時點。之前提到的交通事故率與睡眠質(zhì)量的關(guān)聯(lián),也是同一個道理。

  在疾病防控領(lǐng)域,處理多樣性數(shù)據(jù)往往會帶來理想的結(jié)果。流行病的發(fā)生和傳播有一定的規(guī)律性,與氣溫變化、環(huán)境指數(shù)、人口流動等因素密切相關(guān),如果在數(shù)據(jù)的獲取和分析中把這些因素全部考慮進去,其可靠性會比單單分析關(guān)鍵詞搜索數(shù)據(jù)更高。和Google的GFT相比,百度的疾病預(yù)測考慮得更加周全。在關(guān)鍵詞搜索數(shù)據(jù)的基礎(chǔ)上,百度把微博、天氣、人群遷徙、用戶屬性、地面環(huán)境、甚至航班起降等數(shù)據(jù)一并加入預(yù)測模型。此外,Google用的數(shù)據(jù)依賴于Google Correlation產(chǎn)品,而百度則是直接從原始日志中進行清洗、消岐、擴展和分析,在數(shù)據(jù)上做得更加細致,也由此可以提供更加有效的判斷。

  4. Value(價值)

  值得注意的是,傳統(tǒng)意義上對于大數(shù)據(jù)的理解并不包含Value。大數(shù)據(jù)分析在它的初始階段僅僅著重于前三個V, 數(shù)據(jù)科學家們也往往只專注于數(shù)據(jù)處理的技術(shù),卻忘了用它創(chuàng)造價值。然而隨著大數(shù)據(jù)的概念在企業(yè)中變得越來越普及,數(shù)據(jù)背后所蘊含的價值越來越受到?jīng)Q策者的 重視。無論任何形式的數(shù)據(jù),如果不能為企業(yè)(或者其擁有者)帶來價值,那么它對于決策者而言是沒有任何意義的。反之,無論任何形式的數(shù)據(jù),只要能創(chuàng)造價 值,決策者就應(yīng)該加以利用和分析,即使它的容量、多樣性和速度并不是十分理想。

  舉例來說,許多服裝的零售商開始嘗試一種新的數(shù)據(jù)記錄與分析的方法,來提高他們的利潤。他們在每件服裝上都安裝了一個射頻識別碼(RFID), 只要有顧客將衣服拿進試衣間,這個識別碼就會被記錄下來并傳送至公司總部的數(shù)據(jù)庫。換言之,每一件服裝,在什么國家什么城市的哪個分店,在什么時間被顧客 帶到試衣間,停留了多長時間,都被系統(tǒng)毫無遺漏的記錄下來并加以分析。不要小看這些“試衣間數(shù)據(jù)”,它們背后的價值不可限量。比如說,假設(shè)公司總部發(fā)現(xiàn)某 種服裝銷量很低,這種產(chǎn)品通常會被停止生產(chǎn)。但如果“試衣間數(shù)據(jù)”顯示這種服裝雖然銷量低,但被顧客帶進試衣間的次數(shù)多、時間長,那就說明它具有相當?shù)奈?引力,決策者也就不會簡單粗暴的讓該產(chǎn)品下架,因為或許一點小小的改變就可以讓它的銷量飆升。

  小結(jié)

  人類社會的今天,在種類繁多的領(lǐng)域里,每天都有海量數(shù)據(jù)以驚人的速率產(chǎn)生。而對這些數(shù)據(jù)的獲取、記錄、挖掘、分析與整合,使之產(chǎn)生巨大的價值,這就是大數(shù)據(jù)的概念。在大數(shù)據(jù)這片浩瀚的海洋里,人們駕著一葉扁舟該何去何從,這需要大數(shù)據(jù)分析技術(shù)(Big Data Analytics)加以引導(dǎo)。


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }