
外行人的大數(shù)據(jù)五問(wèn) 帶你了解大數(shù)據(jù)
大數(shù)據(jù)是什么?是一種運(yùn)營(yíng)模式,是一種能力,還是一種技術(shù),或是一種數(shù)據(jù)集合的統(tǒng)稱(chēng)?今天我們所說(shuō)的“大數(shù)據(jù)”和過(guò)去傳統(tǒng)意義上的“數(shù)據(jù)”的區(qū)別又在哪里?大數(shù)據(jù)有什么特點(diǎn)?來(lái)源有哪些?又應(yīng)用于哪些方面等等。接下來(lái)小編帶您一起了解大數(shù)據(jù)。
>>>>>大數(shù)據(jù)概念
"大數(shù)據(jù)"是一個(gè)體量特別大,數(shù)據(jù)類(lèi)別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無(wú)法用傳統(tǒng)數(shù)據(jù)庫(kù)工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理。 "大數(shù)據(jù)"首先是指數(shù)據(jù)體量(volumes)?大,指代大型數(shù)據(jù)集,一般在10TB?規(guī)模左右,但在實(shí)際應(yīng)用中,很多企業(yè)用戶(hù)把多個(gè)數(shù)據(jù)集放在一起,已經(jīng)形成了PB級(jí)的數(shù)據(jù)量;其次是指數(shù)據(jù)類(lèi)別(variety)大,數(shù)據(jù)來(lái)自多種數(shù)據(jù)源,數(shù)據(jù)種類(lèi)和格式日漸豐富,已沖破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。接著是數(shù)據(jù)處理速度(Velocity)快,在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實(shí)時(shí)處理。最后一個(gè)特點(diǎn)是指數(shù)據(jù)真實(shí)性(Veracity)高,隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興趣,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實(shí)性及安全性。
百度知道—大數(shù)據(jù)概念
大數(shù)據(jù)(bigdata),或稱(chēng)巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。大數(shù)據(jù)的4V特點(diǎn):Volume、Velocity、Variety、Veracity。
互聯(lián)網(wǎng)周刊—大數(shù)據(jù)概念
"大數(shù)據(jù)"的概念遠(yuǎn)不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術(shù),或者所謂的"4個(gè)V"之類(lèi)的簡(jiǎn)單概念,而是涵蓋了人們?cè)诖笠?guī)模數(shù)據(jù)的基礎(chǔ)上可以做的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無(wú)法實(shí)現(xiàn)的。換句話(huà)說(shuō),大數(shù)據(jù)讓我們以一種前所未有的方式,通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價(jià)值的產(chǎn)品和服務(wù),或深刻的洞見(jiàn),最終形成變革之力
研究機(jī)構(gòu)Gartner—大數(shù)據(jù)概念
"大數(shù)據(jù)"是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。從數(shù)據(jù)的類(lèi)別上看,"大數(shù)據(jù)"指的是無(wú)法使用傳統(tǒng)流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶(hù)采用非傳統(tǒng)處理方法的數(shù)據(jù)集。 亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)、大數(shù)據(jù)科學(xué)家JohnRauser提到一個(gè)簡(jiǎn)單的定義:大數(shù)據(jù)就是任何超過(guò)了一臺(tái)計(jì)算機(jī)處理能力的龐大數(shù)據(jù)量。 研發(fā)小組對(duì)大數(shù)據(jù)的定義:"大數(shù)據(jù)是最大的宣傳技術(shù)、是最時(shí)髦的技術(shù),當(dāng)這種現(xiàn)象出現(xiàn)時(shí),定義就變得很混亂。" Kelly說(shuō):"大數(shù)據(jù)是可能不包含所有的信息,但我覺(jué)得大部分是正確的。對(duì)大數(shù)據(jù)的一部分認(rèn)知在于,它是如此之大,分析它需要多個(gè)工作負(fù)載,這是AWS的定義。當(dāng)你的技術(shù)達(dá)到極限時(shí),也就是數(shù)據(jù)的極限"。 大數(shù)據(jù)不是關(guān)于如何定義,最重要的是如何使用。最大的挑戰(zhàn)在于哪些技術(shù)能更好的使用數(shù)據(jù)以及大數(shù)據(jù)的應(yīng)用情況如何。這與傳統(tǒng)的數(shù)據(jù)庫(kù)相比,開(kāi)源的大數(shù)據(jù)分析工具的如Hadoop的崛起,這些非結(jié)構(gòu)化的數(shù)據(jù)服務(wù)的價(jià)值在哪里。
>>>>>大數(shù)據(jù)分析
眾所周知,大數(shù)據(jù)已經(jīng)不簡(jiǎn)簡(jiǎn)單單是數(shù)據(jù)大的事實(shí)了,而最重要的現(xiàn)實(shí)是對(duì)大數(shù)據(jù)進(jìn)行分析,只有通過(guò)分析才能獲取很多智能的,深入的,有價(jià)值的信息。那么越來(lái)越多的應(yīng)用涉及到大數(shù)據(jù),而這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長(zhǎng)的復(fù)雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說(shuō)是決定最終信息是否有價(jià)值的決定性因素。基于如此的認(rèn)識(shí),大數(shù)據(jù)分析普遍存在的方法理論有哪些呢?
>>>>>大數(shù)據(jù)技術(shù)
數(shù)據(jù)采集:ETL工具負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。
數(shù)據(jù)存?。?/span>關(guān)系數(shù)據(jù)庫(kù)、NOSQL、SQL等。
基礎(chǔ)架構(gòu):云存儲(chǔ)、分布式文件存儲(chǔ)等。
數(shù)據(jù)處理:自然語(yǔ)言處理(NLP,NaturalLanguageProcessing)是研究人與計(jì)算機(jī)交互的語(yǔ)言問(wèn)題的一門(mén)學(xué)科。處理自然語(yǔ)言的關(guān)鍵是要讓計(jì)算機(jī)"理解"自然語(yǔ)言,所以自然語(yǔ)言處理又叫做自然語(yǔ)言理解(NLU,NaturalLanguage Understanding),也稱(chēng)為計(jì)算語(yǔ)言學(xué)(Computational Linguistics。一方面它是語(yǔ)言信息處理的一個(gè)分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心課題之一。
統(tǒng)計(jì)分析:假設(shè)檢驗(yàn)、顯著性檢驗(yàn)、差異分析、相關(guān)分析、T檢驗(yàn)、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡(jiǎn)單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測(cè)與殘差分析、嶺回歸、logistic回歸分析、曲線(xiàn)估計(jì)、因子分析、聚類(lèi)分析、主成分分析、因子分析、快速聚類(lèi)法與聚類(lèi)法、判別分析、對(duì)應(yīng)分析、多元對(duì)應(yīng)分析(最優(yōu)尺度分析)、bootstrap技術(shù)等等。
數(shù)據(jù)挖掘:分類(lèi) (Classification)、估計(jì)(Estimation)、預(yù)測(cè)(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)、聚類(lèi)(Clustering)、描述和可視化、Description and Visualization)、復(fù)雜數(shù)據(jù)類(lèi)型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預(yù)測(cè):預(yù)測(cè)模型、機(jī)器學(xué)習(xí)、建模仿真。
結(jié)果呈現(xiàn):云計(jì)算、標(biāo)簽云、關(guān)系圖等。
>>>>>大數(shù)據(jù)特點(diǎn)
要理解大數(shù)據(jù)這一概念,首先要從"大"入手,"大"是指數(shù)據(jù)規(guī)模,大數(shù)據(jù)一般指在10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量。大數(shù)據(jù)同過(guò)去的海量數(shù)據(jù)有所區(qū)別,其基本特征可以用4個(gè)V來(lái)總結(jié)(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價(jià)值密度低、速度快。
第一,數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別。
第二,數(shù)據(jù)類(lèi)型繁多,如前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息,等等。
第三,價(jià)值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅有一兩秒。
第四,處理速度快。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無(wú)一不是數(shù)據(jù)來(lái)源或者承載的方式。
大數(shù)據(jù)技術(shù)是指從各種各樣類(lèi)型的巨量數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù)。解決大數(shù)據(jù)問(wèn)題的核心是大數(shù)據(jù)技術(shù)。目前所說(shuō)的"大數(shù)據(jù)"不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺(tái)和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,通過(guò)解決巨量數(shù)據(jù)處理問(wèn)題促進(jìn)其突破性發(fā)展。因此,大數(shù)據(jù)時(shí)代帶來(lái)的挑戰(zhàn)不僅體現(xiàn)在如何處理巨量數(shù)據(jù)從中獲取有價(jià)值的信息,也體現(xiàn)在如何加強(qiáng)大數(shù)據(jù)技術(shù)研發(fā),搶占時(shí)代發(fā)展的前沿。
當(dāng)下我國(guó)大數(shù)據(jù)研發(fā)建設(shè)應(yīng)在以下四個(gè)方面著力
一是建立一套運(yùn)行機(jī)制。大數(shù)據(jù)建設(shè)是一項(xiàng)有序的、動(dòng)態(tài)的、可持續(xù)發(fā)展的系統(tǒng)工程,必須建立良好的運(yùn)行機(jī)制,以促進(jìn)建設(shè)過(guò)程中各個(gè)環(huán)節(jié)的正規(guī)有序,實(shí)現(xiàn)統(tǒng)合,搞好頂層設(shè)計(jì)。
二是規(guī)范一套建設(shè)標(biāo)準(zhǔn)。沒(méi)有標(biāo)準(zhǔn)就沒(méi)有系統(tǒng)。應(yīng)建立面向不同主題、覆蓋各個(gè)領(lǐng)域、不斷動(dòng)態(tài)更新的大數(shù)據(jù)建設(shè)標(biāo)準(zhǔn),為實(shí)現(xiàn)各級(jí)各類(lèi)信息系統(tǒng)的網(wǎng)絡(luò)互連、信息互通、資源共享奠定基礎(chǔ)。
三是搭建一個(gè)共享平臺(tái)。數(shù)據(jù)只有不斷流動(dòng)和充分共享,才有生命力。應(yīng)在各專(zhuān)用數(shù)據(jù)庫(kù)建設(shè)的基礎(chǔ)上,通過(guò)數(shù)據(jù)集成,實(shí)現(xiàn)各級(jí)各類(lèi)指揮信息系統(tǒng)的數(shù)據(jù)交換和數(shù)據(jù)共享。
四是培養(yǎng)一支專(zhuān)業(yè)隊(duì)伍。大數(shù)據(jù)建設(shè)的每個(gè)環(huán)節(jié)都需要依靠專(zhuān)業(yè)人員完成,因此,必須培養(yǎng)和造就一支懂指揮、懂技術(shù)、懂管理的大數(shù)據(jù)建設(shè)專(zhuān)業(yè)隊(duì)伍。
>>>>>大數(shù)據(jù)作用
大數(shù)據(jù)時(shí)代到來(lái),認(rèn)同這一判斷的人越來(lái)越多。那么大數(shù)據(jù)意味著什么,他到底會(huì)改變什么??jī)H僅從技術(shù)角度回答,已不足以解惑。大數(shù)據(jù)只是賓語(yǔ),離開(kāi)了人這個(gè)主語(yǔ),它再大也沒(méi)有意義。我們需要把大數(shù)據(jù)放在人的背景中加以透視,理解它作為時(shí)代變革力量的所以然。
變革價(jià)值的力量
未來(lái)十年,決定中國(guó)是不是有大智慧的核心意義標(biāo)準(zhǔn)(那個(gè)"思想者"),就是國(guó)民幸福。一體現(xiàn)在民生上,通過(guò)大數(shù)據(jù)讓有意義的事變得澄明,看我們?cè)谌伺c人關(guān)系上,做得是否比以前更有意義;二體現(xiàn)在生態(tài)上,通過(guò)大數(shù)據(jù)讓有意義的事變得澄明,看我們?cè)谔炫c人關(guān)系上,做得是否比以前更有意義??傊?,讓我們從前10年的意義混沌時(shí)代,進(jìn)入未來(lái)10年意義澄明時(shí)代。
變革經(jīng)濟(jì)的力量
生產(chǎn)者是有價(jià)值的,消費(fèi)者是價(jià)值的意義所在。有意義的才有價(jià)值,消費(fèi)者不認(rèn)同的,就賣(mài)不出去,就實(shí)現(xiàn)不了價(jià)值;只有消費(fèi)者認(rèn)同的,才賣(mài)得出去,才實(shí)現(xiàn)得了價(jià)值。大數(shù)據(jù)幫助我們從消費(fèi)者這個(gè)源頭識(shí)別意義,從而幫助生產(chǎn)者實(shí)現(xiàn)價(jià)值。這就是啟動(dòng)內(nèi)需的原理。
變革組織的力量
隨著具有語(yǔ)義網(wǎng)特征的數(shù)據(jù)基礎(chǔ)設(shè)施和數(shù)據(jù)資源發(fā)展起來(lái),組織的變革就越來(lái)越顯得不可避免。大數(shù)據(jù)將推動(dòng)網(wǎng)絡(luò)結(jié)構(gòu)產(chǎn)生無(wú)組織的組織力量。最先反映這種結(jié)構(gòu)特點(diǎn)的,是各種各樣去中心化的WEB2.0應(yīng)用,如RSS、維基、博客等。
大數(shù)據(jù)之所以成為時(shí)代變革力量,在于它通過(guò)追隨意義而獲得智慧。
>>>>>大數(shù)據(jù)處理
大數(shù)據(jù)處理數(shù)據(jù)時(shí)代理念的三大轉(zhuǎn)變:要全體不要抽樣,要效率不要絕對(duì)精確,要相關(guān)不要因果。
大數(shù)據(jù)處理的流程
具體的大數(shù)據(jù)處理方法確實(shí)有很多,但是根據(jù)筆者長(zhǎng)時(shí)間的實(shí)踐,總結(jié)了一個(gè)普遍適用的大數(shù)據(jù)處理流程,并且這個(gè)流程應(yīng)該能夠?qū)Υ蠹依眄槾髷?shù)據(jù)的處理有所幫助。整個(gè)處理流程可以概括為四步,分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析,最后是數(shù)據(jù)挖掘。
大數(shù)據(jù)處理之一:采集
大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫(kù)來(lái)接收發(fā)自客戶(hù)端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶(hù)可以通過(guò)這些數(shù)據(jù)庫(kù)來(lái)進(jìn)行簡(jiǎn)單的查詢(xún)和處理工作。比如,電商會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的采集。
在大數(shù)據(jù)的采集過(guò)程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬(wàn)的用戶(hù)來(lái)進(jìn)行訪問(wèn)和操作,比如火車(chē)票售票網(wǎng)站和淘寶,它們并發(fā)的訪問(wèn)量在峰值時(shí)達(dá)到上百萬(wàn),所以需要在采集端部署大量數(shù)據(jù)庫(kù)才能支撐。并且如何在這些數(shù)據(jù)庫(kù)之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。
大數(shù)據(jù)處理之二:導(dǎo)入/預(yù)處理
雖然采集端本身會(huì)有很多數(shù)據(jù)庫(kù),但是如果要對(duì)這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些來(lái)自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù),或者分布式存儲(chǔ)集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡(jiǎn)單的清洗和預(yù)處理工作。也有一些用戶(hù)會(huì)在導(dǎo)入時(shí)使用來(lái)自Twitter的Storm來(lái)對(duì)數(shù)據(jù)進(jìn)行流式計(jì)算,來(lái)滿(mǎn)足部分業(yè)務(wù)的實(shí)時(shí)計(jì)算需求。
導(dǎo)入與預(yù)處理過(guò)程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會(huì)達(dá)到百兆,甚至千兆級(jí)別。
大數(shù)據(jù)處理之三:統(tǒng)計(jì)/分析
統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫(kù),或者分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類(lèi)匯總等,以滿(mǎn)足大多數(shù)常見(jiàn)的分析需求,在這方面,一些實(shí)時(shí)性需求會(huì)用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。
統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對(duì)系統(tǒng)資源,特別是I/O會(huì)有極大的占用。
大數(shù)據(jù)處理之四:挖掘
與前面統(tǒng)計(jì)和分析過(guò)程不同的是,數(shù)據(jù)挖掘一般沒(méi)有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(cè)(Predict)的效果,從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。比較典型算法有用于聚類(lèi)的Kmeans、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類(lèi)的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過(guò)程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,常用數(shù)據(jù)挖掘算法都以單線(xiàn)程為主。
整個(gè)大數(shù)據(jù)處理的普遍流程至少應(yīng)該滿(mǎn)足這四個(gè)方面的步驟,才能算得上是一個(gè)比較完整的大數(shù)據(jù)處理。
>>>>>大數(shù)據(jù)應(yīng)用與案例分析
大數(shù)據(jù)應(yīng)用的關(guān)鍵,也是其必要條件,就在于"IT"與"經(jīng)營(yíng)"的融合,當(dāng)然,這里的經(jīng)營(yíng)的內(nèi)涵可以非常廣泛,小至一個(gè)零售門(mén)店的經(jīng)營(yíng),大至一個(gè)城市的經(jīng)營(yíng)。以下是我整理的關(guān)于各行各業(yè),不同的組織機(jī)構(gòu)在大數(shù)據(jù)方面的應(yīng)用的案例,在此申明,以下案例均來(lái)源于網(wǎng)絡(luò),本文僅作引用,并在此基礎(chǔ)上作簡(jiǎn)單的梳理和分類(lèi)。
大數(shù)據(jù)應(yīng)用案例之:醫(yī)療行業(yè)
[1] Seton Healthcare是采用IBM最新沃森技術(shù)醫(yī)療保健內(nèi)容分析預(yù)測(cè)的首個(gè)客戶(hù)。該技術(shù)允許企業(yè)找到大量病人相關(guān)的臨床醫(yī)療信息,通過(guò)大數(shù)據(jù)處理,更好地分析病人的信息。
[2] 在加拿大多倫多的一家醫(yī)院,針對(duì)早產(chǎn)嬰兒,每秒鐘有超過(guò)3000次的數(shù)據(jù)讀取。通過(guò)這些數(shù)據(jù)分析,醫(yī)院能夠提前知道哪些早產(chǎn)兒出現(xiàn)問(wèn)題并且有針對(duì)性地采取措施,避免早產(chǎn)嬰兒夭折。
[3] 它讓更多的創(chuàng)業(yè)者更方便地開(kāi)發(fā)產(chǎn)品,比如通過(guò)社交網(wǎng)絡(luò)來(lái)收集數(shù)據(jù)的健康類(lèi)App。也許未來(lái)數(shù)年后,它們搜集的數(shù)據(jù)能讓醫(yī)生給你的診斷變得更為精確,比方說(shuō)不是通用的成人每日三次一次一片,而是檢測(cè)到你的血液中藥劑已經(jīng)代謝完成會(huì)自動(dòng)提醒你再次服藥。
大數(shù)據(jù)應(yīng)用案例之:能源行業(yè)
[1] 智能電網(wǎng)現(xiàn)在歐洲已經(jīng)做到了終端,也就是所謂的智能電表。在德國(guó),為了鼓勵(lì)利用太陽(yáng)能,會(huì)在家庭安裝太陽(yáng)能,除了賣(mài)電給你,當(dāng)你的太陽(yáng)能有多余電的時(shí)候還可以買(mǎi)回來(lái)。通過(guò)電網(wǎng)收集每隔五分鐘或十分鐘收集一次數(shù)據(jù),收集來(lái)的這些數(shù)據(jù)可以用來(lái)預(yù)測(cè)客戶(hù)的用電習(xí)慣等,從而推斷出在未來(lái)2~3個(gè)月時(shí)間里,整個(gè)電網(wǎng)大概需要多少電。有了這個(gè)預(yù)測(cè)后,就可以向發(fā)電或者供電企業(yè)購(gòu)買(mǎi)一定數(shù)量的電。因?yàn)殡娪悬c(diǎn)像期貨一樣,如果提前買(mǎi)就會(huì)比較便宜,買(mǎi)現(xiàn)貨就比較貴。通過(guò)這個(gè)預(yù)測(cè)后,可以降低采購(gòu)成本。
[2] 維斯塔斯風(fēng)力系統(tǒng),依靠的是BigInsights軟件和IBM超級(jí)計(jì)算機(jī),然后對(duì)氣象數(shù)據(jù)進(jìn)行分析,找出安裝風(fēng)力渦輪機(jī)和整個(gè)風(fēng)電場(chǎng)最佳的地點(diǎn)。利用大數(shù)據(jù),以往需要數(shù)周的分析工作,現(xiàn)在僅需要不足1小時(shí)便可完成。
大數(shù)據(jù)應(yīng)用案例之:通信行業(yè)
[1] XO Communications通過(guò)使用IBM SPSS預(yù)測(cè)分析軟件,減少了將近一半的客戶(hù)流失率。XO現(xiàn)在可以預(yù)測(cè)客戶(hù)的行為,發(fā)現(xiàn)行為趨勢(shì),并找出存在缺陷的環(huán)節(jié),從而幫助公司及時(shí)采取措施,保留客戶(hù)。此外,IBM新的Netezza網(wǎng)絡(luò)分析加速器,將通過(guò)提供單個(gè)端到端網(wǎng)絡(luò)、服務(wù)、客戶(hù)分析視圖的可擴(kuò)展平臺(tái),幫助通信企業(yè)制定更科學(xué)、合理決策。
[2] 電信業(yè)者透過(guò)數(shù)以千萬(wàn)計(jì)的客戶(hù)資料,能分析出多種使用者行為和趨勢(shì),賣(mài)給需要的企業(yè),這是全新的資料經(jīng)濟(jì)。
[3] 中國(guó)移動(dòng)通過(guò)大數(shù)據(jù)分析,對(duì)企業(yè)運(yùn)營(yíng)的全業(yè)務(wù)進(jìn)行針對(duì)性的監(jiān)控、預(yù)警、跟蹤。系統(tǒng)在第一時(shí)間自動(dòng)捕捉市場(chǎng)變化,再以最快捷的方式推送給指定負(fù)責(zé)人,使他在最短時(shí)間內(nèi)獲知市場(chǎng)行情。
[4] NTT docomo把手機(jī)位置信息和互聯(lián)網(wǎng)上的信息結(jié)合起來(lái),為顧客提供附近的餐飲店信息,接近末班車(chē)時(shí)間時(shí),提供末班車(chē)信息服務(wù)。
大數(shù)據(jù)應(yīng)用案例之:零售業(yè)
[1] "我們的某個(gè)客戶(hù),是一家領(lǐng)先的專(zhuān)業(yè)時(shí)裝零售商,通過(guò)當(dāng)?shù)氐陌儇浬痰?、網(wǎng)絡(luò)及其郵購(gòu)目錄業(yè)務(wù)為客戶(hù)提供服務(wù)。公司希望向客戶(hù)提供差異化服務(wù),如何定位公司的差異化,他們通過(guò)從 Twitter 和 Facebook 上收集社交信息,更深入的理解化妝品的營(yíng)銷(xiāo)模式,隨后他們認(rèn)識(shí)到必須保留兩類(lèi)有價(jià)值的客戶(hù):高消費(fèi)者和高影響者。希望通過(guò)接受免費(fèi)化妝服務(wù),讓用戶(hù)進(jìn)行口碑宣傳,這是交易數(shù)據(jù)與交互數(shù)據(jù)的完美結(jié)合,為業(yè)務(wù)挑戰(zhàn)提供了解決方案。"Informatica的技術(shù)幫助這家零售商用社交平臺(tái)上的數(shù)據(jù)充實(shí)了客戶(hù)主數(shù)據(jù),使他的業(yè)務(wù)服務(wù)更具有目標(biāo)性。
[2] 零售企業(yè)也監(jiān)控客戶(hù)的店內(nèi)走動(dòng)情況以及與商品的互動(dòng)。它們將這些數(shù)據(jù)與交易記錄相結(jié)合來(lái)展開(kāi)分析,從而在銷(xiāo)售哪些商品、如何擺放貨品以及何時(shí)調(diào)整售價(jià)上給出意見(jiàn),此類(lèi)方法已經(jīng)幫助某領(lǐng)先零售企業(yè)減少了17%的存貨,同時(shí)在保持市場(chǎng)份額的前提下,增加了高利潤(rùn)率自有品牌商品的比例
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03