
一篇文章帶你讀懂智能家居與大數(shù)據(jù)
為何叫“大數(shù)據(jù)”?
數(shù)據(jù)體量大(VOLUMES)
代指大型數(shù)據(jù)集,一般在10TB規(guī)模左右。但在實(shí)際應(yīng)用中,很多企業(yè)用戶把多個(gè)數(shù)據(jù)集放在一起,已經(jīng)形成了PB級(jí)的數(shù)據(jù)量。未來智能家居領(lǐng)域也有許多這種企業(yè),目前國內(nèi)智能家居領(lǐng)域的數(shù)據(jù)量級(jí)總和已經(jīng)達(dá)到100TB以上,非結(jié)構(gòu)化數(shù)據(jù)規(guī)模正在以更快的速度增長。
數(shù)據(jù)類別大(variety)
數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,已沖破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。也就是說,大數(shù)據(jù)最重要的變化是處理對象由結(jié)構(gòu)化數(shù)據(jù)拓展到了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),每年非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)總量較結(jié)構(gòu)化數(shù)據(jù)增長率高出10到50倍。
非結(jié)構(gòu)化數(shù)據(jù)可以看成所有無法簡單轉(zhuǎn)化到結(jié)構(gòu)化關(guān)系型數(shù)據(jù)庫中的所有數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)如企業(yè)的郵件和其它形式的電子通訊記錄;網(wǎng)站上的資料,包括點(diǎn)擊量和社交媒體相關(guān)的內(nèi)容;還有設(shè)備產(chǎn)生的數(shù)據(jù),如RFID、GPS\傳感器產(chǎn)生的數(shù)據(jù)、日志文件等。
數(shù)據(jù)處理速度快(Velocity)
在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實(shí)時(shí)處理。
數(shù)據(jù)真實(shí)性高(Veracity)
隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興起,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實(shí)性及安全性。
小貼士
TB是一個(gè)計(jì)算機(jī)存儲(chǔ)容量的單位,它等于2的40次方,或者接近一萬億個(gè)字節(jié),即一千千兆字節(jié)。
PB是數(shù)據(jù)存儲(chǔ)容量的單位,它等于2的50次方個(gè)字節(jié),或者在數(shù)值上大約等于1000個(gè)TB。
數(shù)據(jù)單位從小到大為:B.KB.MB.GB.TB.PB。1PB=1024TB,依次類推。
TB、PB依然很難理解,我們舉些例子。
美國國會(huì)圖書館在2011年4月之前總共收集了235TB的數(shù)據(jù)。
假設(shè)手機(jī)播放MP3的編碼速度為平均每分鐘1MB,而1首歌曲的平均時(shí)長為4分鐘,那么1PB歌曲可以連續(xù)播放2000年。
如果智能手機(jī)相機(jī)拍攝相片的平均大小為3MB,打印照片的平均大小為8.5英寸,那么總共1PB的照片的并排排列長度就達(dá)到48000英里,大約可以環(huán)繞地球2周。
人類功能記憶的容量預(yù)計(jì)在1.25個(gè)TB。這意味著,800個(gè)人類記憶才相當(dāng)于1個(gè)PB。1PB足夠存儲(chǔ)整個(gè)美國人口的DNA,而且還能再克隆2倍。
如果以每秒1個(gè)位的速度數(shù)一下1PB所包含的位數(shù),那么一個(gè)人需要2.85億年才能數(shù)完,如果每秒數(shù)1個(gè)字節(jié),那么一個(gè)人需要數(shù)357萬年。
谷歌為用戶提供了超過20PB(215億MB)的地圖影像——包括衛(wèi)星圖片、航拍照片和360度街景圖片。
即使在2008年,谷歌每天處理的數(shù)據(jù)已經(jīng)達(dá)到20PB,一年就是7300PB。
社交媒體網(wǎng)站早就開始生成PB級(jí)數(shù)據(jù),F(xiàn)acebook在2012年前已經(jīng)存儲(chǔ)了100PB數(shù)據(jù)。
宇宙每天將生成1376 PB數(shù)據(jù),相當(dāng)于每天傳輸?shù)娜蚧ヂ?lián)網(wǎng)流量的兩倍。
大數(shù)據(jù)的挑戰(zhàn):
總結(jié):
數(shù)據(jù)本身是資產(chǎn),所有大數(shù)據(jù)的屬性,包括數(shù)量、速度、多樣性等反映了數(shù)據(jù)庫不斷增長的復(fù)雜性。
大數(shù)據(jù)分為大數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)分析,屬于兩種截然不同的計(jì)算機(jī)技術(shù)領(lǐng)域,大數(shù)據(jù)存儲(chǔ)用于大數(shù)據(jù)分析。大數(shù)據(jù)存儲(chǔ)重點(diǎn)在于研發(fā)可以擴(kuò)展至PB甚至EB級(jí)別的數(shù)據(jù)存儲(chǔ)平臺(tái);大數(shù)據(jù)分析關(guān)注在最短時(shí)間內(nèi)處理大量不同類型的數(shù)據(jù)集。目前無論是大數(shù)據(jù)存儲(chǔ)還是大數(shù)據(jù)分析,都已經(jīng)成為幫助企業(yè)主業(yè)務(wù)的關(guān)鍵應(yīng)用。在智能家居領(lǐng)域,例如家庭數(shù)字網(wǎng)絡(luò)攝像頭的云端存儲(chǔ),音視頻設(shè)備背后的云端流媒體,家庭電量實(shí)施云端監(jiān)測等等,都在大規(guī)模使用云存儲(chǔ)和分析技術(shù)。
智能家居云存儲(chǔ)方式
高度智能化的智能家居涉及數(shù)據(jù)量非常龐大,傳統(tǒng)存儲(chǔ)技術(shù)無法滿足,所有云存儲(chǔ)技術(shù)的逐漸發(fā)展與應(yīng)用也為智能家居的發(fā)展迎來了廣泛的關(guān)注。
下面舉例其中一種云存儲(chǔ)方式:
新一代的面向智能家居大數(shù)據(jù)云存儲(chǔ)系統(tǒng)主要由邏輯控制模塊、用戶訪問模塊、存儲(chǔ)模塊、文件讀/寫模塊和面向智能家居的大數(shù)據(jù)云存儲(chǔ)模塊。
邏輯控制模塊:是整個(gè)面向智能家居大數(shù)據(jù)云存儲(chǔ)系統(tǒng)的核心,是邏輯處理的樞紐,各業(yè)務(wù)請求均在該模塊中被處理。
用戶訪問模塊是智能家居中的用戶和云儲(chǔ)存系統(tǒng)交互的紐帶,利用該模塊可以透明地為用戶提供底層實(shí)現(xiàn)的各項(xiàng)功能。
存儲(chǔ)模塊為新一代智能家居云存儲(chǔ)系統(tǒng)提供了透明的存取功能。文件讀/寫模塊主要負(fù)責(zé)將上層邏輯處理和底層存儲(chǔ)進(jìn)行隔離。
邏輯結(jié)構(gòu):請求處理后傳輸至存儲(chǔ)模塊,再由存儲(chǔ)模塊發(fā)送到面向智能家居的大數(shù)據(jù)云存儲(chǔ)模塊,在該模塊中實(shí)現(xiàn)大數(shù)據(jù)云存儲(chǔ)。
每個(gè)數(shù)據(jù)的處理流程:
每一個(gè)數(shù)據(jù)都有一個(gè)ETL,就是抽取、轉(zhuǎn)化,然后去加載,包括做數(shù)據(jù)的清洗。如果數(shù)據(jù)大批量進(jìn)來,有些數(shù)據(jù)可能是有問題的。比如說,好多地址會(huì)寫得比較模糊,如果要搜索北京這個(gè)詞的時(shí)候,數(shù)據(jù)倉庫里可能只有一個(gè)京字,這些都要統(tǒng)一整理成一個(gè),比如說北京,這樣后面分析就會(huì)簡單,比如山東,有人會(huì)輸入“魯”字來進(jìn)行搜索,而不是山東,這就需要在大數(shù)據(jù)分析前期做好數(shù)據(jù)清理工作,做規(guī)范化,這樣后面的數(shù)據(jù)分析起來就方便很多。
大數(shù)據(jù)的分布式計(jì)算:
通常用于數(shù)據(jù)分析平臺(tái)的分布式計(jì)算平臺(tái)內(nèi)的存儲(chǔ)不是我們以往面對的網(wǎng)絡(luò)附加存儲(chǔ)(NAS)和存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN),而通常是內(nèi)置的直連存儲(chǔ)(NAS)以及組成集群的分布式計(jì)算節(jié)點(diǎn),無論是數(shù)據(jù)部署安全、保護(hù)和保存流程都非常復(fù)雜。但大數(shù)據(jù)分析中包含各種快速成長中的技術(shù),簡單用分布式技術(shù)對其定義也并不準(zhǔn)確。
大數(shù)據(jù)在智能家居領(lǐng)域的貢獻(xiàn)
我們每個(gè)人都是數(shù)據(jù)的貢獻(xiàn)者,全球平均每人大概攜帶200GB的數(shù)據(jù),而智能家居作為圍繞人與設(shè)備的新興領(lǐng)域,大數(shù)據(jù)對于相輔相成的貢獻(xiàn)也是不言而喻的。我們談?wù)摰囊欢ㄊ怯袃r(jià)值性的采集,如果我們都不知道哪些數(shù)據(jù)要采集或者放棄,最終搭建數(shù)據(jù)分析系統(tǒng)的時(shí)候,可能會(huì)不知道怎么搭建,也不知道用什么技術(shù),甚至收集到許多無用的信息純屬浪費(fèi)時(shí)間。我們可以把企業(yè)的運(yùn)營、產(chǎn)品、用戶使用情況、設(shè)備信息都存儲(chǔ),但是提取分析要有清晰條理的規(guī)劃,最終的數(shù)據(jù)價(jià)值才有意義。
智能家居系統(tǒng)的所產(chǎn)生數(shù)據(jù)的包含面非常廣,既有硬件傳感器的數(shù)據(jù)、也有硬件本身的數(shù)據(jù)運(yùn)行狀態(tài)、也有用戶和硬件交互的數(shù)據(jù),還有用戶通過APP等客戶端產(chǎn)生的數(shù)據(jù)、更有用戶自身的使用習(xí)慣和生活場景的數(shù)據(jù)等等,這就導(dǎo)致整體的智能家居所產(chǎn)生數(shù)據(jù)的積累速度和量都很大。智能家居企業(yè)初期圍繞業(yè)務(wù)驅(qū)動(dòng),下面一些數(shù)據(jù)是必須要收集的,建議采用分布式大規(guī)模的云存儲(chǔ)架構(gòu),以滿足未來企業(yè)高速發(fā)展和創(chuàng)新需求的必然趨勢。
智能家居大數(shù)據(jù)的采集內(nèi)容:
智能家居大數(shù)據(jù)的采集內(nèi)容,包括APP的使用情況、故障自診斷信息、服務(wù)運(yùn)營信息、用戶畫像、設(shè)備使用狀態(tài)、用戶使用行為、APP交互行為、用戶信息數(shù)據(jù)、設(shè)備功能信息、用戶信息、設(shè)備功能信息、設(shè)備日志、APP日志、子設(shè)備參數(shù)與運(yùn)行狀態(tài)等等其他數(shù)據(jù)。
智能家居為何需要大數(shù)據(jù)?
智能家居是多領(lǐng)域融合的切入點(diǎn),是社會(huì)家庭管理的支撐點(diǎn),是民生服務(wù)的新亮點(diǎn)。物聯(lián)網(wǎng)生產(chǎn)大數(shù)據(jù),大數(shù)據(jù)支持智能家居,從智能家居到數(shù)據(jù)再到智能化,構(gòu)成了從感知到認(rèn)知的全過程。大數(shù)據(jù)是智能硬件競爭的制高點(diǎn),可以幫助硬件廠商挖掘用戶的設(shè)備使用行為,讓廠商可以了解自己的用戶、優(yōu)化產(chǎn)品策略和市場策略。還可以對用戶進(jìn)行學(xué)習(xí),建立用戶畫像,針對不同的用戶提供個(gè)性化智能體驗(yàn),給不同的用戶提供個(gè)性化優(yōu)惠,加大二次銷售。也可以做設(shè)備活動(dòng)狀態(tài)的分析、故障率的分析,這樣來指導(dǎo)產(chǎn)品、硬件后面怎么做迭代層、怎么做升級(jí),包括知道用戶喜歡用什么功能、用戶在什么時(shí)間段喜歡用這個(gè)功能,知道后面營銷策略針對哪些地域作為重點(diǎn)。利用大數(shù)據(jù)可以挖掘出非常多的價(jià)值,這需要在IoT領(lǐng)域不斷地去探索。
云計(jì)算與大數(shù)據(jù)
想獲得海量數(shù)據(jù),設(shè)備必須接云,智能家居領(lǐng)域?qū)⒚鎸Φ膶⑹乔|乃至萬億的設(shè)備。如果在云安全部署還未成熟的情況下,就將這些設(shè)備盲目入云,將會(huì)導(dǎo)致不可想象的災(zāi)難。所以數(shù)據(jù)前提是云安全,所以云計(jì)算的方式方法至關(guān)重要。
云計(jì)算和大數(shù)據(jù)是一個(gè)硬幣的兩面,云計(jì)算是大數(shù)據(jù)的IT基礎(chǔ),而大數(shù)據(jù)是云計(jì)算的一個(gè)殺手級(jí)應(yīng)用。云計(jì)算是大數(shù)據(jù)成長的驅(qū)動(dòng)力,而另一方面,越來越多的數(shù)據(jù)需要云計(jì)算去處理,所以云計(jì)算與大數(shù)據(jù)是相輔相成的,在智能家居產(chǎn)業(yè)中體現(xiàn)得更加淋漓盡致。
未來通過云計(jì)算對大數(shù)據(jù)進(jìn)行存儲(chǔ)分析和準(zhǔn)確提取的同時(shí),需要深度學(xué)習(xí)和深度挖掘數(shù)據(jù),模擬學(xué)習(xí)用戶行為,實(shí)現(xiàn)更加“聰明”的智能體驗(yàn)。
點(diǎn)評(píng)
很多企業(yè),尤其的是大的國企在做智能家居時(shí),會(huì)上很大的決心和項(xiàng)目,對于海量數(shù)據(jù)收集他們也是很感興趣。追隨潮流搭建大數(shù)據(jù)平臺(tái)后,實(shí)現(xiàn)的結(jié)果是PB級(jí)存儲(chǔ)能力和秒級(jí)處理能力,也許并不接入公有云去收集到大量數(shù)據(jù),最終只是先存起來,等需要的時(shí)候再用,其實(shí)這種思路是沒有必要的。隨著大數(shù)據(jù)技術(shù)的不斷改進(jìn),其靈活性、透明性和魯棒性會(huì)不斷提升,有效的存儲(chǔ)、管理和維護(hù)形式也在不斷的發(fā)生著變化,可行性和實(shí)用性才是大數(shù)據(jù)的本質(zhì)。如果不能利用數(shù)據(jù)產(chǎn)生價(jià)值,將非??上?,也將是一個(gè)災(zāi)難,數(shù)據(jù)產(chǎn)生越多,存儲(chǔ)空間、浪費(fèi)的資源也就越多。但總體來看,數(shù)據(jù)運(yùn)營不論以間接生產(chǎn)力還是直接生產(chǎn)力的方式體現(xiàn),最終的都會(huì)成為下一個(gè)時(shí)代的新浪潮。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10