
如何駕馭與處理大數(shù)據(jù)挑戰(zhàn)成企業(yè)應(yīng)用關(guān)鍵
大數(shù)據(jù)(Big data)近年來快速成長,根據(jù)麥肯錫全球研究中心在2011年5月發(fā)表的全球大數(shù)據(jù)研究報(bào)告指出,全球資料量光是在2010年就增加了70億GB,相當(dāng)于4千座美國國會(huì)圖書館典藏?cái)?shù)據(jù)的總和。
如何產(chǎn)生、消費(fèi)和儲(chǔ)存大數(shù)據(jù),已經(jīng)成為近年來企業(yè)IT應(yīng)用的重要趨勢。如在eBay上,平均每天有將近1億名用戶查詢商品數(shù)百萬次,更有上百萬件商品在在線交易,導(dǎo)致eBay數(shù)據(jù)庫每天新增的數(shù)據(jù),超過1.5兆筆,每天增加的數(shù)據(jù)量超過50TB,這些大數(shù)據(jù)如果沒有作進(jìn)一步的分析應(yīng)用,勢必會(huì)影響eBay的企業(yè)營運(yùn)。
應(yīng)用大數(shù)據(jù) 提高企業(yè)競爭力
至于制造業(yè),其實(shí)也會(huì)產(chǎn)生許多大數(shù)據(jù),但宇清數(shù)字智能總經(jīng)理郭仲仁指出,許多企業(yè)卻不見得會(huì)重新檢視這些信息,其實(shí)只要經(jīng)過大數(shù)據(jù)技術(shù)分析,透過細(xì)微的觀察分析及萃取,就可能從中找到提高生產(chǎn)力及縮短產(chǎn)品交期的信息。
如晶圓代工、面板等產(chǎn)業(yè),都會(huì)碰到等待時(shí)間不能超過特定時(shí)間的壓力,偏偏有30~40%的機(jī)器,會(huì)有這方面的問題。如果有任何一種等待因素需要有三個(gè)共同部門負(fù)責(zé),結(jié)果其實(shí)就可能不會(huì)有人負(fù)責(zé),唯有讓每一種等待因素都能被該負(fù)責(zé)的部門看到,才會(huì)有人愿意進(jìn)一步的去分析每一種因素的相關(guān)數(shù)據(jù)。
郭仲仁認(rèn)為,如果能找到一種大數(shù)據(jù)的分析方法,能夠混和資料采礦過程,搜集相關(guān)資料掌握下游如何影響上游,進(jìn)行相關(guān)分析,讓客戶找到重點(diǎn),并找到真正可以操作的KPI,才會(huì)有很大的機(jī)會(huì),找到改善的重點(diǎn)及方法,而這也才是大數(shù)據(jù)分析應(yīng)用的價(jià)值所在。
擴(kuò)展企業(yè)IT架構(gòu) 駕馭大數(shù)據(jù)
企業(yè)如果能夠駕馭大數(shù)據(jù),自然能夠提升競爭力,但戴爾企業(yè)解決方案市場開發(fā)經(jīng)理陳毅達(dá)指出,目前的資料,卻已經(jīng)超越傳統(tǒng)數(shù)據(jù)庫或現(xiàn)有數(shù)據(jù)管理工具能夠處里的范圍。因?yàn)樵诒ㄐ缘臄?shù)據(jù)增長過程中,結(jié)構(gòu)性數(shù)據(jù)的成長相當(dāng)緩慢,反觀非結(jié)構(gòu)性的數(shù)據(jù),包括視訊、網(wǎng)頁、智能型手機(jī)、消費(fèi)數(shù)據(jù)、位置數(shù)據(jù)、財(cái)務(wù)服務(wù)數(shù)據(jù),以及社會(huì)媒體數(shù)據(jù)等,陳毅達(dá)指出,至少有80%的數(shù)據(jù),屬于非結(jié)構(gòu)化數(shù)據(jù),大約500萬億個(gè)文文件,而且數(shù)據(jù)量每兩年增加一倍。
但目前的數(shù)據(jù)庫解決方案,卻主要是用來設(shè)計(jì)儲(chǔ)存結(jié)構(gòu)化數(shù)據(jù),除了只能針對已知問題的回答速度進(jìn)行優(yōu)化外,架構(gòu)本身往往就決定了內(nèi)容形式,對于新數(shù)據(jù)型態(tài)與新問題,都有適應(yīng)上的困難,加上擴(kuò)展成本高昂,企業(yè)勢必得尋求不同以往的數(shù)據(jù)處理解決方案,才能面對爆炸性的資料增長。
優(yōu)化大數(shù)據(jù) 創(chuàng)造數(shù)據(jù)價(jià)值
事實(shí)上,數(shù)據(jù)成長的速度,確實(shí)相當(dāng)驚人。根據(jù)IDC統(tǒng)計(jì),數(shù)字世界的信息容量將會(huì)從2009年的0.8ZB,在2020年成長到35ZB,等于每15秒就成長1PB,年復(fù)合成長率高達(dá)40%,而且這些數(shù)據(jù)數(shù)據(jù)不僅巨大而且不同,如何優(yōu)化數(shù)據(jù),方便且容易的搜尋到所需要的信息,也變得更加困難。
麗臺科技新事業(yè)處軟件產(chǎn)品部業(yè)務(wù)副總經(jīng)理萬蕙如指出,前各產(chǎn)業(yè)平均數(shù)據(jù)儲(chǔ)存量,以證券投資、銀行居首,其次則是制造業(yè)、通訊媒體、國營事業(yè)、政府機(jī)構(gòu)等,整個(gè)產(chǎn)業(yè)生態(tài),需要更快速實(shí)時(shí)獲取針對特定商業(yè)工作項(xiàng)目或流程的綜合細(xì)部信息。
因?yàn)樵谛畔⒈┰龅臅r(shí)代,企業(yè)營運(yùn)所面對的挑戰(zhàn),包括一直在更新的大量數(shù)據(jù)、更快速響應(yīng)大量終端用戶的需求,多數(shù)工作者都需要迅速且有效率地查詢正確信息,如何能更實(shí)時(shí)正確地傳遞關(guān)鍵信息,以加強(qiáng)特定作業(yè)流程的產(chǎn)出與績效,已是當(dāng)前企業(yè)IT部門必須面對的問題。
萬蕙如認(rèn)為,企業(yè)想要優(yōu)化大數(shù)據(jù),應(yīng)該要考慮信息搜尋技術(shù)的新世代應(yīng)用。如Search-Based Applicatioin(SBA),是一種使用最新進(jìn)的搜索暨索引(Search and Index)技術(shù)作為結(jié)構(gòu)、半結(jié)構(gòu)和非結(jié)構(gòu)信息,匯整分析功能開發(fā)之基底平臺的應(yīng)用軟件,這種信息分析的新方法,可同時(shí)提供支持特定工作或流程,而量身訂做的定量和定性數(shù)據(jù)圖表分析,可全面強(qiáng)化企業(yè)日常業(yè)務(wù)實(shí)時(shí)決策的準(zhǔn)確性。
應(yīng)用虛擬化技術(shù) 提升大數(shù)據(jù)處理效能
除了信息搜索技術(shù)外,虛擬化技術(shù)在大數(shù)據(jù)時(shí)代,也變得更加重要。事實(shí)上,虛擬化環(huán)境目前面對的最主要挑戰(zhàn)之一,其實(shí)就是大數(shù)據(jù)時(shí)代的來臨,讓數(shù)據(jù)的儲(chǔ)存及備份,變得更加困難。但群暉科技軟件開發(fā)部經(jīng)理張成鈺指出,大數(shù)據(jù)對虛擬化儲(chǔ)存,是挑戰(zhàn)也是機(jī)會(huì),只要能克服數(shù)據(jù)保護(hù)效率,做好多重復(fù)制的環(huán)境布署操作,仍能提供非常完整的數(shù)據(jù)保護(hù)虛擬環(huán)境。
張成鈺表示,虛擬化的好處之一,就是IT資源的處理效能可以更好,因?yàn)樵購?qiáng)的實(shí)體主機(jī),運(yùn)作效能還是有上限,其實(shí)儲(chǔ)存設(shè)置也有強(qiáng)大的運(yùn)算能力,可以分散運(yùn)算工作,用來解決虛擬化環(huán)境的效能瓶頸。
要強(qiáng)化虛擬環(huán)境操作的效能,張成鈺指出,除了產(chǎn)品應(yīng)該專為虛擬環(huán)境量身打造,完整支持主流的虛擬化解決方案外,主要的虛擬儲(chǔ)存進(jìn)階功能,也相當(dāng)重要,如儲(chǔ)存設(shè)備就需要面對傳輸效能的問題。張成鈺指出,固態(tài)硬盤(SSD)可讓虛擬化儲(chǔ)存在面對大數(shù)據(jù)的挑戰(zhàn)時(shí),提供效能提升的重要幫助。如藉由安裝SSD進(jìn)行快取,可大幅提升讀取效能,關(guān)鍵在于系統(tǒng)是否無須在成本與效能上妥協(xié),使用少量的SSD,即可達(dá)到效能升級。
善用云端服務(wù) 處理大數(shù)據(jù)
事實(shí)上,在大數(shù)據(jù)時(shí)代,企業(yè)不僅要考慮數(shù)據(jù)的儲(chǔ)存及應(yīng)用,傳輸技術(shù)也非常重要,尤其在云端運(yùn)算時(shí)代,許多企業(yè)會(huì)將數(shù)據(jù)存放在云端,如果云端端服務(wù)業(yè)者,無法提供高質(zhì)量的數(shù)據(jù)傳輸服務(wù),企業(yè)就很難實(shí)時(shí)存取資料,用來作進(jìn)一步的規(guī)劃。
恩悌悌業(yè)務(wù)部資深副理林志鴻指出,如果企業(yè)選擇將數(shù)據(jù)儲(chǔ)存在各地分公司或企業(yè)總部機(jī)房,勢必會(huì)有人力、物力及金錢方面的投資成本,但如果將數(shù)據(jù)放在云端,在大數(shù)據(jù)時(shí)代,就需要大帶寬,才能縮短傳輸時(shí)間,如NTT在2012年正式啟用的ASE海纜,配合這幾年在香港、東京、新加坡及馬來西亞投資的機(jī)房建設(shè),才能提供亞太地區(qū)所需要的高速數(shù)據(jù)傳輸服務(wù)。
此外,云端服務(wù)業(yè)者在數(shù)據(jù)派送服務(wù)的優(yōu)化技術(shù),也會(huì)影響大數(shù)據(jù)的應(yīng)用。林志鴻表示,類似Youtube、PPS的串流技術(shù),許多云端服務(wù)業(yè)者已經(jīng)開始提供,可以提高傳輸效率,縮短數(shù)據(jù)傳輸?shù)臅r(shí)間,可以減輕對帶寬的壓力。
駕馭大數(shù)據(jù)應(yīng)用的關(guān)鍵技術(shù)
大數(shù)據(jù)不只是需要儲(chǔ)存及傳輸,也需要做更深入的分析,才能讓大數(shù)據(jù)更多的價(jià)值。淡江大學(xué)統(tǒng)計(jì)系副教授陳景祥指出,有沒有必要使用全部資料,是許多企業(yè)可以思考的問題。思考的方向首先就是成本,而且除了有形的金錢成本外,時(shí)間及人力資源等無形成本,也都需要一并考慮;其次是精確度會(huì)受到多少影響,造成的決策風(fēng)險(xiǎn)會(huì)有多高,最后則是軟硬件方面的限制,是否真的有足夠的能力使用全部數(shù)據(jù),進(jìn)行統(tǒng)計(jì)分析。
陳景祥強(qiáng)調(diào),企業(yè)若要進(jìn)行數(shù)據(jù)探勘,一定要先有目標(biāo)設(shè)定,光是只有數(shù)據(jù),是無法透過數(shù)據(jù)探勘獲得所需要的信息。其他還要考慮的重點(diǎn),還包括目前的科技限制,軟硬件及人力時(shí)間成本等。值得注意的是,企業(yè)得到資料探勘結(jié)果后,并不是到此為止。陳景祥強(qiáng)調(diào),數(shù)據(jù)探勘只是輔助,并非全部自動(dòng)化,后續(xù)還是需要人力來執(zhí)行歸納分析,才能真正發(fā)揮大數(shù)據(jù)的價(jià)值。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03