
大數(shù)據(jù)分析的未來圖景:萬物皆可分析
在云計算、大數(shù)據(jù)之后物聯(lián)網(wǎng)成為新晉熱點話題,物聯(lián)網(wǎng)改變了我們看待世界的方法,改變了我們做業(yè)務(wù)的方法,甚至改變我們的生活方式。但是即使是最精通技術(shù)的企業(yè)也承認(rèn),從物聯(lián)網(wǎng)生成的數(shù)據(jù)中獲取價值非常困難,需要大量技巧。
Teradata認(rèn)為的數(shù)據(jù)分析未來圖景是“萬物皆可分析”,所以在本次大會上也發(fā)布了Teradata Listener,其是一款具有實時“聽取”功能的自助式智能軟件,對客戶而言可跟蹤他們世界各地存放的多條傳感器和物聯(lián)網(wǎng)數(shù)據(jù)流,并將該數(shù)據(jù)傳送到分析生態(tài)系統(tǒng)中的多個平臺,使得我們能夠在數(shù)據(jù)源的發(fā)生地就可以進行分析。
同時Teradata也強調(diào),在建設(shè)數(shù)據(jù)分析系統(tǒng)中,要避免數(shù)據(jù)孤島。由于單一技術(shù)無法解決全面數(shù)據(jù)分析的需求,必須簡化各種技術(shù)難度,創(chuàng)建統(tǒng)一生態(tài)數(shù)據(jù)管理系統(tǒng)。簡化是非常重要的需求,任何數(shù)據(jù)分析系統(tǒng)都要使得架構(gòu)簡化。所以,在本次大會上,Teradata還更新了其統(tǒng)一數(shù)據(jù)架構(gòu)(UDA),推出了在單一機箱內(nèi)整合Teradata數(shù)據(jù)倉庫、Teradata Aster Analytics和Hadoop系統(tǒng),使用戶能夠在更小的數(shù)據(jù)中心空間內(nèi)發(fā)揮整個分析生態(tài)系統(tǒng)管理的優(yōu)勢。
在本次大會上,ZDNet采訪了Teradata天睿公司大中華區(qū)首席執(zhí)行官辛兒倫,以下為訪談實錄:
ZDNet:2015年的大會以Breaking Big為主題,請問其寓意是什么?這是否代表Teradata對于大數(shù)據(jù)認(rèn)知在概念上的顛覆?
辛兒倫:Breaking Big這個主題,我理解最核心的應(yīng)該是“打破束縛和限制”,不管是企業(yè)還是個人應(yīng)該探索和追求“創(chuàng)新、差異化、勇氣、重大進展和卓越表現(xiàn)?!?/span>
第一,在大數(shù)據(jù)時代,企業(yè)必須堅持創(chuàng)新和追求創(chuàng)新,不管技術(shù)上尋找突破,還是從業(yè)務(wù)流程、商業(yè)模式、組織架構(gòu)、企業(yè)的分析文化上,都可進行積極的創(chuàng)新。例如,去年我們剛剛收購的Think Big公司,幫助我們增強對Hadoop的咨詢、顧問和實施能力, 以及與其它分析平臺的交互能力。在本次大會上,我們剛宣布Think Big成為業(yè)內(nèi)首個能夠為Hadoop數(shù)據(jù)湖(數(shù)據(jù)資源池)提供全面的管理服務(wù),這將幫助企業(yè)非常便利地創(chuàng)建數(shù)據(jù)分析的生態(tài)系統(tǒng),確保數(shù)據(jù)質(zhì)量、可靠性、實時性以及日常的運營任務(wù)。
我強調(diào)一下,我們的Think Big公司支持主要的Apache? Hadoop?,包括Cloudera、Hortonworks、MapR、Spark、Kafka、NoSQL以及其他開源技術(shù),非常全面。而且更重要的是,我這里也是首次宣布,我們的Think Big業(yè)務(wù)已經(jīng)確定引入到大中華區(qū),目前已經(jīng)在完成人員的配備。
第二,我覺得企業(yè)中在數(shù)據(jù)分析上的務(wù)實和積極進取的文化非常重要。其中,這個主題中提到“勇氣”是企業(yè)實現(xiàn)大數(shù)據(jù)項目成功的重要保證。很多的企業(yè),曾經(jīng)面對大數(shù)據(jù)項目的投資猶豫、徘徊,其實這就需要更大的勇氣支持。Teradata以及廣大客戶的反饋已經(jīng)看到,我們是時候積極行動了。我們也理解,文化上的轉(zhuǎn)變可能比技術(shù)和分析流程上的轉(zhuǎn)變歷時更久,但是我們一直強調(diào),大數(shù)據(jù)從小做起,相信你也能很快看到大數(shù)據(jù)的價值,看到大數(shù)據(jù)分析在商業(yè)變革中帶來的不可替代的驅(qū)動力。
ZDNet:每年的全球用戶大會,Teradata都會發(fā)布業(yè)界注目的新產(chǎn)品。今年發(fā)布的產(chǎn)品中,您認(rèn)為哪些是最具亮點的?
辛兒倫:今年,我們在大數(shù)據(jù)技術(shù)、開源技術(shù)的支持以及咨詢服務(wù)上都有重要的更新和發(fā)布。這里,我特別強調(diào)一下,本次大會上最亮點的應(yīng)該是針對物聯(lián)網(wǎng)的傳感器數(shù)據(jù)的分析能力,甚至實現(xiàn)了萬物皆可分析(Analytics of Everything)。Teradata Listener技術(shù)能夠通過整合開源技術(shù),幫助客戶分析物聯(lián)網(wǎng)中不計其數(shù)的數(shù)據(jù)源,簡化數(shù)據(jù)分析的難度。Teradata QueryGrid技術(shù)能在統(tǒng)一數(shù)據(jù)架構(gòu)上快速有效地進行主題分析或查詢多元化的大數(shù)據(jù),以取得業(yè)務(wù)需要的信息。
同時,Teradata Aster新的版本能直接交互Hadoop數(shù)據(jù)資源池或數(shù)據(jù)倉庫平臺,幫助客戶進行實時的數(shù)據(jù)探索,例如高效營銷中進行客戶路徑和消費模式分析,等等.
ZDNet:最近,Gartner發(fā)布了2016 年可能影響企業(yè)的十大技術(shù)趨勢,其中萬物信息化以及物聯(lián)網(wǎng)等技術(shù)入選。在目前發(fā)展出現(xiàn)這些趨勢之時,您怎們看技術(shù)的發(fā)展趨勢?如果時間放長遠(yuǎn)一點,據(jù)您觀察未來5年甚至10年,那些技術(shù)可能會成為影響企業(yè)比較顯著的技術(shù)趨勢?
辛兒倫:我們看到這些十大技術(shù)趨勢,這些都是戰(zhàn)略性大趨勢,其中包括Information of Everything(萬物信息化)以及物聯(lián)網(wǎng)架構(gòu)和平臺。其實,我認(rèn)為這不僅是趨勢,而是新的IT現(xiàn)實。
關(guān)于萬物信息化,可以理解為我們身處在一個數(shù)字網(wǎng)格之中,這個環(huán)境會產(chǎn)生、使用其產(chǎn)生的無計其數(shù)的信息。在這些數(shù)據(jù)和信息的海洋中,不管是企業(yè)還是個人,必須學(xué)會判斷和識別哪些信息能夠帶來戰(zhàn)略性的價值,掌握如何訪問這些不同的數(shù)據(jù)源,并通過各種分析方法和算法找出其中的業(yè)務(wù)價值。
其實,這些預(yù)測也是真實IT現(xiàn)實的寫照。實現(xiàn)萬物皆聯(lián)網(wǎng)或者信息化,最主要之一靠傳感器技術(shù)。在我們目前生活的時代,傳感器技術(shù)結(jié)合大規(guī)模并行處理能力,使我們能夠測量并整體分析幾乎所有現(xiàn)象。先進的儀器使我們能夠跟蹤萬物的變化,例如天氣變化模式、汽車駕駛習(xí)慣、乃至快餐店冰箱的溫度、醫(yī)院里(或家里)病人的生命體征。將這些數(shù)據(jù)采集至數(shù)據(jù)庫,并運用廣泛的統(tǒng)計、分析及可視化工具對這些數(shù)據(jù)進行細(xì)致的分析。
正是由于這些傳感器,我們的生活、工作中產(chǎn)生了新的數(shù)據(jù)源。例如,通過射頻識別讀取器,我們能夠進行零售庫存跟蹤與控制、醫(yī)療測試采樣跟蹤、預(yù)防欺詐行為等;通過GPS定位跟蹤器,能夠進行車隊管理和交通運輸和貨運管理;通過數(shù)據(jù)采集傳感器,我們就能在制造業(yè)、環(huán)境保護、交通運輸系統(tǒng)中采集到實時的數(shù)據(jù)用于分析。
例如,西門子公司就通過部署Teradata技術(shù)提升其制造流程及產(chǎn)品質(zhì)量。西門子首次實現(xiàn)了整合來自傳感器、制造流程、機器生成數(shù)據(jù),以及各種源系統(tǒng)的數(shù)據(jù)。西門子技術(shù)領(lǐng)域商業(yè)分析及監(jiān)測總監(jiān)Michael May博士對此說:“現(xiàn)在,我們可以更快、更有效地獲得數(shù)據(jù)中的價值。把大數(shù)據(jù)轉(zhuǎn)換為智能數(shù)據(jù),我們將能夠優(yōu)化產(chǎn)品質(zhì)量,為客戶提供更加優(yōu)質(zhì)的服務(wù)?!?/span>
關(guān)于物聯(lián)網(wǎng)我提兩點:《2014-2015年中國物聯(lián)網(wǎng)發(fā)展年度報告》中指出,物聯(lián)網(wǎng)技術(shù)與云計算、大數(shù)據(jù)、移動互聯(lián)網(wǎng)等新興一代信息技術(shù)的協(xié)同創(chuàng)新進一步深化,與農(nóng)業(yè)、制造業(yè)、服務(wù)業(yè)等傳統(tǒng)產(chǎn)業(yè),與新能源、新材料、先進制造業(yè)等新興產(chǎn)業(yè)的“雙向融合”不斷加強。物聯(lián)網(wǎng)加快向經(jīng)濟、社會、生活眾多領(lǐng)域滲透,不斷催生新變革、新應(yīng)用和新業(yè)態(tài)。這些都是非??上驳陌l(fā)展成績?,F(xiàn)在快速發(fā)展的物聯(lián)網(wǎng),以及未來的“萬物皆聯(lián)網(wǎng)”,任何人、事、物之間將能實現(xiàn)連接,這將帶來溝通模式的變化、業(yè)務(wù)模式的變化,甚至發(fā)展模式的變化。
但是,我們更要強調(diào),要想讓物聯(lián)網(wǎng)發(fā)揮出價值,企業(yè)必須對傳感器數(shù)據(jù)進行整合和分析,并把分析結(jié)果利用到生產(chǎn)流程中來,而由大數(shù)據(jù)驅(qū)動的物聯(lián)網(wǎng)才是有價值的物聯(lián)。
由于物聯(lián)網(wǎng)數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這種JSON數(shù)據(jù)的分析都非常復(fù)雜。在今年5月,我們就宣布首次在同一數(shù)據(jù)庫實現(xiàn)三大JSON數(shù)據(jù)格式的原生存儲,這將為客戶提供更強的查詢性能。通過對Teradata數(shù)據(jù)庫升級,能夠幫助業(yè)務(wù)用戶充分利用網(wǎng)頁應(yīng)用、傳感器和物聯(lián)網(wǎng)機器生成JSON數(shù)據(jù)的商業(yè)價值。而Teradata數(shù)據(jù)庫具備分析JSON數(shù)據(jù)、操作數(shù)據(jù)和歷史業(yè)務(wù)數(shù)據(jù)的強大功能,而這一頂級查詢性能使其成為物聯(lián)網(wǎng)分析樞紐。此外,本次大會上發(fā)布的Teradata Listener是一款自助式智能軟件,具有實時“聽取”功能,可協(xié)助客戶跟蹤他們世界各地存放的多條傳感器和物聯(lián)網(wǎng)數(shù)據(jù)流,并將該數(shù)據(jù)傳送到分析生態(tài)系統(tǒng)中的多個平臺,這些都是巨大的技術(shù)突破。
針對未來更長時間的趨勢預(yù)測,如果從更加宏觀的角度看,我們先梳理一下整個IT 行業(yè)的發(fā)展,然后就能看到未來的發(fā)展趨勢。過去從70或者80年代開始,對整個IT產(chǎn)業(yè)的關(guān)注,不管是產(chǎn)業(yè)給予的專注,還是IT供應(yīng)商的專注,或是企業(yè)對于成立自己的IT部門的專注,更多的是一種小I大T的專注,什么叫小I大T?小的專注于Information能夠體現(xiàn)的價值,而大量專注于運用用和研發(fā)Technology方面的議題。這就是小I大T,更多地認(rèn)為IT就只是Technology這個課題,但是我們要注意IT不僅僅是Technology,IT是兩個課題,是Information和Technology。
隨著技術(shù)的發(fā)展,現(xiàn)在的技術(shù)能夠承載的Information的價值度是迅速提升的,,未來更多的機會會更多在Information這個主題,延伸出來未來10年、20年、30年的前景。特別是未來這30年,這個時代將會是大I小T的時代,更多的主軸是在Information主題。,
ZDNet:從Teradata以及服務(wù)客戶的經(jīng)驗看,如果讓您建議一個企業(yè)要建立起自己的大數(shù)據(jù)戰(zhàn)略,應(yīng)該要去準(zhǔn)備什么戰(zhàn)略?
辛兒倫:首先建議客戶要先問自身幾個問題,那就是為什么要建立自己的大數(shù)據(jù)戰(zhàn)略?是什么業(yè)務(wù)發(fā)展方向需要數(shù)據(jù)驅(qū)動型戰(zhàn)略?。大數(shù)據(jù)戰(zhàn)略要針對具體的業(yè)務(wù)場景,有了明確的業(yè)務(wù)場景目標(biāo),建設(shè)駕馭大數(shù)據(jù)的能力才有針對性性和使命感。
例如某企業(yè)要提升他的客戶價值貢獻度,希望建立起大數(shù)據(jù)戰(zhàn)略,能夠通過與客戶的多種互動渠道的信息中獲得洞察例如通過360度的統(tǒng)一客戶視圖等,在正確的時間、正確的地點、適當(dāng)?shù)姆绞?,提供這位客戶需要的服務(wù)或產(chǎn)品。又如金融機構(gòu)通過建立起針對風(fēng)險控制的大數(shù)據(jù)戰(zhàn)略,能夠發(fā)現(xiàn)和判斷自己企業(yè)面對的風(fēng)險以及危害程度,如擔(dān)保圈分析等。如電信運營商可以通過建立針對客戶服務(wù)品質(zhì)優(yōu)化的大數(shù)據(jù)戰(zhàn)略,發(fā)現(xiàn)即將離網(wǎng)的用戶等,提高自己的業(yè)務(wù)支持并挽留用戶。
但是,在這里我要強調(diào)一點,數(shù)據(jù)驅(qū)動型戰(zhàn)略不等同于數(shù)據(jù)收集戰(zhàn)略,目前企業(yè)應(yīng)盡量避免“存而不用”,建立大數(shù)據(jù)能力絕不是收集數(shù)據(jù)、存數(shù)據(jù)。
根據(jù)我們協(xié)助全球許多客戶建設(shè)高效的大數(shù)據(jù)戰(zhàn)略呢?,我想分享幾個成功的關(guān)鍵:
第一,全面。企業(yè)需要采取宏觀視角來識別構(gòu)成高效體系的諸多不同要素,將不同的數(shù)據(jù)集(比如內(nèi)部和外部數(shù)據(jù)流,或來自企業(yè)不同職能部門的信息)鏈接起來,通過關(guān)聯(lián)分析,找出富有意義的信息。
第二,以業(yè)務(wù)為核心。針對大數(shù)據(jù)的戰(zhàn)略規(guī)劃應(yīng)當(dāng)以業(yè)務(wù)為導(dǎo)向,大數(shù)據(jù)戰(zhàn)略并非科學(xué)項目,而是必須以滿足實際的業(yè)務(wù)需求為核心。
第三,靈活。必須考慮到未來的使用情形,大數(shù)據(jù)戰(zhàn)略和大數(shù)據(jù)分析方法論應(yīng)避免常見的限制,比如過多地依賴于單一技術(shù)或單一平臺模式或過于制式的流程等;由于數(shù)據(jù)驅(qū)動的轉(zhuǎn)型不會一步到位或立刻傳遍整個企業(yè),因此在制定戰(zhàn)略時,必須認(rèn)識到價值是逐步創(chuàng)造出來的,并將整個演變過程考慮在內(nèi)。
第四,有條理且可擴展。要確保大數(shù)據(jù)戰(zhàn)略能夠得到全面貫徹,而不是導(dǎo)致另一大群數(shù)據(jù)孤島的產(chǎn)生。
第五,數(shù)據(jù)分析、科學(xué)決策。形成以分析為導(dǎo)向的思維方式,并培養(yǎng)真正的數(shù)據(jù)驅(qū)動文化。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10