
在大數(shù)據(jù)時(shí)代中,如何更快地即時(shí)分析巨量數(shù)據(jù),成為新的創(chuàng)業(yè)契機(jī)。來自臺(tái)灣的團(tuán)隊(duì)「核桃運(yùn)算MacroData」,從最底層的數(shù)據(jù)分析架構(gòu)出發(fā),耗費(fèi)兩年半的時(shí)間,研發(fā)出可分析不同資料屬性,以及橫跨各式硬體的資料分析引擎,比起現(xiàn)有的資料庫來說,運(yùn)算速度還要快50倍到100倍,今年下半年將正式走入市場(chǎng)。
令人意外的是,核桃運(yùn)算一開始并非瞄準(zhǔn)大數(shù)據(jù)商機(jī)。核桃運(yùn)算的靈魂人物薛文蔚,是臺(tái)大資工系第一屆學(xué)生,畢業(yè)取得哥倫比亞大學(xué)資工博士學(xué)位后,先到華爾街工作兩年,在1995年開始創(chuàng)業(yè),開發(fā)教育平臺(tái)。2000年回到臺(tái)灣 ,在知名的軟體公司Computer Associates負(fù)責(zé)亞洲地區(qū)的合資公司業(yè)務(wù),隨后在臺(tái)灣成立供應(yīng)鏈管理公司「聯(lián)合通商eBizprise」,和在中國(guó)的子公司「eBizServe」。
2011年,薛文蔚遇到一個(gè)中國(guó)大陸大型零售商的供應(yīng)鏈預(yù)測(cè)問題。當(dāng)20萬個(gè)品項(xiàng)、上萬個(gè)通路,再加上要做100週的預(yù)測(cè)時(shí),資料共有驚人的上百億點(diǎn),如此龐大的資料量,傳統(tǒng)的資料庫無法負(fù)荷。他發(fā)現(xiàn)市場(chǎng)空缺后,找來公司裡兩位同事黃怡誠(chéng)和賴育駿,一同成立研發(fā)團(tuán)隊(duì)。
雖然本來是從供應(yīng)鏈管理的問題切入,但深入研究后薛文蔚卻發(fā)現(xiàn),這是大數(shù)據(jù)的問題。他解釋,現(xiàn)在用的資料庫技術(shù)都是1970年時(shí)提出的架構(gòu),很多理論是基于當(dāng)時(shí)的假設(shè),「但當(dāng)?shù)讓訔l件已經(jīng)改變時(shí),我們不該再用過去的模式想事情?!褂谑菆F(tuán)隊(duì)從非常底層的架構(gòu)重新思考,適合現(xiàn)在使用的運(yùn)算模式是什么。
其中最大的差異是,過去資料運(yùn)算時(shí),需先從資料儲(chǔ)存的地方如硬碟,搬到記憶體運(yùn)算后,再把資料放回去。但現(xiàn)在的資料量早已是過去的好幾千萬倍,薛文蔚打個(gè)比方:「Data的成長(zhǎng)就好像房?jī)r(jià)一樣,Code的成長(zhǎng)則好像薪水一樣?!?/span>
如果沿用過去搬動(dòng)資料的運(yùn)算方式,大多時(shí)間都是花在「搬移」上,因此核桃運(yùn)算主張透過不搬動(dòng)的「in-place computing」運(yùn)算方式,直接把程式送到資料的所在地運(yùn)算,少了搬移動(dòng)作,資料運(yùn)算速度就會(huì)提昇很多。目前團(tuán)隊(duì)已申請(qǐng)四項(xiàng)美國(guó)專利,其中叁項(xiàng)已被核準(zhǔn)。
比起現(xiàn)有的資料庫運(yùn)算方式,核桃運(yùn)算共同創(chuàng)辦人陳元貞解釋,以目前知名的Hadoop來說,透過分散式運(yùn)算,把1部機(jī)器要算的東西放到100部機(jī)器上算,雖能提升運(yùn)算速度,但卻不是每個(gè)公司都能負(fù)擔(dān)的起部建分散式運(yùn)算系統(tǒng)。
若是非關(guān)聯(lián)式的NoSQL資料庫,數(shù)據(jù)存儲(chǔ)沒有一定的模式架構(gòu),雖然速度可以變快,但也因?yàn)椴恍韫潭J剑?dāng)要做兩者的比較分析或資料採礦就有些困難。若是傳統(tǒng)的MySQL資料庫,更是無法負(fù)荷現(xiàn)在龐大的資料量。
從2011年下半年先在母公司聯(lián)合通商旗下成立團(tuán)隊(duì)開始,眾人花了兩年半時(shí)間研發(fā),終于在今年推出產(chǎn)品「Big Object」,團(tuán)隊(duì)也在今年2月從母公司獨(dú)立。Big Object主要運(yùn)行在64 bit的裝置上,因?yàn)閽裼谩竔n-place computing」,最大優(yōu)勢(shì)就是快,運(yùn)算速度可快50倍至100倍,因此可做到當(dāng)下的即時(shí)分析。
此外,Big Object也能分析異質(zhì)性資料,不只企業(yè)本身的商務(wù)資料,也能結(jié)合open data和非結(jié)構(gòu)性資料,像是零售業(yè)者可和天氣預(yù)測(cè)或臉書貼文交叉比對(duì)?!妇拖癖揭粯?,本來你只看到交易資料,可是更多的是你沒有看到水面底下的資料,」陳元貞說。
也因?yàn)锽ig Object是很輕巧的資料運(yùn)算引擎,在未來物聯(lián)網(wǎng)時(shí)代,小至眼鏡、手錶,大到汽車、冰箱,每個(gè)裝置都能成為分析資料的機(jī)器,因此這些裝置也都可以嵌入Big Object的分析引擎,根據(jù)數(shù)據(jù)做出最優(yōu)化的預(yù)測(cè)或行動(dòng),如調(diào)整車速、冰箱溫度等。
Big Object主要針對(duì)BI產(chǎn)品(Business Intelligence,從數(shù)據(jù)分析中挖掘商業(yè)價(jià)值)或LOG分析的軟體開發(fā)商,可直接將Big Object嵌入在軟體裡,收入以授權(quán)年費(fèi)為主。目前核桃運(yùn)算已有些試用客戶,像是在臺(tái)灣就已和神坊資訊旗下的購物網(wǎng)站合作,透過Big Object計(jì)算商品間的相關(guān)性,進(jìn)而做出即時(shí)的購物推薦。
產(chǎn)品到位后,今年下半年Big Object將開始走入市場(chǎng),目前處于客戶開發(fā)階段。陳元貞表示,由于這類應(yīng)用主要在美國(guó)市場(chǎng)居多,因此今年3月團(tuán)隊(duì)也在美國(guó)註冊(cè)公司,預(yù)計(jì)今年在臺(tái)灣和美國(guó)都要各自招募十人團(tuán)隊(duì),未來臺(tái)灣負(fù)責(zé)研發(fā),美國(guó)則負(fù)責(zé)業(yè)務(wù)。
核桃運(yùn)算四位共同創(chuàng)辦人,從左至右為賴育駿、薛文蔚、黃怡誠(chéng)和陳元貞
【創(chuàng)業(yè)教我的事】找出自己的定位,在過程中隨時(shí)保有自己的判斷,尤其是對(duì)產(chǎn)品和市場(chǎng)策略的看法。
Q1. 希望提供這個(gè)社會(huì)什么價(jià)值? 最主要是提供一個(gè)快速又可負(fù)擔(dān)的分析引擎,幫助資料分析者或商業(yè)決策者,發(fā)掘出隱含在大量資料背后的資訊。
Q2. 長(zhǎng)遠(yuǎn)來看,貴公司想成為何種類型的公司?
我們希望做到「資料處理界的Intel」,未來軟體內(nèi)可以搭載BigObject的運(yùn)算核心,不管是CRM、ERP、BI或是Log分析軟體,都能透過BigObject的即時(shí)分析而有更優(yōu)化的軟體功能。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10