
創(chuàng)建大數(shù)據(jù)公司之前你需知曉5件事
大數(shù)據(jù)現(xiàn)如今如火如荼的在開展,但是成立一個大數(shù)據(jù)公司也是困難重重。Infochimps的收購讓我想起那些因第二輪融資未實現(xiàn)而關(guān)閉的公司。Drawn to Scale,Ravel Data和Nodeable只是被關(guān)注的重點而已,但是我堅信還存在更多沒有走進我們視野倒閉的公司。
取代為這些創(chuàng)業(yè)失敗的公司惋惜,我更傾向于從那些成功或者倒閉的大數(shù)據(jù)公司上提取經(jīng)驗并提供給那些準備開始自己旅程的創(chuàng)始人。下面有很多的解釋,但是簡而言之:明智的選擇好你的戰(zhàn)場,明智的選擇你的客戶,并圍繞你的技術(shù)建設(shè)一個社區(qū)。
1. 基礎(chǔ)設(shè)施的困難性
不僅基礎(chǔ)建設(shè)工具困難,而且出售它們也同樣的困難。當你在討論諸如Hadoop、NoSQL數(shù)據(jù)庫和流處理系統(tǒng)等大數(shù)據(jù)基礎(chǔ)架構(gòu)工具時可能同樣也是困難重重??蛻艨赡軙枰芏嗟慕逃笇?,而那些付費用戶期望可能得到更多的技術(shù)支持和產(chǎn)品開發(fā)的細節(jié),從而能及時的解決他們的問題。
通常情況下,這需要很多的資金,同樣也需要在部署和支持這種系統(tǒng)和系統(tǒng)集成方面有經(jīng)驗的人才。如果你擁有這些資源,那么這將是非常完美。
作為參考,在2010年時,Greenplum在這些基礎(chǔ)設(shè)施方面投資了近1億美元,但是它仍然不夠,因此Greenpium被EMC收購。如今最具知名度的大數(shù)據(jù)公司在初創(chuàng)時都投入了與cloudrea相同或者更多的資金?;A(chǔ)設(shè)施初創(chuàng)公司只有幾百萬的種子基金,這使得它們在第一輪融資前會有一個艱難的道路。
但是你仍要去說服許多公司去部署你的產(chǎn)品而忽略它們已經(jīng)熟知或已具有相當人力和物力的公司產(chǎn)品,諸如Cloudera, Hortonworks, 10gen, Amazon Web Services, IBM, Oracle等公司。
應(yīng)用程序——無論他們專注于特定工作負載或行業(yè),或像數(shù)據(jù)可視化一樣適用于廣泛的任務(wù)——是很容易的。精心打造它們或許比較困難,但是潛在的客戶可能會馬上 看到它的使用價值,以及對比當下使用工具的優(yōu)劣。你也可以直接把它銷售到業(yè)務(wù)線,這樣避免了中間層從而減少更多的摩擦和風險。一旦你開始談?wù)撎砑踊蛱鎿Q關(guān)鍵系統(tǒng),或?qū)⒚舾袛?shù)據(jù)放到一個新地方,事情可以才能夠真正的快速運轉(zhuǎn)起來。
2. 云計算是你的朋友
重要的是,無論你是銷售基礎(chǔ)設(shè)施還是應(yīng)用程序,云僅僅是一個更有效的方式來經(jīng)營你的企業(yè)。這并不意味著需要將它交于一個云供應(yīng)商來托管,但你要把它作為一種云服務(wù)來提供給你的客戶。最終,你將對你的產(chǎn)品擁有更多的控制權(quán)和更深入的了解,因為它針對了一組特定的資源進行優(yōu)化。
這意味著沒有進入客戶賬戶并針對現(xiàn)有類型的服務(wù)器和系統(tǒng)進行設(shè)置??赡苋匀挥幸恍┒ㄖ朴靡赃B接服務(wù)與用戶其它類型數(shù)據(jù)源。然而這樣做并沒有太大的優(yōu)勢。這也意味著,公司需要將大部分的精力投入到產(chǎn)品開發(fā)上。
云計算同樣易于潛在客戶去建立伴生產(chǎn)品,這從New Relic與AWS的關(guān)系上不難看出。越容易上手、操作及變現(xiàn),就越容易證明以后它可以作為一個單獨的項目存在并擴展到更多的場景中使用。
顯然,這不可能在所有的情況下都能行得通,尤其是當你在討論企業(yè)所不希望或不能送入云中的軟件和大容量數(shù)據(jù)。事實上,較大的企業(yè)把提供云服務(wù)作為一般的傳統(tǒng)軟件給了許多的大數(shù)據(jù)初創(chuàng)公司很大的壓力。如果有利可圖,這或許是一個明智的決定,但不管怎樣,這絕不能輕視。
3. 開發(fā)者是你的伙伴
因此,為開發(fā)人員服務(wù)。如果你就像 ClearStory , Platfora , CRM的任何一員和市場應(yīng)用做分析業(yè)務(wù),那么分析師是你的朋友。無論以哪種方式,對目標客戶而進行的針對性的研發(fā)努力和營銷努力或許都會是一個好的主意。CIO看起來并不是一個很好的目標受眾。
我認為有件事Infochimps可以做的更好,如:它推動Wukong和Ironfan技術(shù)面向普通的開發(fā)用戶。 前者讓你可以像寫Ruby腳本一樣的去編寫Mapreduce和streaming作業(yè)。后者是一個Chef工具,可以讓你輕松地配置,部署和管理大數(shù)據(jù)。
我認為Infochimps和Continuuity所從事的的業(yè)務(wù)之間不只有一點的共同之處。 但是 Continuuity完全從開發(fā)者角度出發(fā),他們在宣傳語中喊出了這一點并且聲稱有更簡單的方法來使用產(chǎn)品。這意味著他們可以在做大交易的同時可以在后臺積累下大量堅實的用戶群。
4. 不要吝嗇去展示你的數(shù)據(jù)科學家
我認為展示你的數(shù)據(jù)科學家這是一場營銷運動更是一種銷售手段,但是確實至關(guān)重要。數(shù)據(jù)科學家是一些向人們展示他們數(shù)據(jù)和他們的平臺有什么可能性的人,同樣數(shù)據(jù)科學家也是人們在會議上想聽的人。 幾乎所有人都熱衷于Hadoop和NoSQL。也沒有什么必要再去討論Hadoop和NoSQL它們的優(yōu)點,同樣沒有需要去重復(fù)數(shù)量、種類等的定義談?wù)撆渲煤拖到y(tǒng)集成是重要的,但是感興趣的是少數(shù)的觀眾,除非你們在談大規(guī)模的運作。談?wù)撆渲煤拖到y(tǒng)集成是重要的,但是感興趣的是少數(shù)的觀眾,除非你們在談大規(guī)模的運作。Cloudera比它競爭對手獲得更多關(guān)注和發(fā)言的原因有很多,而其中一個就是Jeff Hammerbacher。不要只是空談去儲存或處理數(shù)據(jù)和基礎(chǔ)設(shè)施—— 能告訴我什么樣的產(chǎn)品,我可以去構(gòu)建它,什么類型的分析,我可以在其上運行。最起碼,證明你正在更廣的范圍內(nèi)去思考數(shù)據(jù)而不是僅僅用最新的方式來賣我東西。
5. 開源不是關(guān)鍵,而要把開源變成關(guān)鍵
幾乎每一個大數(shù)據(jù)初創(chuàng)公司都依賴與開源軟件。其中一些初創(chuàng)公司借用像Hadoop、Storm和其它各種類型的數(shù)據(jù)庫,另外一些則已經(jīng)創(chuàng)建開源軟件。在很多情況下這兩種情況是相互結(jié)合的。比如,為HBase添加一些功能,這些項目之所以會如此人氣,一部分的原因就是因為社區(qū)。
我從未試圖去開展一個開源運動,我認為這是一個艱難的工作。但我知道,在Github上放置一段未完成的代碼并置之不顧并不能解決問題。Facebook和谷歌可能會根據(jù)喜好隨便發(fā)布代碼,但大多數(shù)創(chuàng)業(yè)公司不應(yīng)該傲慢的認為他們的開發(fā)團隊是最棒的,已經(jīng)沒有任何東西值得他們學習。
畢竟,開源的目標是讓人們在相同的代碼上致力研究從而去改良它??雌饋砟阌斜匾叱鋈?,發(fā)揚這項技術(shù)并且解釋它為什么如此的重要,以至于吸引越來越多的人想要去破解它。這一點可能會吸引許多的開發(fā)者,但是走免費增值的路線可能會讓更多的人去嘗試使用這個產(chǎn)品,這樣他們就可以看到這種產(chǎn)品是否值得他們?nèi)ネ顿Y。
我無法計算擁有自己開源產(chǎn)品的公司數(shù)量,但是那些一直致力于開源和社區(qū)建設(shè)的公司的確很杰出。我們所說的供應(yīng)商創(chuàng)業(yè)公司如 Neo Technology 、 Concurrent 、10gen甚至是終端用戶公司,如Twitter的養(yǎng)成計劃Storm和Mesos。它們在周圍已經(jīng)建立了一個開源社區(qū),并且因此它們獲得了豐厚的回報。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11