
提起大數(shù)據(jù),相信大多數(shù)人并不陌生,但對于大數(shù)據(jù)的有效應用大家更多的是處在摸索和嘗試階段。特別是一些中小企業(yè)往往把大數(shù)據(jù)建設想象得過于龐大,而對大數(shù)據(jù)望而卻步。這種假象這很大程度掩蓋了中小企業(yè)依靠數(shù)據(jù)來挖掘市場潛力的機會。
圖1 大數(shù)據(jù)在百度遷徙圖上的應用
大數(shù)據(jù)拓展企業(yè)的商業(yè)機遇
根據(jù)IDC研究,2012年全球使用了超過2.8兆GB的數(shù)據(jù),然而只有1%數(shù)據(jù)中的一般進行了有意義的分析。但這微不足道的比例,也足以讓大家注意到大數(shù)據(jù)的重要性和潛力。事實證明,大數(shù)據(jù)的迅速增長及相關技術的發(fā)展正在給企業(yè)帶來全新的商業(yè)機遇。
據(jù)《麻省理工學院斯隆管理評論》和IBM商業(yè)價值研究院聯(lián)合舉行的2011年新智能企業(yè)全球高管調(diào)查和研究項目指出,絕大多數(shù)企業(yè)都已抓住了這些機遇。2011年,58%的企業(yè)已經(jīng)將分析技術用于在市場或行業(yè)內(nèi)創(chuàng)造競爭優(yōu)勢,而2010年這一比例僅為37%。值得注意的是,采用分析技術的企業(yè)持續(xù)超越同行的可能性要高兩倍。
面對大數(shù)據(jù)可能帶來的商業(yè)機遇,中小企業(yè)為什么會望而卻步呢?其實這是把大數(shù)據(jù)廣義化的結(jié)果。從廣義的大數(shù)據(jù)建設來講,其涉及的技術要求、耗資成本、人力匹配等要素對一般中小企業(yè)來講存在很大的挑戰(zhàn)性。即使有大數(shù)據(jù)建設意愿,因為沒有成熟的系統(tǒng)架構(gòu)理念,也使得老板們無從下手。
其實,企業(yè)的數(shù)據(jù)可以分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)3種類型。而其中,85%的數(shù)據(jù)屬于廣泛存在于社交網(wǎng)絡、物聯(lián)網(wǎng)、電子商務等之中的非結(jié)構(gòu)化數(shù)據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生往往伴隨著社交網(wǎng)絡、移動計算和傳感器等新的渠道和技術的不斷涌現(xiàn)和應用。在這些數(shù)據(jù)中,僅依托社交網(wǎng)絡而存在的數(shù)據(jù)對企業(yè)開拓新的市場需求就是一個巨大的機遇。如果企業(yè)能夠從這些依托社交網(wǎng)絡的數(shù)據(jù)(如網(wǎng)民對某行業(yè)的議論、某種需求訴求、某產(chǎn)品功能吐槽、電子網(wǎng)站上價格、媒體上的某新產(chǎn)品發(fā)布會等等)中獲取新的洞察力,并將其與已知業(yè)務的各個細節(jié)相融合,挖掘用戶需求點,創(chuàng)新產(chǎn)品,這就是機遇,也是競爭力。
以房產(chǎn)行業(yè)為例。假如房企有效采集到論壇、微博、博客、貼吧、新聞跟帖上網(wǎng)關于住房話題議論數(shù)據(jù),如民對房屋設計、小區(qū)環(huán)境、家居質(zhì)量、交通情況、個人住房需求偏好以及用戶賬號的個人注冊信息等,就可以從中分類分析不同年齡段、性別、地區(qū)的客戶消費偏好、消費能力,以此為依據(jù)去了解區(qū)域市場的需求,肯定會有別樣的收獲。
大數(shù)據(jù)在挖掘市場新需求上的應用
雖然,大數(shù)據(jù)在國內(nèi)應該還處在探索和嘗試階段,但是一些行業(yè)巨頭進軍大數(shù)據(jù)的步伐從未停滯。從阿里巴巴到騰訊,從無印良品到海爾和小米,他們都在通過各種不同的方式或形式投身于大數(shù)據(jù)應用中。雖然這些企業(yè)分布在不同行業(yè),但它們都有一個共同的特點,那就是在利用互聯(lián)網(wǎng)思維和大數(shù)據(jù)有效地為客戶提供更符合需求的產(chǎn)品。
拿房地產(chǎn)巨頭之一的萬科來說。萬科在客戶行為數(shù)據(jù)調(diào)查中發(fā)現(xiàn),移動互聯(lián)時代家里的網(wǎng)絡WiFi必不可少,但經(jīng)常會出現(xiàn)每個房間WiFi信號強度有別的尷尬,因此在其樓房中統(tǒng)一配備了WiFi增強系統(tǒng);同時,因為現(xiàn)在很多年輕人變得很宅,習慣在沙發(fā)上坐一整天,于是設計了“土豆位”的概念,迎合3C時代年輕人的生活習慣。而在社區(qū)配套服務上,萬科更嘗試讓業(yè)主、客戶可以在社區(qū)建設之初就參與到社區(qū)配套的設計和運營上來,引入時下最新的互聯(lián)網(wǎng)概念 “眾籌”,根據(jù)業(yè)主需求未來有可能實現(xiàn)“眾籌”健身房、超市、美容院等。
同樣,這種從網(wǎng)絡數(shù)據(jù)中挖掘新的市場需求的做法也適用于婚戀公司。比如,作為一家婚戀網(wǎng)站,百合網(wǎng)不僅需要經(jīng)常做一些研究報告,分析注冊用戶的年齡、地域、學歷、經(jīng)濟收入等數(shù)據(jù),即便是每名注冊用戶小小的頭像照片,這背后也大有挖掘的價值。百合網(wǎng)研究規(guī)劃部李琦曾經(jīng)對百合網(wǎng)上海量注冊用戶的頭像信息進行分析,發(fā)現(xiàn)那些受歡迎頭像照片不僅與照片主人的長相有關,同時照片上人物的表情、臉部比例、清晰度等因素也在很大程度上決定了照片主人受歡迎的程度。例如,對于女性會員,微笑的表情、直視前方的眼神和淡淡的妝容能增加自己受歡迎的概率,而那些臉部比例占照片1/2、穿著正式、眼神直視沒有多余pose的男性則更可能成為婚戀網(wǎng)站上的寵兒。
網(wǎng)絡信息數(shù)據(jù)的特點及存在形式
拋開以其他形式存在的結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)不說,單單以基于社交及新聞媒介存在的信息數(shù)據(jù)而言,其就表現(xiàn)出以下三個特點。
第一,數(shù)據(jù)呈現(xiàn)類型繁多。拜互聯(lián)網(wǎng)和通信技術近年來迅猛發(fā)展所賜,如今的網(wǎng)絡數(shù)據(jù)類型早已不是單一的文本形式,還包括辦公文檔、文本、圖片、XML、HTML、各類報表、圖像、音頻、視頻、數(shù)字等等各種豐富的數(shù)據(jù)信息,這對對數(shù)據(jù)的抓取及處理能力提出了更高的要求。
第二,數(shù)據(jù)量巨大。大數(shù)據(jù)到底有多大?一組名為“互聯(lián)網(wǎng)上一天”的數(shù)據(jù)告訴我們,一天之中,互聯(lián)網(wǎng)產(chǎn)生的全部內(nèi)容可以刻滿1.68億張DVD;發(fā)出的郵件有2940億封之多(相當于美國兩年的紙質(zhì)信件數(shù)量);發(fā)出的社區(qū)帖子達200萬個(相當于《時代》雜志770年的文字量)。一分鐘內(nèi),微博推特上新發(fā)的數(shù)據(jù)量超過10萬;社交網(wǎng)絡“臉譜”的瀏覽量超過600萬……
第三,“碎片化”傳播。自媒體時代的社交媒介。沒有任何的組織目標和指導方針,它的“碎片化”信息數(shù)據(jù)傳播迎合了社會信息化的進程,反應了信息數(shù)據(jù)的時效性、即時性、反饋性。散布在世界各地的微博主隨時傳播著產(chǎn)品信息和評論,見證著企業(yè)各種活動,評論產(chǎn)品的好壞等,以一種旁觀和參與兼顧的姿態(tài)記錄對自己接觸的所有事物的認知、建議、訴求、情緒。
隨著網(wǎng)絡社交在線的互動性、便捷性增強,在社會化媒體進行評級、撰寫點評、博文、點贊,產(chǎn)生大量的非結(jié)構(gòu)性數(shù)據(jù)和碎片化數(shù)據(jù),那么這些流傳于網(wǎng)絡的信息數(shù)據(jù)會是以什么樣的形成存在呢?就拿上文中談到的房地產(chǎn)數(shù)據(jù)來說,這些數(shù)據(jù)完全可以來源于網(wǎng)絡房產(chǎn)類話題的網(wǎng)友議論內(nèi)容,比如微博上網(wǎng)友在討論住房是提到的對wifi的信號的訴求;論壇上房產(chǎn)頻道網(wǎng)友住房不布置設想;貼吧上網(wǎng)友對住房小區(qū)配套設施的吐槽等等。這些網(wǎng)友的訴求、吐槽、設想信息數(shù)據(jù)分析結(jié)果,將指導產(chǎn)品的設計和社區(qū)配套的建設,包含戶型、景觀、住宅性能和鄰里空間等方面。
網(wǎng)絡大數(shù)據(jù)信息的采集和抓取
有人說,發(fā)現(xiàn)知識正是大數(shù)據(jù)的真正價值,僅僅存儲數(shù)據(jù)而不去挖掘內(nèi)在信息并沒有意義。但是,作為發(fā)現(xiàn)知識的必要條件,如何獲取這些支撐我們?nèi)ネ诰騼?nèi)在信息的數(shù)據(jù),是企業(yè)建設大數(shù)據(jù)的基石。
Web是一個巨大的資源寶庫,目前頁面數(shù)目已超過800億,每小時還以驚人的速度增長,里面有你需要的大量有價值的信息,例如潛在客戶的列表與聯(lián)系信息,競爭產(chǎn)品的價格列表,實時金融新聞,供求信息,論文摘要等等??墒怯捎陉P鍵信息都是以半結(jié)構(gòu)化或自由文本形式存在于大量的HTML網(wǎng)頁中,很難直接加以利用。
面對類型繁多、數(shù)量巨大以及碎片化的網(wǎng)絡信息數(shù)據(jù),如何能對這些數(shù)據(jù)的有效、準確、全面采集是企業(yè)大數(shù)據(jù)戰(zhàn)略的一個重要組成部分之一。以樂思網(wǎng)絡信息采集系統(tǒng)的功能為例,系統(tǒng)可以根據(jù)用戶自定義的任務配置,批量而精確地抽取因特網(wǎng)目標網(wǎng)頁中的半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),轉(zhuǎn)化為結(jié)構(gòu)化的記錄,保存在本地數(shù)據(jù)庫中,用于內(nèi)部使用或外網(wǎng)發(fā)布,快速實現(xiàn)外部信息的獲取。
通過自定義任務配置,實施目標網(wǎng)站信息自動抓取,實現(xiàn)HTML頁面內(nèi)各種數(shù)據(jù)的采集,如文本信息,URL,數(shù)字,日期,圖片等;對每類信息自定義來源與分類;下載圖片與各類文件;對于登陸網(wǎng)友實現(xiàn)用戶名與密碼自動登錄,并可以Windows任務計劃器配合,定期抽取目標網(wǎng)站;智能替換去除與內(nèi)容無關部分如廣告;實現(xiàn)多頁面,多篇、多段文章內(nèi)容自動瀏覽及自動抽取與合并;實現(xiàn)數(shù)據(jù)直接進入數(shù)據(jù)庫而不是文件中,直接或模擬提交表單;實現(xiàn)所有主流數(shù)據(jù)庫:MS SQL Server, Oracle, DB2, MySQL, Sybase, Interbase, MS Access數(shù)據(jù)匹配。
廣義的大數(shù)據(jù)建設我們力不從心,但這并不能阻擋我們應用網(wǎng)絡大數(shù)據(jù)挖掘企業(yè)新的市場需求的步伐。通過收集企業(yè)外部信息,包括與本公司相關的信息,與競爭對手相關的信息,行業(yè)信息,價格信息,與合作伙伴相關的信息,用戶網(wǎng)上反饋的各種信息,科研技術信息,用戶家庭月收入、存款及還款信息,來自于零售商業(yè)、服務業(yè)的個人消費開支結(jié)構(gòu)信息,從而先于行業(yè)、競爭對手鎖定客戶的需求,加快銷售節(jié)奏,實現(xiàn)銷售目標。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-14t檢驗與Wilcoxon檢驗的選擇:何時用t.test,何時用wilcox.test? t 檢驗與 Wilcoxon 檢驗的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導白皮書) 發(fā)布機構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07