
輿情分析:大數據中的先行產業(yè)_數據分析師
對來自互聯網的非結構化數據中隱含的輿情信息進行提煉和分析,正在大數據的第一波浪潮中創(chuàng)造出越來越大的市場空間。而如何利用從互聯網、社交網絡、移動應用等創(chuàng)新領域創(chuàng)造的、呈現出爆發(fā)式增長的海量非結構化數據中創(chuàng)造價值,是當前大數據行業(yè)最為關注的熱點話題。利用海量數據分析工具和算法對來自互聯網的非結構化數據中隱含的輿情信息進行提煉和分析,從而為政府和企業(yè)管理者的工作提供決策支持,也正在大數據的第一波浪潮之中創(chuàng)造出越來越大的市場空間。
面對互聯網上的海量信息,如何有效地發(fā)現和分析互聯網輿情,是當前各類互聯網信息系統(tǒng)必須面對的事實。2013年7月,國務院辦公廳公布的《國務院關于加快促進信息消費擴大內需的若干意見》中指出了六個方面,其中一個方面就是加大信息消費產品的供給。大數據輿情屬于互聯網信息服務產業(yè),同時也屬于目前新一代信息技術和軟件領域的熱門領域。
而在整個大數據產業(yè)之中,互聯網輿情監(jiān)測行業(yè)作為先發(fā)者也正在迎來巨大的機遇。有分析數據顯示,在中國輿情監(jiān)測軟件的市場規(guī)模將很快達到10億以上,而在未來幾年之中,輿情監(jiān)測服務產業(yè)將會進一步迎來爆發(fā)式的增長,整個市場規(guī)模將達到100億左右。
大數據市場中的引領產業(yè)
對于所有意欲在大數據產業(yè)中有所作為的IT服務商而言,互聯網輿情監(jiān)測服務的巨大商機都意味著所有市場的角逐者都會將其當做是不可能忽視的巨大餡餅。誠然互聯網輿情對信息獲取的實時性、全面性有更高的要求,因此,互聯網輿情系統(tǒng)必須能支持大數據的輿情處理,才能有效為用戶提供輿情服務。
對ISV的全才式要求
在整個互聯網輿情分析產業(yè)之中,輿情軟件主要圍繞互聯網輿情搜索與監(jiān)測進行,雖然一些廠商提出了一些面向不同政府部門的輿情系統(tǒng)改進版本,但幾乎仍是傳統(tǒng)輿情監(jiān)測的功能,僅僅是界面等有些變化。沒有體現出行業(yè)互聯網輿情海量非結構化數據處理的特點。陳宗華表示。
在他看來,政府不同的職能部門的輿情監(jiān)控功能應當有所側重,比如政府宣傳部門監(jiān)測輿情,應該是對本地域所有重大事件進行監(jiān)控,而且還有輿情導控的功能,而消防部門關注的是本地與消防有關的輿情,組織部門側重的是本地的干部監(jiān)測等。只有在深入的結合行業(yè)工作特點的基礎上,才能體現互聯網輿情處理的優(yōu)勢。
而要想做到這些,整個輿情處理系統(tǒng)必須具有很好的架構支持,比如在采集目標管理和知識庫構建上都要分公共和行業(yè)管理,而且可進行自由擴展,監(jiān)測專題的自動生成需結合行業(yè)特征進行。系統(tǒng)的功能應該是可配置的,為不同的行業(yè)配置不同的功能模塊。
因此,面對大數據輿情,系統(tǒng)的發(fā)展方向應該是面向行業(yè)的細分,比如政府版、組織檢察版、消防版、環(huán)保版、教育版等等,而且應該和行業(yè)固有工作密切結合。隨著移動終端的普及,不僅僅是給用戶提供瀏覽器或者App方式的手機客戶端,而是要研發(fā)多元化的輸入模式的搜索、精準的內容返回、個性化的搜索體驗。陳宗華說。
互聯網輿情監(jiān)控解決方案的開發(fā),需要ISV在各個前沿的技術領域具備一定的能力。在陳宗華看來,這一行業(yè)中的ISV必須有能力結合云計算、大數據、社交網絡分析、移動搜索等密切相關的技術,這樣研發(fā)出的產品才具有技術競爭力。其中,互聯網知識工程是以知識為基礎構建的互聯網智能信息系統(tǒng)。涉及到知識獲取、知識表示和知識應用等技術。
改進已有數據挖掘和機器學習技術;開發(fā)數據網絡挖掘、特異群組挖掘、圖挖掘等新型數據挖掘技術;突破基于對象的數據連接、相似性連接等大數據融合技術;突破用戶興趣分析、網絡行為分析、情感語義分析等面向領域的大數據挖掘技術。
社會網絡分析關注的焦點是關系和關系的模式,涉及到數據挖掘中的關聯分析,相關矩陣或差異矩陣的統(tǒng)計分析,社交網絡劃分,核心人物識別,信息擴展過程,圈子話題傾向分析,小世界理論,六度空間分割等方法和技術。
而智能信息處理是計算機科學中的前沿交叉學科,是應用導向的綜合性學科,其目標是處理海量和復雜信息,研究新的、先進的理論和技術。以互聯網應用為主要背景的特定領域智能信息處理,包括:大規(guī)模文本處理、多媒體信息檢索與處理、基于Web的知識挖掘、提煉和集成等。
互聯網海量信息的高效采集方法,需結合模板定制采集,更重要的是使用諸多媒體自帶的內置搜索功能,靠完全爬取多個媒體的信息技術已經很難滿足客戶的綜合需要。而監(jiān)測主題的機器理解,在監(jiān)測互聯網輿情時陳宗華,多是以專題的形式定制的,而專題在描述時有關鍵詞、短語、規(guī)則(關鍵詞及與、或關系)、一段話、若干篇文章,如何支持多種形式的主題描述,如何能自動理解用戶對主題的描述,是輿情主題監(jiān)測的首頁一環(huán)。
此外,輿情處理系統(tǒng)在采集、正文提取、排重、分詞、命名實體識別、分類、聚類、檢索、簡報專報生成、各類輿情統(tǒng)計、存儲等環(huán)節(jié)中,需要面對并行處理問題。大數據處理的核心問題是并行化處理和信息存儲,只有解決好了這些環(huán)節(jié),才能體現一個輿情處理系統(tǒng)在大數據處理上的優(yōu)勢。
即便是在各個技術領域都做好了準備,利用大數據技術搭建互聯網輿情分析系統(tǒng)對ISV而言同樣意味著重大挑戰(zhàn)。在陳宗華看來,與用戶具體工作和業(yè)務流程的結合,以及輿情處理分析過程中的安全性,是這一產業(yè)ISV所面臨最為主要的難點和挑戰(zhàn)。
行業(yè)大數據輿情系統(tǒng)開發(fā)與用戶工作的結合,研發(fā)的系統(tǒng)在業(yè)務領域,工作模式,工作流程,功能設計等環(huán)節(jié)都應與用戶的工作密切結合。他表示,此外,我們公司的互聯網輿情分析采用先進的SaaS模式提供服務,而在軟件服務過程中,輿情安全性、保密性、可追溯性都值得注意。
而對于企業(yè)本身,研發(fā)團隊的培養(yǎng)同樣是進軍這一市場所必需的關注點。大數據輿情涉及情報分析、新聞傳播、計算語言、數據挖掘、機器學習、自然語言理解、社交網絡分析、網絡安全、知識工程、信息檢索等等知識領域,如何組建一支知識結構合理、水平高的專業(yè)研發(fā)團隊是一個輿情軟件研發(fā)公司必須面對的問題。此外,企業(yè)的商業(yè)模式同樣要具有獨特價值,才能在這個新興的產業(yè)市場之中取得較大的核心競爭優(yōu)勢。
打造多維度生態(tài)圈
在基于互聯網的輿情分析產業(yè)之中,擁有發(fā)展機遇的不僅僅是分析技術的提供者。自行開發(fā)之外,IT方案商也可以通過合作的方式,將其他企業(yè)的技術用于用戶解決方案的部署。從而與提供核心技術的ISV之間,形成立體的生態(tài)合作關系。
在互聯網輿情分析領域,人民網擁有雄厚的實力和共識性的身份,他們旗下的技術團隊開發(fā)了全套基于大數據技術的互聯網輿情分析系統(tǒng),并在許多政府和大型國有企業(yè)的宣傳部門中使用,我公司也與他們建立了合作關系,將他們的解決方案在我們的智慧城市等項目中部署。南京幻方科技有限公司CEO陳哲介紹。
在陳哲看來,傳統(tǒng)行業(yè)包括物流運輸等領域受到應用開放程度限制,大數據挖掘的需求并不是特別高。而在政府和國有企業(yè)中,對輿情的分析和處理投入巨大,在政府輿情監(jiān)控的帶動下,一些大型的國有企業(yè)都參與到輿情監(jiān)測控制項目的投入中。這方面的非結構化數據分析處理解決方案市場發(fā)展前景看好。
而對于競爭力優(yōu)勢在大數據之外領域的企業(yè)而言,要想進入這一被看好的市場,采取與其他企業(yè)合作的方式,同樣能夠幫助企業(yè)獲得成功。如陳宗華所言,互聯網大數據輿情分析市場的推廣,離不開產業(yè)鏈上下游伙伴之間精誠的合作。在生態(tài)圈中,ISV最為主要的任務是推動市場更加創(chuàng)新,用更快的速度復制應用,從而把整個蛋糕做大。只有應用足夠吸引人,后面的發(fā)展才會順理成章。而將創(chuàng)新的應用與用戶個性化的需求進行結合,讓更多的政府、企業(yè)單位宣傳、市場和業(yè)務部門負責人接受這一新的技術,同樣也是貼近用戶的IT方案商最重要的任務和最核心的業(yè)務價值所在。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數據處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數據庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數據分析師:表結構數據 “獲取 - 加工 - 使用” 全流程的賦能者 表結構數據(如數據庫表、Excel 表、CSV 文件)是企業(yè)數字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數據分析師:解鎖表結構數據特征價值的專業(yè)核心 表結構數據(以 “行 - 列” 規(guī)范存儲的結構化數據,如數據庫表、Excel 表、 ...
2025-09-17Excel 導入數據含缺失值?詳解 dropna 函數的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數據分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數據差異是否 “ ...
2025-09-16CDA 數據分析師:掌控表格結構數據全功能周期的專業(yè)操盤手 表格結構數據(以 “行 - 列” 存儲的結構化數據,如 Excel 表、數據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數據分析師:激活表格結構數據價值的核心操盤手 表格結構數據(如 Excel 表格、數據庫表)是企業(yè)最基礎、最核心的數據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數據的科學計數法問題 為幫助 Python 數據從業(yè)者解決pd.read_csv讀取長浮點數據時的科學計數法問題 ...
2025-09-12CDA 數據分析師:業(yè)務數據分析步驟的落地者與價值優(yōu)化者 業(yè)務數據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數據把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數據分析師與戰(zhàn)略 / 業(yè)務數據分析:概念辨析與協(xié)同價值 在數據驅動決策的體系中,“戰(zhàn)略數據分析”“業(yè)務數據分析” 是企業(yè) ...
2025-09-11Excel 數據聚類分析:從操作實踐到業(yè)務價值挖掘 在數據分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數據中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數據解讀到決策支撐的價值導向 統(tǒng)計模型作為數據分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10