99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁職業(yè)發(fā)展大數(shù)據(jù)技術論壇(上):Spark、Hadoop技術成主角
大數(shù)據(jù)技術論壇(上):Spark、Hadoop技術成主角
2015-01-01
收藏

大數(shù)據(jù)技術論壇(上):Spark、Hadoop技術成主角


2014年12月12-14日,由中國計算機學會(CCF)主辦,CCF大數(shù)據(jù)專家委員會承辦,中科院計算所與CSDN共同協(xié)辦,以推進大數(shù)據(jù)科研、應用與產業(yè)發(fā)展為主旨的2014中國大數(shù)據(jù)技術大會(Big Data Tec就hnology Conference 2014,BDTC 2014)暨第二屆CCF大數(shù)據(jù)學術會議在北京新云南皇冠假日酒店盛大開幕。

2014中國大數(shù)據(jù)技術大會第二日上午大數(shù)據(jù)技術論壇上,百度大數(shù)據(jù)部副總監(jiān)薛正華和中國移動集團公司業(yè)務支撐系統(tǒng)部項目經理何鴻凌共同主持了上午的論壇。網易NTSE/TNT引擎負責人胡煒、英特爾大數(shù)據(jù)首席架構師戴金權,VMware資深業(yè)務解決方案架構師介文清,搜狐移動研發(fā)部經理劉佳, Admaster技術副總裁盧億雷5位專家主要專注于大數(shù)據(jù)技術展開演講。

大數(shù)據(jù)技術論壇主持人:百度大數(shù)據(jù)部副總監(jiān) 薛正華

大數(shù)據(jù)技術論壇主持人:中國移動集團公司業(yè)務支撐系統(tǒng)部項目經理 何鴻凌

胡煒:網易數(shù)據(jù)庫壓縮技術

12月14日,在大數(shù)據(jù)技術論壇上午的演講中,網易NTSE/TNT引擎負責人胡煒發(fā)表主題為“網易數(shù)據(jù)庫壓縮技術”的演講。胡煒認為理想中的壓縮技術應該是無論你提供哪種壓縮技術,它都應該是智能化的、在數(shù)據(jù)的壓縮、解壓以及在壓縮數(shù)據(jù)訪問達到高效率、無論用什么方式去壓縮和解壓,都要保持靈活性。

網易NTSE/TNT引擎負責人 胡煒

對于數(shù)據(jù)庫壓縮特點,胡煒總結出五點:

  1. 無損壓縮技術。一般來說數(shù)據(jù)庫壓縮一般會采用通用算法;
  2. 數(shù)據(jù)分布影響。它代表內容的隨機性,代表了所謂壓縮的極限,其實不同的數(shù)據(jù)對采用不同的壓縮算法,可能會導致它的數(shù)據(jù)最后壓縮效果會有很大的差別。如果我是一個非常非常冗余的數(shù)據(jù),最后可能會得到非常好的壓縮效果;
  3. 硬件影響。硬件對于壓縮來說,也是一個非常重要的影響因素。因為無論是存儲,還是CPU,還是內存,隨著日新月異的發(fā)展,它其實對壓縮算法的選擇來說,會有一個非常大的導向性。
  4. 壓縮單位。壓縮單位對數(shù)據(jù)庫壓縮有非常大的影響,它可以做到像整個文件級的壓縮,或者說是一個數(shù)據(jù)表級別的壓縮,或者是做到像塊級別,頁面級別的壓縮。甚至更小到行級的,到一個屬性級別的壓縮。采用不同的壓縮單位,也相當來說對于這樣的壓縮來說,會產生比較大的不同。
  5. 吞吐率要求。數(shù)據(jù)庫壓縮對吞吐率要求非常高,無論選擇哪種算法,都不能過多地犧牲吞吐率。如果你采用文件壓縮的策略,如果每次訪問都要去解壓整個文件,那可能是一個得不償失的做法。 

最后,胡煒介紹網易大數(shù)據(jù)壓縮方式是在全局建立字典上,通過區(qū)分數(shù)據(jù)屬性進行靈活的在線壓縮、解壓,訪問效率相比傳統(tǒng)壓縮提高2倍到10倍左右。接下來,胡煒計劃通過更多的統(tǒng)計信息,實現(xiàn)采集字典的自動劃分功能。

戴金權:基于Spark軟件棧的下一代大數(shù)據(jù)分析


英特爾大數(shù)據(jù)首席架構師 戴金權

英特爾大數(shù)據(jù)首席架構師戴金權表示,大數(shù)據(jù)深入分析大致分為兩類:類似SQL數(shù)據(jù)分析,進行關系型云運算;達到實時、快速的數(shù)據(jù)分析速度。他認為,利用Spark構建下一代大數(shù)據(jù)分析,能夠為用戶構建新的應用場景及新的分析應用,并舉例說明SparkSQL結構式數(shù)據(jù)結合的方式,對

Hive和Parquat進行數(shù)據(jù)處理。

介文清:12306:改變傳統(tǒng)思路解決問題的NoSQL實踐

介文清以12306為例展開演講,介紹如何運用NoSQL建設余票查詢系統(tǒng)、訂單查詢系統(tǒng),并且,實現(xiàn)每秒1萬次訂單查詢、余票10分鐘更新一次的頻率。

VMware資深業(yè)務解決方案架構師 介文清

介文清表示傳統(tǒng)設計的系統(tǒng)架構無法解決,12306網站數(shù)據(jù)流量問題。系統(tǒng)切換時,將SQL數(shù)據(jù)庫進行抽取,送到NoSQL集群中,數(shù)據(jù)量進行并行運算,開始新舊系統(tǒng)工作負載在90%—10%之間,運行正常之后可完全放在新系統(tǒng)中運行。

劉佳:基于全網內容的新聞客戶端推薦系統(tǒng)

劉佳針對新聞客戶端遇到的內容分類質量識別圖文、視頻、音頻、游戲數(shù)據(jù)稀疏、內容冷啟動、用戶冷啟動、噪音處理:三俗內容等棘手問題的處理方式展開演講。

搜狐移動研發(fā)部經理 劉佳

首先,劉佳介紹搜狐移動端新聞推薦的兩個特點:

  1. 廣告系統(tǒng)。廣告系統(tǒng),搜狐追求轉化率、輔助指標ROI、用戶效果。
  2. 搜索系統(tǒng)。搜索引擎中,追求對內容理解、內容爬取、文本關鍵詞主題提取、文本分類、主題分類、內容索引、垃圾過濾、page rank、反作弊等等。

隨后,劉佳介紹新聞推薦系統(tǒng)中三俗內容的處理方式,他說:“推薦系統(tǒng)出現(xiàn)三俗內容,可以提高18%-20%的轉化率,雖然可以暫時提高點擊率,但是對用戶的粘性有很大的影響。我們會通用戶閱讀分布、用戶屬性分布統(tǒng)計性和精細化的分類進行篩選三俗內容。整體處理后,轉化率下降到15%,推薦總量提升20%,用戶使用頻次也有20%的提升?!?/span>

盧億雷:Hadoop在廣告監(jiān)測技術的實踐

盧億雷圍繞廣告營銷數(shù)據(jù)流程、廣告監(jiān)測技術特點、廣告監(jiān)測數(shù)據(jù)差異、廣告數(shù)據(jù)挖掘平臺架構、ADH在廣告營銷數(shù)據(jù)挖掘的特、AdMaster數(shù)據(jù)分析平臺六點展開演講。

Admaster技術副總裁 盧億雷

演講中,盧億雷表示,ADH是針對廣告行業(yè)做出來的Hadoop,他有以下五個特點:

  1. 日志信息或數(shù)據(jù)放在Hadoop里,會自動生成所需要的數(shù)據(jù)格式;
  2. 內置廣告算法,MR可以提供Hadoop服務;
  3. 對于HBase做出改造,例如項目排序、項目索引等做出相應優(yōu)化;
  4. 優(yōu)化Hadoop調度系統(tǒng);
  5. 集成Spark。

在廣告監(jiān)測數(shù)據(jù)中,盧億雷總結出:不同IP庫系統(tǒng)導致出現(xiàn)不同地域結論;監(jiān)測代碼部署時點的不同;監(jiān)測機制和指標定義的差異;移動APP較不穩(wěn)定的網絡環(huán)境等是導致數(shù)據(jù)差異的主要因素。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師考試動態(tài)
數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調,回調的第一個參數(shù)驗證碼對象,之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }