99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀差異表達(dá)與聚類分析
差異表達(dá)與聚類分析
2018-06-09
收藏

差異表達(dá)與聚類分析

在鑒定出ncRNA后,我們?nèi)绾瓮茢嗥淇赡艿纳飳W(xué)功能呢?首先對于miRNA等作用機(jī)制比較清楚的ncRNA,我們可以參考其作用機(jī)制,利用堿基互補(bǔ)等方式預(yù)測其靶標(biāo),并進(jìn)而推斷其生物學(xué)功能。然而,對于longnon-coding RNA等具體作用機(jī)制尚待明確的非編碼RNA,這個(gè)方法就不適用了。這時(shí),我們可以根據(jù)在表達(dá)調(diào)控網(wǎng)絡(luò)中,表達(dá)相關(guān)的基因往往具有功能相似性這一特征,利用表達(dá)相關(guān)來推斷其功能。具體來說,在實(shí)際研究中,我們主要關(guān)注兩類表達(dá)關(guān)聯(lián),在不同條件下差異表達(dá)的基因,以及不同條件下共表達(dá)的基因。

在不需要考慮實(shí)驗(yàn)誤差的理想世界里,差異表達(dá)基因檢測是很容易的。我們只需要直接比較不同條件下檢測出的表達(dá)量數(shù)值即可。然而,在現(xiàn)實(shí)世界中,情況要復(fù)雜的多。事實(shí)上,在真實(shí)的實(shí)驗(yàn)過程中,由于隨機(jī)誤差(andomerror)的存在,我們得到的測量值永遠(yuǎn)是一個(gè)分布而非一個(gè)定值。因此,不同條件下基因表達(dá)水平的比較實(shí)質(zhì)上是對兩個(gè)分布的比較,換句話說,除了均值之外,我們還需要考慮方差的影響。我們需要利用統(tǒng)計(jì)學(xué)的方法,基于概率模型進(jìn)行統(tǒng)計(jì)推斷。具體來說,我們需要構(gòu)建一個(gè)考慮方差的統(tǒng)計(jì)量(tatistic),而后基于這個(gè)統(tǒng)計(jì)量的零分布(NULLdistribution)來計(jì)算每個(gè)基因的p-value,最后選擇小于給定cut-off p-value的基因作為有統(tǒng)計(jì)顯著性差異表達(dá)的基因。
針對RNA-Seq數(shù)據(jù)的特定,不同研究組基于Possion,負(fù)二項(xiàng)分布等構(gòu)造了不同的統(tǒng)計(jì)量和差異表達(dá)計(jì)算的方法。由于這些方法基于不同的假設(shè),其零分布之間也存在顯著的差異,從而導(dǎo)致了最終的p-value乃至calling結(jié)果的差異。為了便于選擇合適的方法。OoronBetel等人基于多組數(shù)據(jù)集對常用的差異表達(dá)工具進(jìn)行了系統(tǒng)評估。p-value本質(zhì)上對統(tǒng)計(jì)錯(cuò)誤可能性的一個(gè)概率表示。具體來說,我們在實(shí)際中可能會碰到兩類錯(cuò)誤,一類錯(cuò)誤又稱假陽性錯(cuò)誤,指實(shí)際并沒有差異表達(dá)的基因錯(cuò)當(dāng)成了有差異表達(dá)的基因,二類錯(cuò)誤又稱假陰性錯(cuò)誤,值實(shí)際表達(dá)有差異的基因錯(cuò)當(dāng)成了沒有差異表達(dá)。

  一般來說,我們會用p-value表示一次檢驗(yàn)中發(fā)生一類錯(cuò)誤--也就是假陽性的錯(cuò)誤--的概率。在實(shí)踐中,我們通常對多個(gè)基因重復(fù)進(jìn)行統(tǒng)計(jì)檢驗(yàn)。這時(shí)就碰到多重檢驗(yàn)問題(multipletestinglssue).例如,我們對20個(gè)不同的基因一次進(jìn)行統(tǒng)計(jì)檢驗(yàn),每次檢驗(yàn)的p-value都為0.05,那么也就是說,我們每次犯錯(cuò)誤的概率是0.05,我們不犯錯(cuò)誤的概率是0.95,根據(jù)乘法原理,連續(xù)20次不犯錯(cuò)誤的概率就是0.95的20次方,約0.358。我們至少犯一次錯(cuò)誤的概率是1-0.358=0.642.也就是說,即使每次出錯(cuò)的概率都是0.05,但20次最終任由超過一半的概率至少犯一次錯(cuò)誤。這就是所謂的multipletesting issue.為了解決這個(gè)問題,最簡單的辦法就是將p-value的cut-off改的更嚴(yán)。例如,Bonferronicorrection中,會將檢驗(yàn)得到的原始p-value乘以檢驗(yàn)進(jìn)行的次數(shù)。因此,假如,我們對人類基因組3萬個(gè)基因只在原始p-value小于0.05/30000=1.67*10^-6時(shí)才將之作為差異表達(dá)基因。就可以確保及時(shí)在最糟糕的情況下,也可以確保假陽性錯(cuò)誤發(fā)生的概率小于0.05.然而,在實(shí)踐中Bonferronicorrection往往過于嚴(yán)格了。為了確保降低假陽性而抬高了假陰性錯(cuò)誤發(fā)生的概率,從而降低了統(tǒng)計(jì)檢驗(yàn)的效力(power).同時(shí),相對于全體進(jìn)行統(tǒng)計(jì)檢驗(yàn)的基因,我們在實(shí)際研究中往往更關(guān)心在已經(jīng)被標(biāo)記為差異表達(dá)的記憶中,有多少假陽性的基因。換句話說,我們關(guān)心的是FDR而不是FWER.這時(shí),可以將p-value轉(zhuǎn)變?yōu)閝-value.類似于p-value,q-value也是對統(tǒng)計(jì)錯(cuò)誤可能性的表示(measure).然而,于p-value不同的是,q-value衡量的是FalseDISCOVERYRate,對于給定的基因G,q-value給出的是在和基因g一樣或更顯著的差異基因群體中,假陽性發(fā)生的比率。
對于差異表達(dá)類似,在不同條件下共表達(dá)的關(guān)系也可以用來推斷基因的功能。對不同條件下多個(gè)基因的表達(dá)進(jìn)行聚類分析(clustering)可以幫助快速的選擇共表達(dá)基因。正確的聚類分析,不但有助于推斷基因的功能,還可以有效的發(fā)現(xiàn)基因之間存在的調(diào)控關(guān)系。距離度量是聚類方法的核心。這里的距離度量,是指用來衡量兩個(gè)基因的表達(dá)模式之間的相似程度。常用的距離衡量有歐式距離,又稱絕對距離;和Peason距離,又稱關(guān)聯(lián)距離。其中歐式距離關(guān)心的是表達(dá)量,也就是兩個(gè)基因在表達(dá)水平之間的相似程度。而相關(guān)性距離則是關(guān)心的是表達(dá)模式,也就是兩個(gè)基因在表達(dá)變化上的一致性。不同的距離度量,可以得到迥然不同的結(jié)果。
由于共表達(dá)通常是指表達(dá)的變化趨勢,因此在實(shí)際分析中關(guān)聯(lián)距離使用的頻率更高一些。在應(yīng)用Pearson距離時(shí),也要注意utlier對它的影響。由于Pearson距離以來于群體水平的協(xié)方差,如果有一些特殊的outlier,會對最終的結(jié)果產(chǎn)生極大的影響。


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }