開發(fā)企業(yè)門戶網(wǎng)站友情鏈接賺錢
1.論文鏈接:Bayesian, Systems-based, Multilevel Analysis of Associations for Complex Phenotypes: from Interpretation to Decision
摘要:
遺傳關聯(lián)研究(GAS)報告的結果相對稀缺,促使許多研究方向。盡管關聯(lián)概念在GAS中處于中心地位,但關聯(lián)的概念仍然缺失;同時,各種特征子集選擇方法成為確定多元相關性的事實上的標準。另一方面,概率圖模型,包括貝葉斯網(wǎng)絡(BN)越來越受歡迎,因為它們可以學習復雜的表型描述符和異質(zhì)解釋變量之間的非傳遞,多變量,非線性關系。結合貝葉斯統(tǒng)計和貝葉斯網(wǎng)絡的優(yōu)點,提出了基于貝葉斯網(wǎng)絡的貝葉斯多層相關性分析(BN-BMLA)。這種方法允許處理多個目標變量,同時確??蓴U展性并提供多變量分析結果的多級視圖。本章討論了在GAS的背景下,在探索性數(shù)據(jù)分析、最優(yōu)決策和研究設計以及知識融合中使用基于貝葉斯BN的相關性分析。
關鍵詞:全基因組關聯(lián)研究,貝葉斯網(wǎng)絡,相關性
遺傳關聯(lián)研究(GAS)報告的結果相對稀缺,促使許多研究方向,如使用單變量貝葉斯分析和使用多變量,復雜或集成模型。盡管關聯(lián)的概念在GAS中處于中心地位,但相關的概念卻缺失了,同時各種特征子集選擇方法成為確定多元相關性的事實上的標準。另一方面,包括貝葉斯網(wǎng)絡(BN)在內(nèi)的概率圖模型越來越受歡迎,因為它們可以學習復雜表型描述符和異質(zhì)解釋變量之間的非傳遞,多變量,非線性關系。結合貝葉斯統(tǒng)計和貝葉斯網(wǎng)絡的優(yōu)點,提出了基于貝葉斯網(wǎng)絡的多層相關性分析方法。這種方法允許處理多個目標變量,同時確??蓴U展性并提供多變量分析結果的多級視圖。本章討論了在GAS的背景下,在探索性數(shù)據(jù)分析、最優(yōu)決策和研究設計以及知識融合中使用基于貝葉斯BN的相關性分析。首先,概述了各種基于BN的關聯(lián)和相關性概念。特別是,本章分析了BN和強/弱關聯(lián)以及馬爾可夫毯/邊界或相關集合之間的聯(lián)系;定義了關聯(lián)關系。然后,貝葉斯統(tǒng)計方法的優(yōu)勢,susciently表征和探索弱顯著的結果。為此,重點是設置在后驗的定義以上的關聯(lián)關系。下一節(jié)討論GAS結果中多變量相關性的貝葉斯最優(yōu)決策。在最后一節(jié)中,它表明,貝葉斯BN為基礎的方法提供了一個框架,通過各種遺傳數(shù)據(jù)分析所獲得的結果的融合。這最后一節(jié)描述了一個程序,專門用于估計后驗的復雜功能,如那些涉及的層次結構,相互關聯(lián)的假設的BN-BMLA框架。
13.1介紹
遺傳關聯(lián)研究報告的結果相對較少,導致了幾種方法,如單變量貝葉斯分析[5,52]和使用多變量,復雜或集成模型[61,65]。概率圖模型,包括貝葉斯網(wǎng)絡(BN),越來越受歡迎,因為它們可以學習復雜表型描述符(也稱為目標變量,因變量或依賴結果)和異質(zhì)性(主要是遺傳)解釋變量(輸入變量,因子或預測因子,也稱為統(tǒng)計學中的屬性或特征)之間的非傳遞性,多變量,非線性關系。我們在這里討論傳統(tǒng)的統(tǒng)計關聯(lián)的局限性,并展示如何使用所謂的輸入變量與一個或多個目標變量的相關性的概念來規(guī)避它們。我們將在13.2.1小節(jié)中說明關聯(lián)性是聯(lián)想的一個有用的擴展。最近,我們提出了基于貝葉斯網(wǎng)絡的貝葉斯多層相關性分析(BN-BMLA),它結合了貝葉斯統(tǒng)計和貝葉斯網(wǎng)絡的優(yōu)點[4]。此外,這種方法允許調(diào)查多個目標變量,并提供可擴展的單變量強相關性和完全多變量相關性之間的中間水平,以解釋部分多變量水平的結果。因此,BN-BMLA提供了多變量分析的多層次視圖。我們討論了BN-BMLA相關性分析在數(shù)據(jù)探索、最優(yōu)決策和知識融合中的應用。
首先,我們概述了BN的一些結構特性,特別強調(diào)了13.2節(jié)中基于系統(tǒng)的相關性分析。第13.3節(jié)展示了貝葉斯統(tǒng)計方法在表征和探索弱顯著性結果方面的優(yōu)勢。在13.4節(jié)中,我們討論貝葉斯決策理論在GAS中的應用。在第13.5節(jié)中,我們將討論數(shù)據(jù)分析結果的貝葉斯解釋和融合。在本章中,我們還考慮了貝葉斯推理的實踐和計算方面:我們應用了哮喘領域中描述的方法。
13.2基于貝葉斯網(wǎng)絡的關聯(lián)和相關概念
關聯(lián)的概念在遺傳關聯(lián)研究中缺失,盡管這一概念處于中心地位。因此,各種特征子集選擇(FSS)方法成為量化多個變量及其相互作用的聯(lián)合相關性的事實上的標準,這將被稱為多變量相關性(對于FSS的概述,讀者可以參考[48])。在本節(jié)中,我們將討論如何使用貝葉斯網(wǎng)絡的結構屬性來定義這些概念。
13.2.1關聯(lián)性和強相關性
將標準統(tǒng)計成對關聯(lián)(單變量情況)擴展到多對一或多對多關系(多變量情況)是一項具有挑戰(zhàn)性的任務,因為可以制定多個目標,例如評估多個預測因子的預測性能和相互依賴性。在識別相關變量的預測方法中,與目標變量Y的相關性在下面的包裝器框架中定義。包裝器方法的固有局限性在于,它會受到所使用的預測模型類別、優(yōu)化算法、數(shù)據(jù)集以及量化錯誤和遺漏發(fā)現(xiàn)的損失函數(shù)的影響[32]。病例對照研究中的一個典型例子是使用梯度下降法進行邏輯回歸,以最大限度地減少誤分類錯誤,可選地使用復雜性正則化,以最大限度地減少給定數(shù)據(jù)集的過度。相關性類型的標準條件概率版本沒有模型類、優(yōu)化、數(shù)據(jù)集或損失函數(shù),定義如下:
13.2.2穩(wěn)定分布、馬爾可夫覆蓋層和馬爾可夫邊界
13.2.3其他相關類型
對于因果馬爾可夫假設下的因果解釋,讀者可以參考[26,42]。需要強調(diào)的是,這些關系代表了相關性的不同方面,并且由于多個目標變量的可能性和非遺傳預測因子的可能性,它們在遺傳學中的使用存在微妙的差異。根據(jù)通常的遺傳術語[15],直接相關性(DR)正式確定了直接關聯(lián)的概念,盡管它也涵蓋了直接后果。間接因果關聯(lián)(ICR)和混淆關聯(lián)(CR)是區(qū)分和表達間接關聯(lián)和混淆關聯(lián)的概念。成對聯(lián)想(A)代表通常的聯(lián)想,它是直接、間接和混雜聯(lián)想的結合。互動主義相關性(IR)偏離了純粹的上位關系[16],因為后者是個體變量的邊緣效應消失的結果,可以通過上下文依賴來建模(見定義13.5,第325頁)。總之,成對關聯(lián)和強關聯(lián)的標準概念之間最顯著的區(qū)別是關聯(lián)包括某些形式的弱關聯(lián)(即,混淆相關性(ConfR)和傳遞性因果相關性(TCR)),并且它不包括由互動主義相關性所代表的情況。一個直接的后果是,只在互動主義相關性的預測將被篩選出典型的高維研究中的成對方法,因為它們不相關的定義。還要注意,這些關系中的大多數(shù)并不相互排斥,例如,一個預測因子可能同時具有直接和間接效應,這也可能是混淆的。這些關系的概述如圖13.2所示。這些相關性類型的應用在第13.3.6小節(jié)中描述。
迄今為止,相關性的定義是基于條件獨立性的一般概念,但當獨立性僅存在于給定上下文中時,可以通過引入上下文獨立性來使條件獨立性變得更加具體(對于其在BN領域的使用,讀者被稱為例如,[6])。在遺傳學中,如果一個變異對給定的目標沒有影響,除非存在其他變異,這種表示可以表達一種相關的,看似互補的現(xiàn)象[14,45]。
13.2.4強相關的必要子集和充分超集
MBM特征分別給出了每個預測因子的強相關性的總體表征,但沒有捕獲預測因子的聯(lián)合相關性。在另一個極端,馬爾可夫邊界子集的特點聯(lián)合強相關的預測,但可能的MB集的數(shù)量是指數(shù),這是難以處理的計算和統(tǒng)計。引入了k元馬爾可夫邊界子集的概念,專注于k大小的變量集,以支持強相關性的約束多變量分析,稱為相關性的部分多變量分析[4]。在這里,我們用類似的超相關性概念來補充這個次相關性概念。
這些概念在哮喘問題領域的應用如圖13.3所示。
13.2.5多個目標的相關性
如果有多個目標變量Y必須一起檢查,并且如果它們之間的關系不相關,則可以要求與目標集相關的變量。單個目標變量的相關性的基本概念可以很容易地擴展到多個目標[4]。
定義 13.7
如果變量Xi?對Y強相關(弱相關),當且僅當它對Y中的任何Yi?強相關(弱相關)。
我們引入了額外的關系,例如獨占或多重相關性,以便更好地描述預測變量與多個目標變量之間的相關性類型。相應的定義在表13.2中給出,使用貝葉斯網(wǎng)絡表示。我們引導讀者參閱第13.3.6小節(jié)以了解這些關系在哮喘和過敏研究中的應用。
13.3復雜表型相關性的貝葉斯觀點
貝葉斯網(wǎng)絡表示,沿著馬爾可夫毯集和強相關性的概念,開辟了特征學習、特征子集選擇問題和遺傳關聯(lián)研究中的許多研究方向[48]?!斑^濾器”方法,后來被稱為“局部因果”方法,起源于馬爾可夫毯集(MBS)和強相關性[1,10,34,63,28]。然而,盡管快速發(fā)展的方法,旨在確定一個最佳的MBS,在頻率論框架中的最佳MBS的全局意義,以及在貝葉斯框架中的主導MBS的缺乏,仍然被忽視。
貝葉斯方法在遺傳關聯(lián)研究中越來越受歡迎,因為它們能夠成功地表征和探索弱顯著性結果并科普多個假設檢驗(一般方法見[18,24];對于GAS的應用見[52];對于方法見[19,35,65])。
13.3.1估計復雜特征的后驗
MCMC過程生成L個DAG的依賴序列DL^G。使用MCMC模擬,我們根據(jù)公式(13.7)估計目標變量的MBG后驗,見第13.3節(jié)(第328頁)。在每個MCMC步驟中,我們確定與該步驟中的DAG G相對應的邊界圖bd(Y,G),并更新該邊界圖的相對頻率。(We回想一下,邊界圖bd(Y,G)的存在以概率1意味著相應的變量是馬爾可夫邊界,見13.2.2小節(jié)。表13 - 1中所有成對關系的更新類似(見第13.2.3頁第13.2.3小節(jié))和表13.2(見第13.2.5節(jié),第13.2.5頁);在每個MCMC步驟中對每個可能的變量對評估這些關系,并且因此在整個MCMC采樣中為給定關系的每個可能的實例化維護計數(shù)器。注意,對目標變量的選擇沒有實際限制,即,在同一MCMC模擬中,我們可以同時評估多個目標集。本章討論的結構特征評估及其相對頻率更新的計算復雜度為O(n)(n表示變量的數(shù)量)。在具有多個描述符的復雜表型的情況下,我們可以將描述符一起用作聯(lián)合目標集,并且每個描述符單獨使用。一個偶爾實用的反演是選擇一個預測變量作為目標,因為我們可以探索與這個預測變量相關的所有表型(關于這種反演在頻率論框架中的應用,見[34])。因此,評估的特征集可以完全滿足執(zhí)行分析的專家的需求、查詢或先入為主的觀念。
在第二個“事后”階段,我們從第一階段估計的MBG后驗中計算各種MBS相關的邊緣后驗。MBS和MBM后驗是根據(jù)估計的MBG后驗精確計算的,類似于公式(13.5)(見第13.3節(jié),第328頁)。給定k-subMBS集或k-supMBS集的后驗可以根據(jù)公式13.9和13.10直接從MBS后驗計算(見第13.3.4節(jié),第13.3.4頁)。為了找到高度可能的k-subMBS和k-supMBS集合,我們應用貪婪算法,因為這些集合的基數(shù)多項式增長()。在k-subMBS的情況下,貪婪搜索的起始狀態(tài)是空集,其可以被視為概率為1的平凡的0 subMBS。該算法將該集合擴展為最大17 O(n的k次方)的(k+1)-subMBS,在后面的在k-supMBS的情況下,搜索的初始狀態(tài)是完備集U,算法從完備集U中迭代地消除預測因子,以獲得具有最大后驗的(k-1)-supMBS。
在MCMC模擬中,我們還計算了各種復雜特征后驗的收斂性和置信度的定量度量。以下一組度量可以被視為標準集:
-
Geweke Z分數(shù),測量單個鏈內(nèi)的收斂性,即采樣開始和結束時后驗差異的顯著性[24]。
-
Gelman-Rubin R分數(shù),測量鏈間收斂性,即獨立采樣過程差異的顯著性[24]。
-
置信區(qū)間,基于MCMC的標準誤差[18]。
圖13.4展示了所應用的MCMC采樣相對于燒入期的收斂性。請注意,這些度量對于每個特征是不同的,即MBM后驗的估計通常比3-subMBS后驗或MBG后驗的估計要快。這些度量的值是在MCMC模擬的每一步l中使用步驟1到l的MCMC樣本計算的。
下面,我們將通過一個案例研究來演示該方法的應用。該研究涉及來自匈牙利(高加索)人群的1201名無關個體。436名3 ~ 18歲的哮喘兒童被招募參與本研究。對照組由765例受試者組成(平均年齡:19歲,405例男性/360例女性)。我們使用了三個嵌入式數(shù)據(jù)集:(1)所有病例的哮喘狀態(tài)已知(1201例受試者,數(shù)據(jù)集A);(2)在1100例病例中,鼻炎的狀態(tài)也是已知的(數(shù)據(jù)集RA)(只有那些鼻炎狀態(tài)已經(jīng)過專家艾德的受試者);(3)在200例病例中,鼻炎的狀態(tài)以及IgE和嗜酸性粒細胞的血清水平也在該數(shù)據(jù)集中已知(數(shù)據(jù)集CLI)。
13.3.2完全多變量分析數(shù)據(jù)的充足性
不管貝葉斯條件方法(例如貝葉斯邏輯回歸)或基于BN的方法,預測器集合的后驗概率分布指示它們相對于所選模型類的聯(lián)合相關性(如在BN情況下的MBS后驗)通常適用于當代GAS的設置,因為樣本量,預測因子數(shù)量,效應大小,模型復雜度包括先驗。圖13.5顯示了這樣的MBS后驗概率,從最大后驗概率MBS到最小概率MBS,它表明有幾個集合的概率僅略低于MAP集合。這也表明,MAP MBS不是主導的,因為它的后驗是可以忽略不計的。此外,圖13.5中的累積分布函數(shù)也表明沒有占主導地位的MBS,即,缺乏少量具有高后驗的MBS,使得它們的后驗總和接近于1。需要強調(diào)的是,這些結果是數(shù)據(jù)的力量而不是先驗的結果;因此,它們也表明在頻率論的最大似然方法中缺乏占主導地位的最優(yōu)模型。在數(shù)據(jù)集RA和哮喘目標變量的情況下,MAP集僅具有0.010688的概率。由于樣本量較小,當哮喘和鼻炎是目標變量時(即,多目標分析),MAP集的概率甚至更低,即0.007626。這種現(xiàn)象在數(shù)據(jù)集CLI的情況下甚至更明顯,其中MAP集的相應概率分別為0.001496(哮喘目標)和0.000073(多目標)。這些MBS后驗與我們早期的模擬結果一致[4],這表明200大小的樣本通常會導致非常小的后驗分布(“小樣本量”),而1000大小的樣本對應于“中等樣本量”,相對于我們的100個變量的設置,這在候選GAS和部分基因組篩選研究中是典型的。
13.3.3學習率:特征和模型復雜度的影響
在給定層級上后驗的相對平坦通常表明信息量不足,即存在高度的不確定性;因此,給定層級可能不適用,例如在給定的k值以上,MBGs、MBSs或k-subMBSs/k-supMBSs層級可能不適用。后驗分布的一般不確定性可以通過其熵來表征,對于平坦的、幾乎均勻的、非信息性的后驗分布,熵會很高。圖13.7展示了不同模型大小和樣本大小下MBM和MBS特征分布的熵。
圖中所示的趨勢。13.8和13.9(第336頁)總結于表13.3(第336頁)。對于每個性能指標,可以選擇可接受的和非常好的性能的閾值,這允許將“小”和“大”樣本量定義為達到這些閾值的最小樣本數(shù)。在我們的案例中,可以使用給定的變量數(shù)量和模型復雜度來選擇這些閾值,如下所示:AUC為0.6和0.9,靈敏度為0.1和0.5,錯誤發(fā)現(xiàn)率為0.5和0.1。對于給定的樣本量,選擇最優(yōu)決策閾值的逆問題將在13.4節(jié)討論。相對適中的性能和相對較高的“小”和“大”樣本量是參考模型M0中豐富的弱關聯(lián)的結果
13.3.4基于貝葉斯網(wǎng)絡的貝葉斯多層次相關性分析
在第13.2.1小節(jié)(第320頁)中,我們定義了可用于推斷強相關變量的不同相關性類型,這些類型可以彼此獨立(MBM)或在一個完整集合中聯(lián)合(即,在MBS中)。此外,在基于MBG的相關性類型的情況下,甚至可以研究這些強相關變量之間的相互作用。在本節(jié)中,我們提供了這些相關性類型的一些特征,并展示了如何在遺傳關聯(lián)研究中使用它們來推理預測因子的相關性。
圖13.10顯示,基于MBM的近似只允許進行粗略的定量估計,并且相應的排名差異顯著(當樣本相對較小時,這種差異在大多數(shù)實際情況下尤為明顯)。
貝葉斯多層次相關性分析引入了可擴展的中間層次,以提供多個層次的綜合視圖。它的動機是觀察到,即使當MBG和MBS后驗分布是在最可能的MBS和MBG共享顯著的共同模式。我們引入了次相關性的概念,在本章中表示為k-subMBS(參見定義13.6(第326頁)和[4]),以表征公共元素。通常,這些常見變量存在于具有高后驗的MBS中,并且它們通常具有更大的效應大小。子集s的次相關性的后驗概率為:
我們展示了使用的k-subMBS概念在哮喘領域。在這一領域,MBS后驗分布是非常粗糙的,而MBM后驗分布是非常粗糙的,這表明在中間水平的k-subMBS的分析可以unhinge重要的結果。因此,我們評估了圖13.11所示的部分多變量結果。在k = 1,2,3,4的情況下,高的最大后驗概率(對應于相對粗糙的后驗分布)表明樣本量足以推斷這些變量是強相關的。相比之下,對于k > 4,最大后驗多元特征是弱顯著的。這些結果與預期一致,即隨著特征基數(shù)的增加,后驗分布逐漸趨于穩(wěn)定。對應于多項式增加基數(shù)的k-subMBS橋的后驗差距之間的差距的MBS和MBM后驗的特點是存在許多峰。
13.3.5多個目標變量的后驗
以PTGDR基因中的rs 17831682 SNP為例(參見圖13.3中的PTGDR(1)),我們證明了多靶點方法的主要優(yōu)勢,即它允許我們區(qū)分多靶點相關性的亞型,這在之前的表13.2中進行了總結。當忽略多目標相關性時,強相關性的后驗(即,rs 17831682對IgE(水平)、嗜酸性粒細胞(水平)、鼻炎和哮喘的MBM后驗值分別為0.58、0.52、0.53和0.53,這表明與每個靶點的適度相關性。與其中至少一個強相關的后驗概率(表13 - 2中的MBMToAny關系)更高:0.71(根據(jù)公式(13 - 13)近似為0.95)。然而,rs 17831682僅與IgE、嗜酸性粒細胞、鼻炎或哮喘(MBMToExactlyOne關系)強相關的后驗概率分別僅為0.06、0.04、0.05和0.05,這表明該SNP可能與多個靶點相關。這一假設也得到了后面的支持,即該SNP與其他靶點強相關,但與IgE、嗜酸性粒細胞(水平)、鼻炎或哮喘(MBM與其他相關)不相關:分別為0.37、0.42、0.42和0.42。最后,rs 17831682作為多個表型靶點的相關SNP(MultipleMBMs關系)的后驗概率較高(0.51),表明該SNP與靶點集強烈相關,并且該SNP在多種機制中發(fā)揮作用。
13.3.6強相關和弱相關的子類型
不同類型的相關性之間的區(qū)別對于揭示將相關SNP與其目標變量聯(lián)系起來的可能因果和機制路徑至關重要。估計各種相關性類型的后驗概率使我們能夠決定SNP是否直接相關或其關聯(lián)由其他因素介導或兩者兼而有之。我們展示了在數(shù)據(jù)集RA上進行的BNBMLA分析中相關類型的解剖,其中包含兩個表型變量:哮喘和鼻炎。使用哮喘作為唯一目標,估計每個SNP的以下后驗:直接因果相關性(DCR),關聯(lián)(A),強相關性(SR),相互作用相關性(IR)和間接因果相關性(ICR)。表13.4顯示了一些SNP的相應后驗。
在我們當前的例子中,SNPs可以聚類為四組,如圖13.14所示(第13.3.7頁)。注意,關聯(lián)、直接關聯(lián)、傳遞關聯(lián)和互動主義者關聯(lián)都是復雜的、潛在重疊的事件(見圖13 - 2)。SNPs AHNAK(2)和TXNDC 16(1)都具有中等高的強相關性后驗(0.736和0.722),但具有非常低的直接因果相關性后驗(0.029和0.08)。這意味著這些SNP與哮喘的強相關性不是由于直接的因果關系,而是由于與鼻炎的純粹相互作用相關性。此外,與哮喘的傳遞性關系的后驗相對較低(AHNAK(2)和TXNDC 16(1)的后驗分別為0.535和0.189),這一事實表明,相互作用相關性(后驗:0.708和0.713)是這些SNP與哮喘相關性的唯一相關亞型。這意味著這些SNP只有在鼻炎狀態(tài)已知時才是相關的和相關的。
相比之下,PRPF 19(1)與哮喘(0.822)不僅具有傳遞性,而且還通過直接因果關系(0.718)與哮喘相關,這表明PRPF 19(1)與哮喘之間存在兩條不同的因果關系路徑:其中一條路徑可以被其他因素阻斷,但另一條路徑不能。在第三組SNPs中,PTGDR(2)和PTGER 2(2)與哮喘的關聯(lián)概率非常高(分別為0.923和0.970),這是由中度高TCR后驗(0.747和0.604)指示的傳遞關系誘導的。請注意,所有其他后驗都相對較低,表明TCR是這種情況下唯一顯著的相關性類型。WDHD1(1)與之前組中的所有其他SNP形成對比,因為它與哮喘相關的概率很高(0.96),但其其他后驗概率均不顯著。這在純混雜關系的情況下是可能的,其中一個共同的原因影響SNP和靶標(否則它們彼此獨立)。請注意,如果傳遞依賴和混淆依賴不能區(qū)分,例如在連鎖SNP的情況下,傳遞相關組和混淆組可以合并。關于這種方法在哮喘和過敏癥中應用的更詳細的生物醫(yī)學討論,我們請讀者參考[58]。
13.3.7基于強相關后驗的交互冗余得分
圖13.15顯示了相互作用-冗余度得分。這種模型級的交互和冗余的方法形式化的直覺,相關的輸入變量與可分解的角色在參數(shù)級獨立出現(xiàn)在模型中。如果集合s的k-subMBS后驗大于其根據(jù)等式(13.8)和等式(13.9)基于MBM后驗的近似,則可以指示集合s中的變量具有表示非線性聯(lián)合效應的聯(lián)合參數(shù)化。相比之下,在ksubMBS包括冗余變量的情況下,后驗小于其基于MBM后驗的近似,因為冗余變量在模型中的聯(lián)合存在被抑制。
請注意,對應于給定靶標的相互作用冗余分數(shù)似乎與SNP之間的遺傳連鎖無關。圖13.15清楚地表明,在PTGER2基因中的rs17197和rs708502艾德的這個結構域中存在幾種基因內(nèi)、染色體內(nèi)和染色體間的相互作用。(14號染色體),PTGER 2基因中的rs12587410和DLG 7基因中的rs376966(兩個基因均在染色體14中),以及在AHNAK(染色體11)中的rs11827029和在PTGDR基因(染色體14)中的rs17831675。
13.4多元相關的Bayes最優(yōu)決策
由于多假設檢驗問題,GAS中相對較高的預測變量數(shù)量構成了嚴重的挑戰(zhàn):在單變量方法中,假設數(shù)量與變量數(shù)量呈線性關系。此外,在使用復雜模型類的多變量方法中,假設的數(shù)量可以是指數(shù)的。在頻率論框架內(nèi)出現(xiàn)了幾種方法來處理單變量和多變量背景下的多假設檢驗問題。這些方法包括校正方法、基于置換測試的方法,并涉及錯誤發(fā)現(xiàn)率(FDR)和q值等概念[54]。
由于其直接的語義,貝葉斯多變量方法對多假設檢驗問題具有內(nèi)置的自動校正:后驗通常隨著變量數(shù)量的增加和模型復雜性的增加而增加,即,在一個更復雜的假設空間中。
此外,貝葉斯決策理論框架允許關于模型屬性的最佳決策,例如結果的最佳科學報告或研究的最佳繼續(xù)(對于使用BN的貝葉斯研究設計,例如,見[2,62])。首先,我們總結了基于單變量后驗和效用的變量相關性最優(yōu)決策問題。其次,我們展示了應用貝葉斯方法構建貝葉斯FDR。第三,我們考慮使用一般的信息損失函數(shù)。
13.4.1關于單變量相關性的最優(yōu)決策
13.4.2控制FDR的最優(yōu)貝葉斯決策
分類性能的測量,如靈敏度,FDR和AUC是有價值的工具,但它們需要外部參考,即“金標準”,通常在評估環(huán)境中可用(對于最近的測量比較,請參見例如,[55])。經(jīng)典的頻率論方法還假設有一個未知的參考集,即我們數(shù)據(jù)下的“真實模型”。然而,貝葉斯框架基于貝葉斯模型平均(BMA),為缺乏參考模型提供了一個自然的解決方案。
13.4.3關于多元相關性的廣義貝葉斯最優(yōu)決策
13.5知識融合:基因與注釋的相關性
分類法的結構和先驗領域知識也可以用來細化語義相關關系。我們可以將分類法解釋為一種特殊的貝葉斯網(wǎng)絡(BN),其中局部參數(shù)模型是邏輯OR關系。在這個模型中,多變量語義強相關關系的后驗可以解釋為在葉子上有硬證據(jù)的推理過程的結果,這些葉子對應于表示分析變量強相關的指示變量。然而,這種混合預測變量(例如,SNPs)和術語的貝葉斯網(wǎng)絡表示允許整合更多的背景知識,例如,使用Noisy-OR局部參數(shù)模型,其中給定輸入的真實狀態(tài)被給定的“抑制概率”所抑制[41]。Noisy-OR模型中的參數(shù)可以表示分類法中的入度和出度,例如,如果一個給定術語被許多基因注釋,因此其入度相對較高,那么參數(shù)被設置為較小值以充分建模術語的普遍性。同樣,如果一個給定基因被許多術語注釋,因此其出度相對較高,那么參數(shù)可以設置為較小值以建模基因的更高頻率。
在圖13.20中,我們展示了從SNPs水平到基因本體生物學過程術語水平的聚合結果。從數(shù)據(jù)集A計算的MBS的后驗概率通過考慮SNPs的物理位置和功能角色聚合到基因水平。然后,我們聚合這些結果到GO術語水平,考慮基因的注釋。結果可以可視化為一個網(wǎng)絡,其中節(jié)點是功能術語,節(jié)點之間的連接對應于本體的層次結構。節(jié)點的大小與節(jié)點所代表的功能術語在所研究的生物現(xiàn)象中具有功能角色的后驗概率成正比。
13.6結論
貝葉斯方法為遺傳關聯(lián)研究中的研究設計、綜合探索性數(shù)據(jù)分析、最優(yōu)決策和知識融合提供了一個統(tǒng)一的艾德框架。概率圖模型,特別是貝葉斯網(wǎng)絡,允許分解和重組超載的關聯(lián)概念。貝葉斯框架中的貝葉斯網(wǎng)絡允許對多變量強相關性、相互作用、全局依賴性和因果關系進行后驗推理,可選地具有針對多個目標的各種專業(yè)化。此外,GAS中基于貝葉斯網(wǎng)絡的貝葉斯多級分析(BN-BMLA)允許在單變量強相關性和完全多變量相關性之間的可擴展中間水平,以解釋部分多變量水平的結果;此外,在每個水平上,相關性可以從必要性(k-subMBS)和充足性(k-supMBS)的雙重角度進行分析。
貝葉斯決策理論框架在數(shù)據(jù)探索階段的BN-BMLA結果中的應用開辟了將領域知識納入支持解釋的新可能性并且潛在地自動化有趣關系的發(fā)現(xiàn)。貝葉斯框架還允許FDR和其他績效指標的原則性和計算效率管理。
貝葉斯統(tǒng)計框架也為多假設檢驗問題提供了規(guī)范性解決方案,這是由大量的預測因子,特別是頻率論框架內(nèi)的交互數(shù)量引起的。這一說法也適用于BNs語言中定義的新關聯(lián)關系的更豐富的假設空間,如MBMs,k-subMBSs/k-supMBSs,MBSs和MBGs。在貝葉斯框架內(nèi),或多或少的后驗是大量變量和大量模型的結果,這類似于頻率論框架中的功率損失,因為大量變量和大量模型的校正。然而,這兩種方法之間有一個根本的區(qū)別,這在生物醫(yī)學應用中非常有價值:貝葉斯方法,特別是貝葉斯模型平均,為復雜假設的后驗結果的推導提供了一個規(guī)范的方法,例如k-subMBS/k-supMBS,MBSs,MBGs或語義強相關性。這在數(shù)據(jù)和知識融合中尤其重要,這是當前生物醫(yī)學/轉化研究的主要瓶頸。
盡管如此,BN特征的后驗估計,如MBM,k-subMBS/k-supMBS,MBS和MBG,仍然存在于多假設檢驗問題中,因為MCMC過程本身,即,他們的估計是在頻率論的框架下完成的。但這個問題主要與MCMC模擬的效率和長度有關,即,到DL^G中的采樣DAG,而不是到數(shù)據(jù)集DN。換句話說,貝葉斯統(tǒng)計框架將統(tǒng)計根源的多假設檢驗問題轉化為計算任務。
融合是遺傳關聯(lián)研究中公認的核心挑戰(zhàn)。隨著針對罕見變異的下一代測序技術的普及,融合的重要性將進一步增加。遺傳因素有一個分層分類法,從SNP開始,向上移動到基因,然后是GO術語和途徑。我們可以預期在表型描述符上也會出現(xiàn)類似的分層分類,例如人類表型本體論[46]。由于遺傳因素通常是預測因子,而表型描述符通常是BN-BMLA方法中的目標,因此該方法可以被視為在多個粒度和多個抽象級別上分析相關性的支持。
貝葉斯統(tǒng)計方法的直接概率語義的優(yōu)勢允許以數(shù)學上直接和生物醫(yī)學上可解釋的方式將數(shù)據(jù)分析結果與邏輯先驗知識結合聯(lián)合收割機(對于SNP水平到基因和途徑水平的BN-BMLA結果的聚合,參見[36,58,59])。除了通過聚集將后驗傳播到上層之外,它還允許構建貝葉斯數(shù)據(jù)分析知識庫,以支持多個數(shù)據(jù)分析的弱顯著性結果的融合。
參考文獻
略