分子遺傳學與基因治療

全文

研究文章
遺傳終生癌症風險評估模型:乳腺癌的一個案例研究

Martinez-Avila JC1 *Guillen-Ponce C2伯爵J2Garcia-Cortes拉3.

1西班牙衛生研究所" 10月12日醫院"
2西班牙馬德裏cartera Colmenar Viejo k9卡哈爾大學醫院腫瘤內科Ramón y Cajal
3.西班牙馬德裏,國家農業技術研究所,動物育種和遺傳係,Coruña k7街

*通訊作者:何塞·卡洛斯·馬丁內斯·阿維拉,西班牙馬德裏“10月12日醫院”衛生研究所SCReN(西班牙臨床研究網絡)CIBERESP(流行病學和公共衛生生物醫學研究中心網絡)電子郵件:Jcmartineza.imas12@h12o.es


摘要

為了提供準確有效的遺傳谘詢和二次篩查,評估個體遺傳癌症風險並不簡單。

我們提出了一項基於最佳線性無偏預測(BLUP)方法的明尼蘇達乳腺癌數據分析,以估計個體在其一生中發展為癌症的預測遺傳風險。該模型使用癌症狀況、出生年份(yob)、性別、最後隨訪年齡(endage)和出生次數(parity)來估計方差成分,以確定可遺傳性。這個工具也可以用於確定癌症在一個家庭中的聚集是否確實是由於遺傳或由於共同的環境因素。我們提供了一個例子,說明該模型如何在乳腺癌的背景下使用,但它可以應用於許多具有遺傳成分的癌症類型。

我們已經獲得了癌症(乳腺癌和前列腺癌)遺傳力在0.1-0.2之間的可靠估計,不同於零,以及明尼蘇達乳腺癌數據集中每個個體的癌症有意義的附加值。BLUP能夠在估計中結合臨床和病理信息,並考慮多基因遺傳模型而不是常染色體顯性模型。

BLUP提供了用於遺傳性癌症的另一種工具,並估計了癌症的遺傳程度,計算了家庭成員中癌症的個體遺傳風險和未來後代的遺傳風險的近似。此外,該工具可用於評估這些家族中遺傳性癌症的遺傳基礎,無論是由於高風險等位基因還是由於低-中風險等位基因。

關鍵字

最佳線性無偏預測;加性遺傳效應;明尼蘇達州乳腺癌遺傳性;遺傳風險;癌症風險評估;癌症風險的預測模型;預期遺傳價值

縮寫

BLUP:最佳線性無偏預測;ROH:純合子序列;HPDI:高後驗密度區間;EGV:預期遺傳價值;ROC:接收機工作特性;AUC: ROC曲線下的麵積。

簡介

大約5-10%的癌症具有遺傳成分[1],9.4%的乳腺癌病例具有受影響的一級親屬[2]。在已知的癌症基因中存在致病性種係突變意味著該個體在其一生中有更大的可能性發展為特定的癌症類型。然而,癌症易感性無疑存在很大差異,這取決於不同基因變體的遺傳以及這些基因變體如何相互作用。在基因組時代,我們正在發現更多與癌症等複雜疾病有關的基因和基因變體[3,4]。高危基因在一般人群中出現頻率較低,中低風險基因出現頻率較高。在沒有已知致病種係突變的情況下,很難評估癌症風險,特別是當受試者在這些基因中含有未知意義的變異時。仍有許多中低風險等位基因以高頻率出現,它們對改變癌症發展的影響以及它們對癌症風險[5]的貢獻仍是未知的。另一方麵,為了發現“獨唱者”基因,我們需要知道我們所看到的表型變異有多少是由遺傳引起的。

一種癌症通常被認為是散發性癌症,除非患者具有與家族癌症相關的特征,如家族中有其他癌症病例,診斷時年齡異常早,同一個體的多個腫瘤(如雙側腫瘤)或不同但相關的腫瘤(如乳腺癌和卵巢癌)。這類家庭的遺傳和高風險評估指南包括國家癌症綜合網絡和NICE[6,7]等。

在乳腺癌的特殊情況下,大約25-30%的遺傳性可歸因於高至中等風險基因的突變(brca1, brca2, chek2, atm, palb2, palb1, brip1, tp53, pten, cdh1而且STK11)(5、8)。這些基因中的大多數參與DNA修複和細胞周期檢查點的調節,以應對DNA損傷。其他中低風險基因包括BARD1, RAD51C而且RAD51D(9 - 11)。非突變攜帶者的疾病易感性可以用多基因模型來解釋,其中許多易感性基因和這些基因中的多態性結合在一起增加了風險,並產生了觀察到的癌症表型[12]。最近乳腺癌研究的目標是通過高密度下一代測序和協調國際研究小組組成財團[13]來發現罕見等位基因的影響。

盡管在人類中,高質量的譜係信息是罕見的,主要是由於家庭規模小,缺乏臨床記錄或信息不豐富的譜係,但當它被記錄下來時,就有了一個新的機會來了解更多關於癌症的遺傳基礎。遺傳力的統計定義定義為可歸因於遺傳方差的表型方差的比例。當由遺傳學解釋的變異很小時,就需要精確的統計方法來尋找單個基因。

為了估計個體一生中患乳腺癌的風險,在不同的假設下,將家族史和個人信息結合在幾個統計模型中。Claus模型主要關注有未知種係突變的白種人和一、二級女性親屬乳腺癌[14]的信息。Gail模型基於多變量logistic回歸模型來估計乳腺癌風險[15-17]。在這種情況下,蓋爾模型隻包括一級親屬的信息,更重視受影響的個體。如果乳腺癌家族史大,Gail模型的這一特征可能低估了乳腺癌風險[18,19]。

a的可能性乳腺癌易感基因1BRCA2采用不同的方法計算存在的突變,其中BRCAPRO和乳腺和卵巢疾病發病率分析和載體估計算法(BOADICEA)[20,21]。一些指南,如美國癌症協會(ACS)關於乳腺癌篩查以確定女性乳腺癌高風險的指南[22,23]使用基於家族史的模型,評估了20-25%或更高的乳腺癌終身風險。

最佳線性無偏預測(BLUP)模型[24]是動植物育種中研究複雜性狀最有用的工具之一,目前該方法對遺傳性癌症[25]等人類疾病很有興趣。BLUP方法提供了個體預測遺傳風險[26],可用於評估個體一生中發生癌症的風險,這對家族癌症的遺傳谘詢很重要,特別是在基因基礎未知的家族中。為了找到中低風險等位基因,可以對這些對象進行進一步的研究。

明尼蘇達數據乳腺癌家族是一項曆史隊列研究,對在1944年至1952年間確定的426例乳腺癌患者的親屬進行了連續係列的研究,並已用於乳腺癌和前列腺癌[28]的家族聚類研究。該數據集包含有關受影響狀況、性別、年齡、出生年份、父親、母親、家庭、最後隨訪年齡、教育狀況、婚姻狀況、懷孕次數和出生次數的信息。

我們使用了明尼蘇達乳腺癌家族的數據,目的是:a)應用BLUP方法來估計乳腺癌的遺傳性,以確定有多少變異是由於基因遺傳;B)提出一種新的個體測量方法,用於在有家族史的家庭中分配癌症風險的遺傳相加值,該方法可與其他遺傳風險評估模型相比較;C)開發一種算法,可用於識別具有高癌症附加風險的個體,從而幫助優先進行基因檢測的家庭和/或識別與癌症相關的新基因和多態性。

材料與方法
數據

明尼蘇達數據乳腺癌家族研究可在R包kinship2[29]中免費獲得,其中提供了基於血統和譜係的身份計算相關矩陣的函數。數據由426個家庭的20532個個體組成,每個家庭有一個先證者,一個譜係有28082個個體,其中20532個有可用數據。

1224名女性患有乳腺癌。

結果變量是二元的,為罹患癌症的個體賦值為1,為無癌症的個體賦值為0。當研究一個二元特征時,我們假設一個基本的連續隨機變量,其正態分布的方差等於1(負債)。這個責任中的一個閾值表明我們是否患有癌症。

從明尼蘇達的數據中,主體標識符(id)、父親標識符(fatherid)、母親標識符(motherid)和性別被用來構建譜係。混合模型保留了癌症、出生年份(yob)、家庭標識符(family)、性別、末次隨訪年齡(endage)和出生次數(胎次)。

出生於1842 - 1983年的yob振幅超過一個世紀的年份,有兩種不同的使用方式,以1920年為中心,作為3次多項式的協變量或作為隨機效應添加。這樣做的原因是為了檢驗是否存在yob的隨機環境效應(模型1)(模型2)。

性別、出生年份、胎次和年齡缺失值分別占觀察總數的0.07%、23.92%、3.36%和32.65%。這些值是用隨機森林函數計算出來的。

每個家庭的癌症發病率是用家庭中受影響的人數除以有癌症記錄的家庭成員總數來計算的。為了避免因歸責而引入人工噪聲,我們決定不使用更多的解釋變量,因為它們的漏失率很高。

這個數據庫建立於上個世紀40年代,不幸的是沒有關於BRAC突變的信息。

用於評估個人一生中患癌症風險的統計方法

使用R[30]和包裝MCMCglmm [31], kinship2 [29], missForest[32]和ROCR[33]進行統計分析。采用MCMCglmm對混合模型的方程和方差分量進行抽樣。譜係圖使用kinship2包,ROC曲線圖計算使用ROCR包。最後,使用missForest來引入連續和分類數據,允許非線性關係和複雜迭代。

最佳線性無偏預測(BLUP):方法方麵是基於BLUP槽Henderson的混合模型方程接近[24]和Fisher的無窮小模型[34]。

給定一個線性混合模型,

\[y = X\beta + Zu + e\]

其中y為觀察到的表型,β而且u是固定和隨機效應的向量,X而且Z為設計矩陣,e為隨機誤差。

隨機效應定義為多元正態分布,即vmn,u ~ vmn (0,G)而且e ~ MVB (0,R)G -遺傳方差協方差矩陣和R -殘差方差協方差矩陣。

之前模型的解決方案是由亨德森提出的,

\[左\[\開始{數組}{1}
X'{r ^{- 1}}X\,\,\,X'{r ^{- 1}} z \\
Z'{r ^{- 1}} x \,\,\,Z'{r ^{- 1}}Z + {g ^{- 1}}
\end{array} \right]\left[\begin{array}{l}
{\ mathord {\ buildrel {\ lower3pt \ hbox {\ scriptscriptstyle \皺眉美元}}
\結束\beta}}\\
{\帽子你}
\end{array} \right]\left[\begin{array}{l}
X'{R^{- 1}}y\\
Z'{R^{- 1}}y
數組{}\ \端)\]

在費雪的無窮小模型中,遺傳遺傳基於無限位點,具有很小的相加效應。這種經過環境修飾的遺傳遺傳產生了觀察到的表型,BLUP方法允許我們計算遺傳遺傳的這一附加部分。

廣義遺傳力是由遺傳變異引起的表型變異的百分率。當考慮到這種遺傳變異的平均影響和加性時,狹義遺傳力被定義。

在本研究中,術語遺傳力被定義為遺傳變異的加性成分。

提出並擬合了兩個不同的模型,分別將yob作為隨機效應(模型1)和固定效應(模型2)。

在之前基於廣義logistic模型的變量選擇步驟中,根據現有信息,將family作為變量從模型中剔除,僅保留sex、endage、parity和yob作為解釋變量。

模型1

巨蟹座~µ+sex+endage+parity+yob+yob2+小無賴3.+個人

小無賴~ N(0,我σ2小無賴),個人~(0,σ2個人),是單位矩陣,一個個體間元素為兩倍共祖的分子關係矩陣[35],σ2小無賴由出生年份和σ給出的方差2個人遺傳加性方差。

模型2

巨蟹座~µ+sex+endage+parity+yob+yob2+小無賴3.+個人

小無賴作為協變量和,個體~ N(0,Aσ2個人,在哪裏一個分子關係矩陣,和σ2個人遺傳加性方差。

兩種模型都認為R =我,即記錄之間不存在殘差協方差。

遺傳可能性估計:通過計算遺傳力來評估遺傳變異的加性成分,計算結果如下:

\ [{h ^ 2} = \壓裂{{\σ_{個人}^ 2}}{{\σ_{個人}σ^ 2 + \ _{小無賴}^ 2 + 1 }}\,\,\,{\ rm在}{}\,rm{新型}}{\ \,rm {1}} {\ \, rm{和}}{\ \,h ^{2} = \壓裂{{\σ_{個人}^ 2}}{{\σ_{個人}^ 2 + 1 }}\,\,\,{\ rm在}{}\,rm{新型}}{\ \,{\ rm {2}} \]

我們估計的一致性h2通過檢驗零假設進行評估,H0(h2=0/數據),使用貝葉斯因子對原假設計算邊際後驗密度,按照García-Cortés等人提出的方法計算遺傳力。該方法檢驗的後驗密度h2=0,計算備擇假設(相加成分)的概率為,

\ [p ({H_1} /數據)= \壓裂{1}{{1 + p (h ^{2} /數據 )}}\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,( 1) \]

零假設的概率(無可加成分)

\ [p ({H_0} /數據)= \壓裂{{p (h ^{2} = 0 /數據)}}{{1 + p (h ^{2} /數據 )}}\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,( 2) \]

預期遺傳值egv的估計:期望遺傳值(EGVs)是個體隨機效應的解,u ~ vmn (0,G)這對癌症患者和非癌症患者來說是不同的。EGV值的估計需要在最佳線性無偏預測(BLUP)部分求解混合模型方程,在遺傳力估計部分估計方差分量。我們使用貝葉斯推理,因為我們的結果是二分的,而馬爾可夫鏈蒙特卡羅方法已經證明了它們在二元響應為因變量[37]時的高性能。采用非參數Kruskal Wallis檢驗評估各組間egv的差異。

兩個模型1和2都運行了151500次迭代,燃燒1500次,每150次迭代對鏈進行采樣。假設參數展開的逆Wishart為隨機效應的先驗,剩餘方差固定為1 σ2e= 1。

收斂診斷評估使用Heidelberger和Welch的測試[38],以接受或拒絕零假設,馬爾可夫鏈來自平穩分布。

最後,為了開發一種算法,可以用於識別具有高癌症遺傳相加風險的個體,即使我們隻有譜係,沒有臨床或人口統計學數據,在遺傳評估時,我們計算了EGV的親代平均值,作為個體EGV[39]的代理,因為個體的遺傳相加遺傳一半來自母親,另一半來自父親。采用接收工作曲線下麵積(ROC)評價EGV的預測能力。

Gail和Claus模型與BLUP評估癌症風險的比較

對於癌症發病率最高的9個家庭,我們還使用Gail模型[15]和Claus模型[14]計算了5年患乳腺癌的個體風險,僅使用明尼蘇達州乳腺癌的可用信息。蓋爾模型使用的變量為患乳腺癌的一級親屬的年齡和數量,克勞斯模型使用的變量為;先證者與患病親屬的年齡和關係。使用Pearson相關係數與相應的EGV進行比較。

基於EGV的癌症風險的遺傳成分評估

EGV值低於0的個體被歸為無癌症遺傳風險,而EGV值為陽性的個體被歸為有遺傳基礎。有1或2例癌症病例的家庭被認為是散發的,沒有遺傳成分,而有3例或3例以上的家庭被認為有遺傳成分。我們計算了這兩組家庭的EGV彙總統計數據,包括平均值、中位數以及25和75百分位,並使用這些值將有遺傳成分和無遺傳成分(即散發)的家庭進行分類。

結果
方差分量和遺傳力估計

Heidelberger和Welch的測試的輸出在附加的文件中(參見在線資源表ESM1和ESM2)模型1和2達到收斂,這意味著我們的結果是有效的。

模型1方差分量的高後密度區間,即MCMCglmm提供的HPDI, σ為[0.018-0.621]和[1.45-2.97]2個人和σ2小無賴,分別。在模型2中,σ為HPDI2個人為[0.057-0.65],與模型1中得到的區間相似。

這種相似性被強調了(參見在線資源表ESM3),其中給出了估計的平均值和標準差。σ2個人在兩個模型中具有相似的值。

癌症遺傳學中有一個累加成分,根據明尼蘇達乳腺癌數據集,遺傳率為0.1或0.24,取決於模型規格。

遺傳力的HPDI在模型1中為(0.017-0.174),在模型2中為(0.058-0.396),在這兩種情況下,HPDI都不包括零,這意味著我們的結果是有效的。

兩個模型中方差分量的後驗分布在附加文件中(參見在線資源圖ESM1和ESM2)。在方程1和2後,對H0 (h2= 0),導致H0與(H0= 0),可以觀察到h2= 0在這兩種情況下都是null(圖1)。

圖1:模型1的遺傳密度為紅色,模型2的遺傳密度為藍色。

明尼蘇達州乳腺癌家庭的描述性統計

表1給出了納入分析的426個家庭中被試的癌症發病率、出生年份和死亡年齡的描述性統計數據,這些變量在男性和女性被試之間沒有顯著差異。圖2展示了這些家庭中的癌症發病率,並清楚地表明,隨著家庭中受影響病例的數量的增加,癌症發病率穩步上升。在一篇論文中描述所有家係是不可能的,因此我們分別在表2和表3中對發病率最高和最低的9個家係的發病率、yob、病例數、危害和性別進行了描述性統計。

女性

男性

癌症發病率

0.103

0.016

時代結束

65.2 (16.4)

61.7 (13.6)

出生年份

1924 (21)

1923 (22)

表1:按性別劃分的描述性統計
括號內是標準差

圖2:每個家庭的癌症發病率,計算方法為每個家庭的病例數與個體數量之比,與家庭癌症病例數之比。

表2為癌症發病率最高的9個家庭的描述性統計。圖3展示了這些家族的譜係,使用模型1計算了它們的EGV。

家庭

發病率

意思是小無賴

情況下

女性

男性

時代結束

574

0.33

1932

3.

6

5

48.2 (12.6)

173

0.28

1913

10

19

17

73.1 (13.5)

447

0.24

1916

5

13

11

65.1 (17.4)

289

0.23

1914

3.

8

7

59.5 (17.8)

411

0.23

1933

6

14

20.

56.8 (11.1)

494

0.22

1921

9

22

24

68.1 (15)

19

0.20

1911

5

12

12

70.5 (11.9)

474

0.20

1919

9

22

28

72 (11.9)

62

0.16

1926

4

15

16

61.8 (20.7)

表格2:癌症發病率最高的9個家庭的描述性統計
括號內是標準差

家庭

發病率

意思是小無賴

情況下

女性

男性

時代結束

397

0.019

1934

1

27

33

62.3 (13)

316

0.019

1926

2

73

73

68.6 (13.3)

343

0.018

1933

1

36

35

58.5 (13.2)

395

0.017

1936

1

39

39

55.5 (16.8)

453

0.014

1909

1

49

54

72.2 (13.1)

12

0.013

1926

1

46

51

66.4 (16.5)

286

0.0129

1907

1

47

48

64.9 (16.1)

433

0.0128

1930

1

53

54

61.1 (14.8)

274

0.0125

1901

1

40

44

69.5 (18.2)

353

0.0120

1913

1

48

46

68.5 (16.9)

表3:癌症發病率最低的10個家庭的描述性統計
括號內是標準差

圖3:黑色表示發病率最高的家庭。下麵的數字表示患者id和估計遺傳相加。

期望遺傳價值(EGV)

EGV作為exp (EGV)提供了癌症發展的遺傳加性風險的度量。與那些受癌症影響的人相比,未受影響的人的egv更小、更分散,而受癌症影響的人的egv更大、擴散範圍更廣。egv有一些有趣的特性。首先,egv將未受影響的患者與癌症患者分開。其次,他們評估每個個體的遺傳價值,EGV越大,患癌症的可能性就越高,這些EGV會傳遞給下一代。遺傳加性癌症風險可計算為egv的指數。圖4顯示了使用模型1的癌症影響家庭成員與非癌症影響家庭成員egv的差異。類似的圖作為模型2的附加文件提供(參見聯機資源圖ESM3)。

圖4:模型1的egv。EGV在癌症和非癌症之間是不同的。左上角:紅色癌,黑色無癌。右下角:未受影響的egv分布,紅色和癌症。

癌症患者的EGV高於健康人群(圖4a),這具有統計學意義(p<0,001)(圖4b)。健康個體中男性和女性的EGV相似,而男性癌症病例的EGV高於女性癌症病例(圖4c)。

圖4d顯示了受影響個體(綠色)和未受影響個體(紅色)的egv分布。EGV陽性的個體具有癌症發生的遺傳傾向(用虛線標記),這些個體可能存在增加癌症風險的突變或多態。將egv與癌症狀態進行比較,使用ROC曲線檢查預測性能。繪製了這些ROC曲線和ROC曲線下麵積的95%置信區間(AUC)(參見在線資源圖ESM4)。模型1和模型2顯示了相似的大AUC值,0.93-0.94,因此,當個體的EGV呈高陽性時,與EGV呈高陰性的個體相比,這表明個體具有較高的癌症遺傳易感性

這些特征解釋了egv和觀察到的表型是如何聯係在一起的,另一方麵解釋了egv的生物學意義。

由於個體的EGV是父親EGV的1 / 2加上母親EGV的1 / 2,我們使用這個父母平均值來預測癌症狀態,並使用這個值作為個體EGV的代理(圖5a)。這些平均值的預測能力與相應的AUC進行了檢驗,其AUC性能為0.713-0.791(圖5b)。

圖5:父母指的是預期遺傳價值與後代的預期遺傳價值。左邊的紅色是癌症。使用親本平均EGV的ROC曲線,右麵板,模型2。

BLUP與Gail和Claus模型的比較

圖6提供了BLUP遺傳風險估計和Gail模型之間的比較,其中繪製了風險值,兩者之間的相關性為0.6 [0.44-0.73]p<0.01,具有統計學意義。此外,在Claus模型[14]下,BLUP遺傳風險估計與乳腺癌累積概率的相關性顯著,為0.23[0.02-0.42]。

圖6:BLUP遺傳風險估計、EGV和Gail模型對10個癌症高發家庭的比較黑點表示受影響。藍點不受影響。

遺傳性和非遺傳性癌症的家庭和個人的分類

在圖7中,我們顯示了一個家庭中EGV陽性(即遺傳易患癌症)的個體數量。我們可以區分具有多個EGV陽性成員的家族,這些家族可能攜帶中-高風險等位基因(虛線的右側),以及那些有少數EGV陽性成員的家族,因此可能攜帶低-中風險等位基因,且外顯率可變(虛線的左側)。

圖7:利用EGV值將家族分為散發型和遺傳型。a.一個家庭中EGV值為正的個體出現頻率。b.家族中1或2例(散發)或3例或3例以上(遺傳)的EGV中位數。c. EGV中位數與癌症發病率(即遺傳風險)的關係圖。

有1或2例癌症病例的家庭(通常被認為是散發的)的EGV中位數為-0.23(分別為-0.25,-0.21,25和75個百分位),而有3例及以上癌症病例的家庭(根據受影響個體的關係,可被認為具有遺傳成分)的EGV中位數為-0.18 (-0.21,-0.15,(圖7b) 3例及以上病例家庭的EGV中位數(-0.18)明顯高於1例或2例家庭(p<0.001)。如圖7c所示,我們使用這些值作為標準,將家庭分類並定義為散發家庭或具有遺傳成分的家庭。我們將EGV低於1-2例家庭中位數的家庭歸為散發型癌症家庭。具有遺傳成分的家庭被定義為EGV大於75的家庭th隻有1或2例EGV的家庭的百分位數。我們進一步將具有遺傳成分的家庭定義為那些可能攜帶高風險等位基因(如BRCA2突變)的家庭,即EGV大於75的家庭th有3例或3例以上病例的家庭中EGV的百分位數。以及那些可能攜帶低-中風險等位基因的家庭,即那些EGV在75th有1到2個病例的家庭百分比和75th有3例或3例以上病例的家庭百分比。值得注意的是,有3-5例癌症的家庭中位EGV處於散發癌症範圍。癌症在這些家族中的聚集似乎沒有遺傳成分,可能是由於共同的環境風險因素。因此,在這些家庭中進行基因檢測是不合適的,該模型提供了一種工具,在決定進行基因檢測之前評估這些家庭的遺傳成分。

討論

本研究應用於乳腺癌家庭的BLUP模型遺傳力值不同於零,凸顯了多基因遺傳模式的有效性。EGV能夠區分癌症和非癌症受試者,並為遺傳癌症谘詢提供了一種工具,因為即使患者尚未發展為癌症,它們也提供了個體風險評估。考慮到結果的二元性質,本文給出的結果是可靠和準確的。

加入臨床、病理和社會人口學數據可以更準確地估計EGV;然而,這些數據通常是得不到的。有關易感基因中種係突變存在的數據可以在模型的後期得到後很容易地納入模型。的確,基因組信息可以與譜係結合使用,也可以單獨使用,以計算更精確的關係矩陣[40]。而且,即使由於信息的缺乏而無法構建家譜,基因組時代和衍生的遺傳數據使我們能夠構建比譜係更精確的關係矩陣。事實上,下一代測序技術產生的高數量和高質量的遺傳數據促進了後代鑒定(IBD)計算,也有助於我們比較長串連續純合基因型,即所謂的純合度,識別個體之間的關係,而不是基於譜係的方法[35]。

本文獲得的EGV在乳腺癌中的雙峰分布與Vazquez等人基於譜係或基因組信息使用BLUP在皮膚癌中計算的結果相似。盡管這些作者發現基因組信息模型的ROC麵積比譜係模型的癌症預測能力更好,0.58vs0.63,改善率為8%,未使用基因組信息構建關係矩陣。另一方麵,基於譜係的方法比需要基因組信息的方法經濟成本低。

BLUP的多基因遺傳方法提供了一個在沒有已知種係突變的情況下,比那些假設一個主要等位基因位點[14]的家族性乳腺癌更現實的模型。

BLUP方法還與ridge、Lasso和Elastic Net[42,43]等收縮方法一起使用,以降低數據的高維數並選擇顯著變量。事實上,BLUP作為一種收縮方法,當遺傳力較高時,更重視模型的遺傳部分,並懲罰模型的非遺傳項。

在臨床實踐中,可以通過建立一個包含所有家係和臨床變量的數據庫,計算每個個體的BLUP估計值,為新的需要遺傳谘詢的受影響家庭加入該數據庫提供參考措施,從而建立一個遺傳癌症的評估方案。盡管男性乳腺癌似乎沒有遺傳成分,但他們被評估,並將其遺傳附加價值傳遞給下一代。這是BLUP的一個相關特性,因為其他風險模型將相同的值分配給一組兄弟[44]。

圖3說明了這一過程,同一家庭內的BLUP估計在擁有相同數量的受影響親屬的親屬之間區分風險。舉個例子,在173,494和474家族中,第三代表兄妹的遺傳附加價值是不同的。在173家3理查德·道金斯一代有三組表兄妹。其中兩人的父母受到了影響。7118和7136的後代EGV較大,遺傳風險較高,其次為7138和7121的後代,7137和7120的後代期望遺傳價值最小,但仍存在遺傳風險。

從圖5可以看出,正如定量遺傳學所強調的那樣,可以計算出一個後代的值,定義為父母的平均值加上一個隨機孟德爾噪聲因子[39],該因子可用於遺傳谘詢中作為EGV的近似預測,為臨床醫生提供一個關於未來後代遺傳癌症風險的值。

對於沒有致病性種係突變或易感基因變異未知意義的家族的管理,仍有許多猜測,特別是關於開始篩查的年齡、篩查方式(乳房x光或核磁共振)和推薦預防性手術或預防性化療。這些類型的模式可能對指南不明確的這些類型的家庭最有用。這些信息可以幫助優先篩選個體和具有較大遺傳相加值的家庭成員,以確定處於潛在可治愈階段的癌症。

Gail模型在臨床中用於確定未來5年內患癌症的概率,而BLUP方法估計終生遺傳風險。我們將Gail模型的風險評估值與我們的模型進行了比較,發現兩者之間存在正相關關係,說明它們具有相同的癌症風險發展的潛在機製,但對風險值的解釋不同。Gail模型使用給定的親屬數量進行估計,而BLUP則可以使用整個家族樹。

Claus模型假設一個雙等位基因主位點是乳腺癌易感性的潛在原因,而BLUP模型提出了一個多基因相加模型,這就是為什麼兩個模型之間的相關性很低的原因。

也有其他模型來預測遺傳癌症風險,如BOADICEA模型[45],它基於年齡進行估計,而BLUP計算遺傳風險獨立於年齡、性別或其他混雜因素。其次,BOADICEA是按個體計算風險個體,而BLUP是一次評估所有個體,考慮到一步獲得整個群體的egv的可能性,並節省遺傳谘詢的時間。

BLUP方法為遺傳癌症提供了一種新的應用,這是在癌症遺傳學中使用的其他模型所不能提供的。如圖7所示,BLUP可以識別EGV較大的家族,即患有遺傳性癌症的家族,並可以幫助區分那些可能攜帶高風險等位基因(如BRCA突變)的家族和中低風險等位基因的家族。BLUP方法可以幫助我們識別候選家族,通過高密度的下一代測序來探索他們的遺傳背景,尋找更罕見的多態性。以及對風險的影響的許多變種的意義不明確定在乳腺癌易感基因1和BRCA2基因等。

BLUP模型可以應用於其他乳腺癌人群或其他癌症類型,以驗證這些結果。與Gail和Claus模型相比,該模型假定癌症易感性存在多基因潛在機製,在單步中提供了獨立於環境因素的遺傳癌症風險的可靠估計。

結論

獲得的結果給出了一個可靠的估計,在乳腺癌的遺傳力不同於零,並為每個個體提供了有意義的遺傳相加值。

我們已經獲得了乳腺癌遺傳力在0.1- 0.2之間的可靠估計,不同於零,以及明尼蘇達乳腺癌數據集中每個個體的癌症有意義的相加值。這些值單獨或與其他方法結合,改善了在遺傳性癌症背景下的癌症預測,以及與癌症相關的新基因/多態性的識別,以及對未知意義的變化對乳腺癌風險的影響的評估。BLUP能夠在估計中結合臨床和病理信息,並考慮多基因遺傳模型而不是常染色體顯性模型。

BLUP提供了用於遺傳性癌症的另一種工具,並估計了癌症的遺傳程度,計算了家庭成員中癌症的個體遺傳風險和未來後代的遺傳風險的近似。此外,該工具可用於評估這些家族中遺傳性癌症的遺傳基礎,無論是由於高風險等位基因還是由於低-中風險等位基因。

作者的貢獻

JCMA和LAGC設計了研究,開發了統計分析工具並撰寫了手稿。

JCMA貢獻了R的統計規劃,LAGC檢驗了遺傳力的後驗密度。

JE和CGP為BLUP方法在臨床癌症研究中的應用提供了臨床癌症方麵的專業知識,並撰寫了手稿。

所有作者審閱、評論並批準了稿件。

鳴謝

作者感謝Marta Rava在手稿中提出的寶貴意見。

利益衝突

作者JC Martínez Avila,作者C Guillen-Ponce,作者J Earl和作者LA García-Cortés聲明他們沒有利益衝突。

本研究中使用的數據可在R包關係2免費獲得。數據符合明尼蘇達數據乳腺癌家庭研究。數據集中的受試者是匿名的。

參考文獻

  1. 王曉燕,王曉燕,王曉燕(2004)高滲透性遺傳性癌症綜合征。癌基因23:6445-6470。[Ref。
  2. Evans DG, Brentnall AR, Harvie M, Dawe S, Sergeant JC,等(2014)國家乳腺篩查計劃中年輕女性的乳腺癌風險:應用NICE額外篩查和化學預防指南的意義。癌症預防報告7:993 -1001。[Ref。
  3. kandox C, McLellan MD, Vandin F, Ye K, Niu B,等(2013)12種主要癌症類型的突變景觀及其意義。自然502:333-339。[Ref。
  4. Bogdanova N, Helbig S, Dörk T(2013)遺傳性乳腺癌:多基因謎題的更多碎片。癌症臨床實踐11:12。[Ref。
  5. Eccles SA, Aboagye EO, Ali S, Anderson AS, Armes J, et al.(2013)成功預防和治療乳腺癌的關鍵研究空白和轉化優先級。乳腺癌文獻15:R92。[Ref。
  6. 國家健康和優質護理研究所(2013年):家族性乳腺癌:對有家族性乳腺癌風險的人進行分類和護理,對有家族性乳腺癌病史的人進行乳腺癌和相關風險的管理。[Ref。
  7. NCCN指南(2016)國家綜合癌症網絡。[Ref。
  8. 王曉東,張曉東(2012)家族性乳腺癌。臨床雜誌82:105-114。[Ref。
  9. Vahteristo P, Syrjäkoski K, Heikkinen T, Eerola H, Aittomäki K等(2006)BARD1變異Cys557Ser和Val507Met在乳腺癌易感性中的作用。中國科學院學報(自然科學版)。[Ref。
  10. Loveday C, Turnbull C, Ruark E, Xicola RMM, Ramsay E,等(2012)種係RAD51C突變導致卵巢癌易感性。Nat Genet 44: 475-476。[Ref。
  11. Thompson ER, Rowley SM, Sawyer S, kConFab, Eccles DM等(2013)卵巢癌患者及其有卵巢癌或乳腺癌病史家庭中RAD51D的分析。PLoS One 8: e54772。[Ref。
  12. Antoniou AC, Easton DF(2003)乳腺癌的多基因遺傳:關聯研究設計的意義。熱奈流行病學25:190-202。[Ref。
  13. Southey MC, Park DJ, Nguyen-Dumont T, Campbell I, Thompson E, et al. (2013) COMPLEXO:通過下一代合作確定乳腺癌缺失的遺傳性。乳腺癌Res 15:402。[Ref。
  14. Claus EB, Risch N, Thompson WD(1994)早發性乳腺癌的常染色體顯性遺傳。對風險預測的影響。巨蟹:643-651。[Ref。
  15. Gail MH, Brinton LA, Byar DP, Corle DK, Green SB,等(1989)預測每年接受檢查的白人女性罹患乳腺癌的個體性概率。癌症雜誌,1879-1886。[Ref。
  16. Costantino JP, Gail MH, Pee D, Anderson S, Redmond CK,等(1999)預測浸潤性乳腺癌和總乳腺癌發病率風險的模型驗證研究。中華人民共和國腫瘤雜誌31:1541-1548。[Ref。
  17. Gail MH, Costantino JP(2001)驗證和改進預測乳腺癌絕對風險的模型。中華腫瘤雜誌39:334-335。[Ref。
  18. Rockhill B, Spiegelman D, Byrne C, Hunter DJ, Colditz GA (2001) Gail等人乳腺癌風險預測模型的驗證及其對化學預防的意義。中華腫瘤雜誌第93期:358-366。[Ref。
  19. Euhus DM, Leitch AM, Huth JF, Peters GN (2002) gail模型在專門乳腺癌風險評估臨床中的局限性。乳腺J 8:23 -27。[Ref。
  20. Antoniou AC, Hardy R, Walker L, Evans DG, Shenton A, et al.(2008)預測攜帶BRCA1或BRCA2突變的可能性:使用英國遺傳學診所的數據驗證BOADICEA、BRCAPRO、IBIS、Myriad和曼徹斯特評分係統。中華醫學雜誌45:425-431。[Ref。
  21. Parmigiani G, Chen S, Iversen ES, Friebel TM, Finkelstein DM,等(200)BRCA1和BRCA2突變預測模型的有效性。安實習醫學147:441-450。[Ref。
  22. Saslow D, Boetes C, Burke W, Harms S, Leach MO, et al.(2007)美國癌症協會關於MRI輔助乳房x光檢查的指南。癌癌雜誌臨床雜誌57:75-89。[Ref。
  23. Murphy CD, Lee JM, Drohan B, Euhus DM, Kopans DB,等(2008)美國癌症協會乳腺磁共振成像篩查指南:基因檢測的論據。巨蟹座113:3116-3120。[Ref。
  24. 亨德森CR(1975)選擇模型下的最佳線性無偏估計和預測。生物識別技術31:423-447。[Ref。
  25. Speed D, Balding DJ (2014) MultiBLUP:改進的基於snp的複雜性狀預測。基因組Res 29: 1550-1557。[Ref。
  26. Vazquez AI, de los Campos G, Klimentidis YC, Rosa GJM, Gianola D,等(2012)一種改進人類皮膚癌風險預測的綜合遺傳方法。遺傳學192:1493-1502。[Ref。
  27. Sellers TA, King RA, Cerhan JR, Chen PL, Grabrick DM,等(1999)對明尼蘇達州乳腺癌家族曆史隊列中癌症發病率的50年隨訪。癌症流行病學生物標誌物Prev 8: 1051-1057。[Ref。
  28. Grabrick DM, Cerhan JR, Vierkant RA, Therneau TM, Cheville JC,等(2003)明尼蘇達乳腺癌家族研究中乳腺癌和前列腺癌的家族聚集性評價。癌症檢測前27:30-36。[Ref。
  29. Sinnwell JP, Therneau TM, Schaid DJ(2014)譜係數據的親緣關係R包。78: 91-93。[Ref。
  30. R:統計計算的語言和環境。R統計計算基金會,維也納,奧地利。[Ref。
  31. Hadfield J(2010)多響應廣義線性混合模型的MCMC方法:MCMCglmm R包。J Stat soft 33: 1-22。
  32. Stekhoven DJ, Bühlmann P(2012)混合類型數據的misforest -非參數缺失值歸因。生物信息學28:112-118。[Ref。
  33. 邢天宇,桑德爾O, Beerenwinkel N, Lengauer T (2005) ROCR:可視化分類器在R.生物信息學中的性能21:3940-3941。[Ref。
  34. 孟德爾遺傳假設下的親屬關係。愛丁堡學報52:399-433。
  35. Malécot G (1948) Les mathématiques de l 'hérédité。Cie M et,編輯,巴黎。
  36. García-Cortés LA, Cabrillo C, Moreno C, Varona L(2001)數量性狀遺傳背景的假設檢驗。科學通報33:3-16。[Ref。
  37. Sorensen D, Andersen S, Gianola D, Korsgaard I(1995)使用吉布斯抽樣的閾值模型中的貝葉斯推理。科學通報27:229-249。[Ref。
  38. Heidelberger, P Welch P(1981)模擬中置信區間生成和運行長度控製的譜方法。通信ACM 24: 233-245。[Ref。
  39. Falconer DS, Mackay TFC(1998)定量遺傳學導論,第4版。英國埃塞克斯:朗文集團有限公司
  40. Forni S, Aguilar I, Misztal I(2011)利用表型、譜係和基因組信息進行單步分析的不同基因組關係矩陣。現代化學學報43:1。[Ref。
  41. Luan T, Yu X, Dolezal M, Bagnato A, Meuwissen T(2014)基於純合度序列的基因組預測。科學通報46:64。[Ref。
  42. 沈鑫,Alam M, Fikse F, Rönnegård L(2013)一種新的廣義嶺回歸定量遺傳方法。遺傳學193:1255-1268。[Ref。
  43. Endelman JB(2011)用R包rrBLUP進行基因組選擇的嶺回歸和其他核。植物基因組J 4: 250-255。[Ref。
  44. Kastrinos F, Steyerberg EW, Mercado R, Balmaña J, Holter S,等(2011)PREMM1,2,6模型基於癌症病史預測MLH1, MSH2和MSH6種係突變的風險。消化病學140:73-81。[Ref。
  45. Lee AJ, Cunningham AP, Kuchenbaecker KB, Mavaddat N, Easton DF,等(2014)BOADICEA乳腺癌風險預測模型:癌症發病率、腫瘤病理和web界麵的更新。中華癌症雜誌110:535-545。[Ref。

在此下載臨時PDF

PDF

條信息

文章類型:研究文章

引用:Martínez-Ávila JC, Guillén-Ponce C, Earl J, García-Cortés LA(2016)乳腺癌的遺傳終生癌症風險評估模型:一個案例研究。Int J Mol Genet與基因Ther 2(1): doi http://dx.doi.org/10.16966/2471-4968.106

版權:©2016 Martínez-Ávila JC,等。這是一篇開放獲取的文章,根據創作共用署名許可協議(Creative Commons Attribution License)發布,該協議允許在任何媒體上不受限製地使用、分發和複製,前提是注明原作者和來源。

出版的曆史:

  • 收到日期:2016年8月17日

  • 接受日期:2016年9月28日

  • 發表日期:2016年10月04日