11月3日,中國科學院上海生命科學研究院(人口健康領(lǐng)域)計算生物學研究所徐書華課題組的研究成果,以PGG.Population: a database for understanding genomic diversity and genetic ancestry of human populations為題,在線發(fā)表在《核酸研究》上。該研究分析了涵蓋全球范圍107個國家的356個人類族群的基因組多樣性和祖源信息,并發(fā)布了開放獲取的專門數(shù)據(jù)庫——PGG.Population(群體基因組學·族群)。PGG.Population是迄今唯一在基因組水平專門解析人類族群遺傳關(guān)系和祖源信息的公開數(shù)據(jù)庫,也是目前收集族群數(shù)量最大的群體基因組數(shù)據(jù)庫,為研究人員、臨床醫(yī)生及學生和公眾理解不同人群的遺傳背景提供查詢和分析平臺。
人類族群多樣性的形成是遷移、隔離、分化、再接觸和交流的復雜演化過程。同時,長期對特定環(huán)境的適應或能影響特定的性狀以及基因組局部區(qū)域的多樣性變化。相對來講,人群的基因組多樣性在很大程度上決定了其表型多樣性——這也是族群特異性的表型可以世代傳承的原因。因此,要真正理解人類不同族群在膚色、體質(zhì)以及疾病等性狀上的差異,最終需要回到基因組、追溯人群的演化歷程。眾多大型國際計劃(比如人類單倍體型圖計劃和千人基因組計劃)以及我國此前完成的各類全基因組關(guān)聯(lián)研究(GWAS)集中關(guān)注常見主體人群,而對各地少數(shù)族群(大多是土著人群)的研究較為缺乏。部分研究人員逐漸意識到,在一個人群研究中的困惑,往往在另一個人群的研究中找到答案,例如科研人員對比青藏高原人群的基因組,了解到為何平原人群無法像藏族人那樣舒適地生活在高原上。專家認為,這就是多樣性的魅力,也是進化留給我們的財富。
PGG.Population正是在這樣的大背景下建立起來。研究人員通過測序或收集眾多人類群體基因組研究數(shù)據(jù),對每個族群的基因組重新整合與分析(包括人群的地理語言歸屬等基本信息、Y染色體與線粒體譜系、群體間親緣關(guān)系、群體遺傳結(jié)構(gòu)、遺傳混合以及自然選擇印記等),并建立數(shù)據(jù)庫,以開放獲取的方式向公眾展示每個族群的基因組多樣性與祖源信息。目前,該數(shù)據(jù)庫包括7122個個體的基因組數(shù)據(jù),覆蓋107個國家的356個族群,每個族群都有自己的“故事”。該數(shù)據(jù)庫以理解每個人群的基因組多樣性與遺傳背景為主,對其他研究領(lǐng)域也具有重要的學術(shù)意義和應用價值,人類群體基因組數(shù)據(jù)庫建設(shè)任重道遠。全世界有2000多個族群,而該數(shù)據(jù)庫目前只包括世界族群的1/6強。課題組正在收集或產(chǎn)生更多的來自不同族群基因組數(shù)據(jù),以覆蓋更多的族群,以期用于全面探索亞洲人群尤其是東亞、東南亞族群的演化歷史和自然選擇等遺傳和演化問題。同時,數(shù)據(jù)庫可供遺傳學、語言學、體質(zhì)人類學、醫(yī)學等行業(yè)參考和使用,應用于生物醫(yī)學等多個領(lǐng)域的研究。此外,科研人員希望公眾通過訪問和查詢該數(shù)據(jù)庫,對人類基因組多樣性和人群祖源等方面的知識和信息有更廣泛和深入的理解。
研究工作得到了中科院戰(zhàn)略性先導科技專項(B類)、國家自然科學基金委重大研究計劃及國家杰出青年科學基金、中科院青年促進會、上海市科委等的資助,并得到國家遺傳與發(fā)育協(xié)同創(chuàng)新中心支持。
PGG.Population數(shù)據(jù)庫網(wǎng)站主界面