Entendendo o genoma de referência (parte 3)

 Olá, amigos, como estão? Tranquilos? Bem-vindos a mais um texto sobre o genoma de referência. Agora, without further ado, falaremos sobre o GRCh38. A versão mais atual do genoma, que está no seu patch 14, lançado em 03 de fevereiro de 2022 (GRCh38.p14). 

Aqui é útil retomar o conceito de que o genoma de referência humano é compilado a partir de dados de sequenciamento que são depositados no NCBI, sendo que a versão deste banco de dados é compilada pelo consórcio do genoma de referência e pode ser visitada neste link. Há também a versão compilada pela UCSC, basicamente a partir dos mesmos dados de sequenciamento, que contem opções diferentes de anotações, além de algumas opções especificamente para usos mais direcionados, em que a presença de haplótipos alternativos pode não ser tão útil. O link é este.

Nessa versão do genoma, as nomenclaturas começaram a coincidir para diminuir confusões. Agora temos o GRCh38/hg38, lançado inicialmente em 2013. É interessante lembrar que o genoma de referência é haploide. Mais do que isso, ele representa uma espécie de mosaico haploide de vários indivíduos que tiveram seu genoma sequenciado e representaram clones específicos (os cromossomos artificiais bacterianos, BACs). Não se trata de um consenso haploide de um único indivíduo. Na verdade, é possível que os haplótipos válidos sejam diferentes entre regiões que são adjacentes aos limites entre um clone e outro. A escolha do alelo que é representado é, de certa forma, arbitrária. Esta arbitrariedade é diminuída, porém, com os alelos alternativos que já faziam parte do GRCh37. Mas enquanto a referência anterior havia sido lançada com 9 sequências alternativas, o GRCh38 já contava com incríveis 261 loci marcados como alt desde o seu lançamento inicial. 

Porém vale notar que o consórcio do genoma de referência realizou uma curadoria da sequência para tentar evitar que a referência fosse um alelo único de um indivíduo específico ou muito raro (geralmente pensaríamos em uma frequência alélica na população geral < 1%). Porém, analisando dados de sequenciamento, ainda nos deparamos com algumas variantes que estão presentes em mais de 99% da população no gnomAD. 

Um exemplo é a variante NM_001349999.2:c.24T>G(p.His8Gln) no gene RBFOX2, que está presente em 100% dos indivíduos no gnomAD 4.1 (e no ABraOM também, aliás): 


Curiosamente, esse gene está associado a defeitos cardíacos congênitos e existe um missense constraint regional nas redondezas desta variante: 


Mas acredito que podemos concordar que ninguém em sã consciência priorizaria a análise desta variante dentro de um exame genômico, e tampouco aplicaria o critério da ACMG de baixa taxa de variantes missense benignas (PP2) para esta variante, transformando-a em uma VUS (Variant of Uncertain Significance: variante de significado incerto) devido à presença de evidências conflitantes de benignidade e patogenicidade.

Aliás, acabo de lembrar que alguém me pediu para escrever um texto sobre missense constraint, e eu pretendo fazê-lo em breve. Enfim, essa foi apenas uma ilustração de que, sim, existem loci no GRCh38 que provavelmente eram alelos raros ou até mesmo únicos de indivíduos que foram sequenciados. É sempre bom lembrar que o genoma de referência não representa o alelo ancestral ou mais comum em cada locus, porém um mosaico haploide das amostras de DNA que deram origem aos clones utilizados.

Se isto pode nos consolar, pelo menos somos organismos diploides (embora tenhamos células poliploides em alguns tecidos, como no fígado.) Imagino que a situação fica um tanto mais complicada para um genoma de referência de organismos com ploidias maiores, como o morango (que tem ploidias diferentes de acordo com a espécie). Aliás, existem borboletas que possuem algo entre 448 e 452 cromossomos no seu conjunto diploide (link).

De toda maneira, voltando ao GRCh38, aqui temos uma boa parte dos haplótipos alternativos referentes à região do MHC/HLA e KIR-IPD. Aqui valem alguns comentários breves sobre isto. Existe um banco de dados de polimorfismos imunológicos (aqui) que reune dados de projetos que se dedicaram a melhor definir a diversidade genética dessas regiões altamente polimórficas. Sabemos que para que o sistema imune consiga reconhecer patógenos aos quais nunca foi exposto previamente, é necessário que hajam mecanismos para que possa criar diferentes tipos de receptores. 

O complexo MHC/HLA no cromossomo 6 se refere a uma família de genes, na verdade: MHC Classe I, II e III. Os termos MHC e HLA são basicamente sinônimos, aliás, porém é importante notar que HLA (Human Leukocyte Antigen) se refere somente ao ser humano. Os genes para o MHC classe I e classe II são altamente polimórficos e tem uma nomenclatura algo complexa. Basicamente os genes da classe I estão nomeados, literalmente, de A a Z (link), embora esta nomenclatura inclua pseudogenes. Os mais relevantes e mais polimórficos são os HLA-A,HLA-B HLA-C, enquanto igualmente  relevantes e menos polimórficos são os HLA-E, HLA-F e HLA-G. Vocês podem ter notado que eu pulei a letra D. isto é porque os genes da classe II receberam nomes começando com esta letra: HLA-DRA, HLA-DRB1, HLA-DRB3, HLA-DRB4, HLA-DRB5, HLA-DQA1, HLA-DQA2, HLA-DQB1, HLA-DQB2, HLA-DOA, HLA-DOB, HLA-DMA, HLA-DMB, HLA-DPA1, HLA-DPB1 e... ufa! Acho que eram esses. Estou com medo de encontrar um gene da família HLA que eu possa ter esquecido de mencionar embaixo da minha cama quando for dormir hoje à noite! Por fim, o que se chama de MHC classe III na verdade é uma região que codifica genes relacionados ao sistema complemento, seus primos e amigos, como o TNF. 

Os alelos em genes do HLA (E em outros genes, aliás) recebem uma nomenclatura por asterisco (chamada de Star Nomenclature na língua inglesa). Existe uma explicação que foge ao escopo deste post para a nomenclatura dos alelos do HLA, mas saiba que ao ver um identificador como HLA-A*01:01:01:01 você está diante de um alelo do HLA-A. O número mais importante será o primeiro após o asterisco, e constitui um grupo de alelos: um haplótipo. O GRCh38 tem como referência o haplótipo A3-B7-DR15, o que significa HLA-A*03, HLA-B*07 e HLA-DR*15. 

O termo KIR-IPD significa Killer-cell imunnoglobulin-like receptors (KIR) que é um grupo de proteínas expressas por células Natural Killers e alguns linfócitos T e regulam as tendências homicidas (ou celulicidas?) dos Natural Killers de acordo com a sua interação com proteínas do complexo MHC, que são expressas em todas as células nucleadas. Este mecanismo é importante para que as células NK possam reconhecer células infectadas por vírus ou que sofreram transformação maligna. Os genes estão na região chamada de LRC (Leukocyte receptor complex) em 19q13.4 e também são altamente polimórficos. Aqui temos os genes KIR2DL1, KIR2DL2/L3, KIR2DL4, KIR2DL5A, KIR2DL5B, KIR2DS1, KIR2DS2, KIR2DS3, KIR2DS4, KIR2DS5, KIR3DL1/S1, KIR3DL2 e KIR3DL3, sendo que a referência representa a linhagem clonal chamada de CHM1, porém existiam 35 haplótipos alternativos no lançamento do hg38, com mais 15 alternativos adicionados em patches posteriores. 

Assim como no hg19, temos algumas outras nomenclaturas que são utilizadas: o chr_fix para alterações que foram corrigidas com patches, embora isso não tenha sido inserido diretamente na sequência lançada originalmente e todos os fixes tenham sido realizados na verdade em haplótipos alternativos. 
Uma diferença maior foi a inclusão de sequências que modelam as regiões centroméricas dos cromossomos. Estas regiões foram inseridas com base no trabalho de Karen H. Miga, professora de engenharia biomolecular na UCSC e co-coordenadora do consórcio do genoma T2T (telómero a telómero). Karen trabalhou com centrômeros já em sua tese de doutorado, e expandiu o trabalho no Duke Institute for Genome sciences para criar um modelo de referência para os cromossomos X e Y (link).

As sequências centroméricas são compostas por longos arranjos de repetições de sequências em tandem, o que representa um desafio significativo para a montagem de uma referência desta região, devido à alta homologia. Essas regiões são chamadas também de satélites (por motivos históricos). Foi utilizado uma metodologia de bioinformática para modelar o padrão de repetições e variações observados nas sequências centroméricas, que embora não fosse verdadeiramente uma determinação linear da sequência, serviria como uma representacão desta (link).

O hg38 e o GRCh38 incluem o mesmo genoma mitocondrial que foi definido pela MITOMAP, algo que não havia acontecido na versão anterior do genoma. Adicionalmente, várias bases ao longo do genoma, que foram identificadas como estando incorretas, foram corrigidas - e mais de 100 gaps foram reduzidos ou inteiramente preenchidos. 

Aqui ainda existem regiões pseudoautossômicas nos cromossomos X e Y, que são equivalentes entre si e correspondem às duas regiões mencionadas na parte 1 desta série. É interessante notar que devido às alterações que foram realizadas no genoma de referência, as coordenadas genômicas entre as duas versões não são equivalentes. Em geral, a coordenada do GRCh38 será maior. Mas para vencer este obstáculo, quando estamos lidando com a necessidade de converter entre coordenadas em diferentes versões do genoma, podemos fazer um processo chamado de lift-over. Existem ferramentas online que realizam lift-over de forma simples e rápida, como o liftover do Broad Institute. É possível ainda fazer o liftover de um arquivo VCF através de diversas ferramentas: BCFtools (pelo comando liftover) ou liftoverVcf da suíte Picard, também do Broad institute.

Os arquivos BAM são outra história. Por se referirem a reads alinhadas a um genoma de referência, é mais prudente refazer o alinhamento dos arquivos .FASTQ ou .UBAM do que transpor as coordenadas entre as referências. 

A transposição de coordenadas muitas vezes irá usar arquivos over.chain (ou outro formato semelhante) que está melhor descrito aqui, mas basicamente consiste de um formato que contem um descritor da sequência de origem e da sequência de destino, seguido por várias linhas que contem o tamanho de um contig antes de que se encontre um gap, seguido pela diferença entre o fim deste bloco contíguo e o começo do próximo no genoma alvo, e pela diferença entre o fim do bloco contíguo e o início do próximo no genoma de origem:




Da mesma maneira, também é possível realizar estudos de genética comparativa entre espécies através do liftover de sequências alinhadas ao genoma de referência humano para sequências do genoma de referência de uma outra espécie. Um dos arquivos disponíveis no FTP da UCSC traz o arquivo chain do HG19 para o genoma FelCat5, do gato doméstico.



Aqui vemos um alinhamento do hg19 para o genoma do gato, com coordenadas para transposição entre o cromossomo 4 do ser humano para o cromossomo B1 do felino. A genética é mesmo fascinante. 

Por fim, a publicação do GRCh38 gerou também, eventualmente, um artigo publicado na revista Genome Research, que traz mais detalhes sobre esta versão do genoma de referência e pode ser uma leitura interessante para quem desejar informações adicionais.

Acredito que eu consegui cobrir até agora uma boa parte de conceitos sobre o genoma de referência. Ainda pretendo escrever mais algumas partes para tentar entender melhor o que já temos em relação ao genoma T2T e ao pangenoma humano. Espero ver vocês novamente em outros artigos deste blog. 

Comentários

Postagens mais visitadas deste blog

Entendendo o genoma de referência (parte 1)

Entendendo o genoma de referência (Introdução)