Entendendo o genoma de referência (parte 1)

Que bom que voltaram!

Na parte anterior falei mais sobre a história do sequenciamento do genoma humano e alguns desafios envolvidos nesse processo. De forma alguma foi uma abordagem extensiva e eu indicaria bastante, a quem interessar, ler mais a respeito deste processo. Duas fontes que eu achei interessante foram as primeiras publicações do resultado do projeto.

Eu digo duas fontes porque o genoma humano foi publicado em dois principais artigos diferentes: Um na revista Nature (link), pelo consórcio internacional do genoma humano, e outro na Science (link) por Craig Venter e a equipe da Celera. Na verdade as revistas lançaram uma edição especial voltada para o genoma humano e é bastante interessante dar uma olhada nas edições completas:

(Esta foto foi tirada no laboratório de Genética Clínica da FM/UnB - As revistas pertencem ao laboratório e foram parte da coleção da Profª Drª Iris Ferrari)

Com a publicação do genoma humano várias outras questões surgiram. Algumas delas ainda estão sem resposta e provavelmente continuarão assim por um bom tempo. No fim das contas, os dados divulgados pelo consórcio do genoma humano formaram a base para o que utilizamos hoje em dia como genoma de referência para a espécie humana. 

Uma coisa interessante de se notar, é que este genoma de referência representa uma espécie de mosaico, afinal, foi sequenciado a partir de vários indivíduos diferentes, e estar no genoma de referência não significa de forma alguma que algum alelo é o mais comum dentre todos encontrados na espécie humana. Na verdade é mais fácil encarar que em algum momento aquele alelo foi definido como um consenso da sequência do genoma humano, mesmo que um alelo alternativo no mesmo locus tenha frequência populacional superior a 99%. Não é de surpreender que eventualmente algumas variantes raras tenham entrado no genoma de referência, afinal de contas, estamos falando de bilhões de pares de base. 

O genoma de referência é um consenso da sequência genética de uma espécie. No caso do ser humano, é utilizado como uma sequência haploide. Inicialmente, foi considerado somente um alelo por posição, embora saibamos que o ser humano possui uma ploidia de 2. 

A principal aplicação do genoma de referência está em ser utilizado como uma espécie de mapa para o alinhamento de sequências de leituras curtas. Eu temo entrar em uma divagação muito grande a este respeito, mas é interessante notar como este processo se tornou mais relevante com o advento do sequenciamento massivo em paralelo (que um dia já foi NGS: sequenciamento de nova geração) e com a enorme capacidade de gerar leituras que precisam ser alinhadas ao genoma de referência. 

É interessante também notar que o alinhamento ao genoma é um processo diferente da montagem ao genoma. Este último representa as metodologias empregadas no sequenciamento de novo de um genoma, com a montagem de um consenso a partir de diversos algoritmos que geralmente empregam a sobreposição de porções do genoma ou até mesmo de moléculas adaptadoras utilizadas no sequenciamento. O alinhamento pode ser feito por uma variedade de algoritmos e softwares (dois bastante populares hoje são o BWA-MEM e o Bowtie2) que irão utilizar diferentes estratégias para alinhar leituras curtas ao genoma de referência. Estas estratégias geralmente envolvem estabelecer uma pontuação por bases que são equivalentes (matches) e penalidades por bases que divergem (mismatches). Há ainda a questão que pode ser necessário alinhar leituras que contem inserções ou deleções em relação à referência. Pode ser que uma sequência específica que está presente na leitura do experimento não seja encontrada na posição correspondente do genoma de referência, ou o contrário. Parece bem mais complicado considerando esta possibilidade, não?

Uma coisa que gera confusão são as nomenclaturas utilizadas. O genoma de referência é compilado e lançado por duas instituições diferentes: o NCBI (no projeto RefSeq) e a UCSC. Inicialmente, esta última seguia uma nomenclatura com versões que diferiam das versões utilizadas pelo NCBI. Tinhamos o HG19 que era equivalente ao GRCh37. A partir da versão GRCh38, a UCSC decidiu adotar a nomenclatura HG38 para diminuir a confusão (não existe HG20). 

Inicialmente o NCBI publicava os genomas com a nomenclatura de builds: NCBI build 34 (UCSC HG16), NCBI build 35 (UCSC HG17) etc. A nomenclatura GRCh37 começou em 2009. O GRCh38 foi lançado pela primeira vez em dezembro de 2013. A minha principal hipótese é que as builds se referiam a nomenclaturas internas utilizadas na compilação do genoma e que foram mantidas para a publicação. 

Outra curiosidade é que um GRCh39 ainda não está em vista. O consórcio do genoma de referência decidiu adiar indefinidamente uma nova atualização para avaliar a possibilidade de novos modelos e sequências para representar de forma mais adequada a diversidade do genoma humano, incluindo o conceito de pangenoma. O genoma T2T foi lançado por um consórcio diferente: o consórcio Telomere-to-telomere. Existe ainda um consórcio do pangenoma humano. A ideia do pangenoma envolve a construção de um grafo para representar os diferentes genomas possíveis para a espécie, além da construção de alinhamentos de genomas para analisar variações entre eles (Garrison et al, 2024). 

Mas vamos começar de um ponto mais simples: o genoma de referência HG19/GRCh37. Para entender melhor esta versão do genoma, vamos recorrer a duas fontes diferentes. O projeto RefSeq do NCBI e o repositório dos genomas da UCSC. Na prática, desde o GRCh37/HG19 as sequências utilizadas como fonte primária são aquelas do consórcio do genoma de referência. A própria UCSC menciona a existência de pouquíssimas diferenças entre as duas versões: 

  • O repeat masking do genoma disponivel na UCSC é um pouco diferente daquele do NCBI. Repeat masking é um processo pelo qual regiões de baixa complexidade e altamente repetitivas do genoma são substituídos por Ns
  • A nomenclatura do NCBI consiste no código de acessão do refseq, enquanto a UCSC utiliza o código do cromossomo (I.E: chr1 vs NC_000001.11)
  • O genoma mitocondrial divergia entre o HG19 e o GRCh37.
No fim das contas, a UCSC na verdade compila sequências que compõem o genoma humano em uma montagem final da referência, e em geral, as sequências são basicamente as mesmas do NCBI RefSeq, porém também disponibilizam uma gama de anotações ao genoma, que são úteis para muitos pesquisadores por trazerem informações relevantes sobre regiões específicas de forma que podem ser usadas em análises downstream de bioinformática. 

Quando foi lançado, o GRCh37 era considerado como um projeto ainda em trabalho, por apresentar alguns poucos erros (menos que um a cada 10 mil bases) e por ter ainda alguns gaps que não podiam ser resolvidos com as tecnologias disponíveis na época. Ele consistia dos cromossomos de 1 a 22 com a nomenclatura da UCSC de chr1 a chr22, além dos alossomos: chrX, chrY e o cromossomo mitocondrial:chrM. Antes de adentrarmos nas outras sequências, é interessante notar que o chrY possui duas regiões pseuadoautossômicas que são duplicatas das regiões correspondentes no cromossomo X: 
  • chrY:10001 a 2649520(Yp11.32-p11.31) equivalente a chrX:60001 a 2699520 - Esta região corresponde a um locus de 2.6Mb em Xp22.33 (porção subtelomérica do braço curto do X);
  • chrY:59034050 a 59363566(Yq12) correspondente à região de 329,5Kb chrX:154931044-155260560 (na porção subtelomérica do braço longo em Xq28).
Para além disso, existem nesta versão haplótipos alternativos para regiões que foram consideradas de alta variabilidade, onde a presença de uma única sequência de referência não seria suficiente. Existem 9 haplótipos alternativos na versão original do hg19, sendo 7 correspondentes a haplótipos do MHC, 1 do cromossomo 4 e 1 do cromossomo 17. É neste momento que encontramos os primeiros contigs com nomes diferentes quando utilizamos esta versão do genoma de referência. 

Aqui vale um breve interlúdio para explicar como os nomes destes haplótipos alternativos surgiram. O Wellcome Sanger Institute realizou um projeto do sequenciamento do haplótipo do MHC de 8 linhagens celulares diferentes(link) (Horton et al, 2008). Os nomes se referem a sete destas linhagens celulares que foram sequenciadas e mapeadas (COX, QBL, SSTO, APD, DBB, MANN, MCF). Assim, temos os contigs correspondentes: chr6_apd_hap1, chr6_cox_hap2, chr6_dbb_hap3, chr6_mann_hap4, chr6_mcf_hap5, chr6_qbl_hap6 e chr6_ssto_hap7. 

Ainda temos os outros dois haplótipos mencionados de contigs dos cromossomos 4 e 17 que foram considerados de interesse pela variabilidade genética: chr4_ctg9_hap1 e chr17_ctg5_hap1.

Quando vamos efetivamente visualizar as sequências que compõem o genoma de referência, encontramos ainda outras nomenclaturas. Você pode ver por conta própria seguindo este link:



Aqui vemos mais algumas nomenclaturas que ainda não falamos a respeito. As principais são chrN_blábláblá_alt ou chrN_blábláblá_fix. As sequências terminadas com _alt são haplótipos alternativos que foram incluídos posteriormente, enquanto que as sequências terminadas com _fix são correções que foram feitas em patches depois do primeiro lançamento do HG19. Nota-se que a sequência original não é alterada, e o patch é introduzido como uma nova sequência dentro de um contexto genômico estabelecido.

Existem ainda as sequências que são nomeadas como chrN_bláblablá_random. Estas são sequências em que se conhece somente o cromossomo a qual elas pertencem, mas não a localização exata neste cromossomo. E por fim há sequencias que se iniciam com chrUn. Neste caso, não se conhece o cromossomo a qual elas pertencem, porém foram encontradas no sequenciamento do genoma humano. 

E por fim, o identificador blábláblá no chrN_blábláblá_alt/fix/random se refere ao número de acessão daquela sequência no NCBI RefSeq. Ok, pode ser que esta parte continue parecendo bastante aleatória, mas serve como um identificador para aquela sequência. 

Agora posso dizer que comecei a cumprir minha promessa de ajudar no entendimento do genoma de referência, após alguma enrolação. Em breve publicarei a parte 2 desta série com informações sobre o GRCh38 e provavelmente outras aleatoriedades.

Fiquem bem.  

Comentários

Postagens mais visitadas deste blog

Entendendo o genoma de referência (Introdução)

Entendendo o genoma de referência (parte 3)