Entendendo o genoma de referência (parte 1)
Que bom que voltaram!
Na parte anterior falei mais sobre a história do sequenciamento do genoma humano e alguns desafios envolvidos nesse processo. De forma alguma foi uma abordagem extensiva e eu indicaria bastante, a quem interessar, ler mais a respeito deste processo. Duas fontes que eu achei interessante foram as primeiras publicações do resultado do projeto.
Eu digo duas fontes porque o genoma humano foi publicado em dois principais artigos diferentes: Um na revista Nature (link), pelo consórcio internacional do genoma humano, e outro na Science (link) por Craig Venter e a equipe da Celera. Na verdade as revistas lançaram uma edição especial voltada para o genoma humano e é bastante interessante dar uma olhada nas edições completas:
(Esta foto foi tirada no laboratório de Genética Clínica da FM/UnB - As revistas pertencem ao laboratório e foram parte da coleção da Profª Drª Iris Ferrari)
Com a publicação do genoma humano várias outras questões surgiram. Algumas delas ainda estão sem resposta e provavelmente continuarão assim por um bom tempo. No fim das contas, os dados divulgados pelo consórcio do genoma humano formaram a base para o que utilizamos hoje em dia como genoma de referência para a espécie humana.
Uma coisa interessante de se notar, é que este genoma de referência representa uma espécie de mosaico, afinal, foi sequenciado a partir de vários indivíduos diferentes, e estar no genoma de referência não significa de forma alguma que algum alelo é o mais comum dentre todos encontrados na espécie humana. Na verdade é mais fácil encarar que em algum momento aquele alelo foi definido como um consenso da sequência do genoma humano, mesmo que um alelo alternativo no mesmo locus tenha frequência populacional superior a 99%. Não é de surpreender que eventualmente algumas variantes raras tenham entrado no genoma de referência, afinal de contas, estamos falando de bilhões de pares de base.
O genoma de referência é um consenso da sequência genética de uma espécie. No caso do ser humano, é utilizado como uma sequência haploide. Inicialmente, foi considerado somente um alelo por posição, embora saibamos que o ser humano possui uma ploidia de 2.
A principal aplicação do genoma de referência está em ser utilizado como uma espécie de mapa para o alinhamento de sequências de leituras curtas. Eu temo entrar em uma divagação muito grande a este respeito, mas é interessante notar como este processo se tornou mais relevante com o advento do sequenciamento massivo em paralelo (que um dia já foi NGS: sequenciamento de nova geração) e com a enorme capacidade de gerar leituras que precisam ser alinhadas ao genoma de referência.
É interessante também notar que o alinhamento ao genoma é um processo diferente da montagem ao genoma. Este último representa as metodologias empregadas no sequenciamento de novo de um genoma, com a montagem de um consenso a partir de diversos algoritmos que geralmente empregam a sobreposição de porções do genoma ou até mesmo de moléculas adaptadoras utilizadas no sequenciamento. O alinhamento pode ser feito por uma variedade de algoritmos e softwares (dois bastante populares hoje são o BWA-MEM e o Bowtie2) que irão utilizar diferentes estratégias para alinhar leituras curtas ao genoma de referência. Estas estratégias geralmente envolvem estabelecer uma pontuação por bases que são equivalentes (matches) e penalidades por bases que divergem (mismatches). Há ainda a questão que pode ser necessário alinhar leituras que contem inserções ou deleções em relação à referência. Pode ser que uma sequência específica que está presente na leitura do experimento não seja encontrada na posição correspondente do genoma de referência, ou o contrário. Parece bem mais complicado considerando esta possibilidade, não?
Uma coisa que gera confusão são as nomenclaturas utilizadas. O genoma de referência é compilado e lançado por duas instituições diferentes: o NCBI (no projeto RefSeq) e a UCSC. Inicialmente, esta última seguia uma nomenclatura com versões que diferiam das versões utilizadas pelo NCBI. Tinhamos o HG19 que era equivalente ao GRCh37. A partir da versão GRCh38, a UCSC decidiu adotar a nomenclatura HG38 para diminuir a confusão (não existe HG20).
Inicialmente o NCBI publicava os genomas com a nomenclatura de builds: NCBI build 34 (UCSC HG16), NCBI build 35 (UCSC HG17) etc. A nomenclatura GRCh37 começou em 2009. O GRCh38 foi lançado pela primeira vez em dezembro de 2013. A minha principal hipótese é que as builds se referiam a nomenclaturas internas utilizadas na compilação do genoma e que foram mantidas para a publicação.
Outra curiosidade é que um GRCh39 ainda não está em vista. O consórcio do genoma de referência decidiu adiar indefinidamente uma nova atualização para avaliar a possibilidade de novos modelos e sequências para representar de forma mais adequada a diversidade do genoma humano, incluindo o conceito de pangenoma. O genoma T2T foi lançado por um consórcio diferente: o consórcio Telomere-to-telomere. Existe ainda um consórcio do pangenoma humano. A ideia do pangenoma envolve a construção de um grafo para representar os diferentes genomas possíveis para a espécie, além da construção de alinhamentos de genomas para analisar variações entre eles (Garrison et al, 2024).
Mas vamos começar de um ponto mais simples: o genoma de referência HG19/GRCh37. Para entender melhor esta versão do genoma, vamos recorrer a duas fontes diferentes. O projeto RefSeq do NCBI e o repositório dos genomas da UCSC. Na prática, desde o GRCh37/HG19 as sequências utilizadas como fonte primária são aquelas do consórcio do genoma de referência. A própria UCSC menciona a existência de pouquíssimas diferenças entre as duas versões:
- O repeat masking do genoma disponivel na UCSC é um pouco diferente daquele do NCBI. Repeat masking é um processo pelo qual regiões de baixa complexidade e altamente repetitivas do genoma são substituídos por Ns
- A nomenclatura do NCBI consiste no código de acessão do refseq, enquanto a UCSC utiliza o código do cromossomo (I.E: chr1 vs NC_000001.11)
- O genoma mitocondrial divergia entre o HG19 e o GRCh37.
- chrY:10001 a 2649520(Yp11.32-p11.31) equivalente a chrX:60001 a 2699520 - Esta região corresponde a um locus de 2.6Mb em Xp22.33 (porção subtelomérica do braço curto do X);
- chrY:59034050 a 59363566(Yq12) correspondente à região de 329,5Kb chrX:154931044-155260560 (na porção subtelomérica do braço longo em Xq28).
Comentários
Postar um comentário