Entendendo o genoma de referência (Introdução)

O entendimento da nossa espécie mudou drasticamente nos últimos anos. Entre outras coisas, temos a sequência do genoma humano já completamente conhecida depois do muito esperado genoma Telomere to Telomere (T2T) (Nurk et al, 2022). Isso tudo começou com um projeto que levou cerca de duas décadas e custou aproximadamente 2.7 bilhões de dólares ao todo: o projeto genoma humano, realizado por um consórcio que reunia instituições de diferentes países. 

Antes do projeto do Genoma Humano, conhecíamos apenas fragmentos diversos do código genético da nossa espécie, e em alguns casos, não sabíamos exatamente onde esses fragmentos se encaixariam. A verdade é que várias técnicas de biologia molecular que foram utilizadas nesta época já se tornaram obsoletas. Algumas delas foram importantes para o primeiro sequenciamento (ou sequenciamento de novo) do Genoma Humano. 

Um dos grandes desafios de sequenciar um genoma está no uso de leituras relativamente curtas de sequenciamento de Sanger - inicialmente realizado com eletroforese em gel e posteriormente em capilar - que deveriam ser montadas para corresponder à verdadeira sequência genética do ser humano. O consórcio público do genoma humano decidiu seguir em frente com a clonagem de fragmentos relativamente grandes (800Kb) do material genético em cromossomos bacterianos artificiais (BACs). Esta técnica permitiria amplificar o DNA a ser sequenciado de forma confiável e facilitaria a divisão de regiões a serem sequenciadas pelos diferentes centros participantes. 

É importante observar que inicialmente os pesquisadores do projeto não sabiam onde cada BAC iria se encaixar exatamente no genoma final. Para obter essa informação, primeiro realizaram diversas técnicas de mapeamento físico dos cromossomos artificiais: estudos de linkage, hibridização com sondas radioativas ou fluorescentes, fingerprinting genético, dentre outras. Isso permitiu posicionar os segmentos clonados e separados do DNA ao longo de um mapa físico separado por cromossomos do genoma humano. 

Posteriormente, o sequenciamento shotgun foi realizado nestes BACs para por fim montar as sequências contíguas (os contigs) e unir estas sequências em scaffolds (basicamente contigs unidos entre si, muitas vezes com buracos entre eles). Uma parte do trabalho se focou em formas de tentar vencer esses gaps existentes entre diferentes scaffolds, mas para algumas regiões do DNA isso era impraticável: existem regiões que são repetitivas demais e tem sequências adjacentes que não permitem diferenciar onde exatamente se encaixam no genoma humano. Não é possível montar estas regiões de forma confiável somente com sequenciamento de leituras curtas.

Um capítulo à parte no sequenciamento do genoma humano envolve o papel que a empresa Celera Genomics teve no processo - capitaneada pelo bioquímico excêntrico John Craig Venter, a empresa era crítica da metodologia utilizada pelo consórcio público, que era dirigido por Francis Collins. A Celera acreditava que era factível sequenciar o genoma com um grau de confiança bastante parecido utilizando somente o sequenciamento shotgun inteiramente aleatório, sem a necessidade de utilizar BACs e criar mapas físicos. Os fragmentos seriam todos resolvidos usando ferramentas de bioinformática no processamento secundário. 

A verdade é que a iniciativa de Craig Venter foi importante para pressionar o consórcio do genoma humano, que seguia a passos bastante lentos, porém sabemos hoje que nenhuma das duas técnicas permitiria sequenciar completamente o genoma humano sem nenhum buraco. Algo assim só se tornaria possível com o uso de técnicas que surgiram vários anos depois, através da utilização de fragmentos de altíssimo peso molecular de DNA e nanoporos. Técnicas que permitem o sequenciamento de moléculas de milhões de nucleotídeos de uma única vez. Somente assim é possível resolver a montagem de algumas porções extremamente repetitivas ou com alto grau de homologia a outras regiões do genoma humano. 

Outra verdade é que a Celera Genomics recorreu a utilizar dados disponíveis dos BACs quando chegou em algumas porções do genoma humano que não conseguiu sequenciar somente por fragmentos curtos produzidos aleatoriamente. Apesar do consórcio do genoma humano ter envolvido centros dos EUA, Reino Unido, Alemanha,  Japão e China, o trabalho passou a ser mais centralizado em cinco grandes centros: Wellcome Trust Sanger Institute, Broad institute/Whitehead Institute, Washington University in St. Louis, Baylor College of medicine e Department of Energy's joint Genome Institute (Walnut creek). 

A maior centralização foi acompanhada de uma certa organização em linha de produção do sequenciamento do genoma, o que permitiu que o consórcio do genoma humano e a Celera Genomics publicassem em conjunto a primeira versão draft do genoma - em 2001, em cerimonia que contou com a presença de Bill Clinton, Tony Blair, Craig Venter e Phil Collins. 

 Mas o trabalho na genômica estava apenas começando: ainda haviam muitas porções do genoma humano que não haviam sido sequenciadas ou cuja localização exata no genoma era desconhecida. O genoma não era exatamente representativo da diversidade humana (na verdade o genoma do consórcio público foi sequenciado a partir do material genético obtido de mais de cem doadores anônimos, embora o DNA de quatro voluntários, dois homens e duas mulheres, tenha sido majoritariamente utilizado, enquanto o genoma da Celera foi obtido a partir da amostra de cinco indivíduos), e talvez um dos pontos mais tantalizantes estivesse no significado daquelas sequências. O que realmente estava codificado pelo genoma humano? Que informações aqueles scaffolds e contigs continham em suas leituras? 

Meu plano inicial era escrever um texto explicativo sobre a organização do genoma de referência que utilizamos hoje em dia para propósitos diversos que envolvem bioinformática: do alinhamento de dados de sequenciamento à chamada de variantes. Acabou que este primeiro texto ganhou o título de introdução e abordou um pouco do processo de sequenciamento do genoma humano. Mas eu não desisti do meu plano inicial. O próximo texto irá tratar da organização do genoma de referência, em especial na sua versão HG38/GRCh38.

Até breve e fiquem bem.

Comentários

Postagens mais visitadas deste blog

Entendendo o genoma de referência (parte 1)

Entendendo o genoma de referência (parte 3)