Entendendo o genoma de referência (parte 2)

No último texto já falamos um pouco mais sobre o que é um genoma de referência, sobre o GRCh37/hg19 e como ele é composto. Aliás, falamos sobre as sequências que compões o hg19 e como elas são nomeadas, mas talvez alguns pontos tenham ficado em aberto. 

O genoma de referência pode ser acessado tanto pelo NCBI quanto pela UCSC:

Quando acessado pelo NCBI, já surge um alerta que essa versão está desatualizada, com um link para a versão mais nova do GRCh38. Mas também temos alguns outros dados. É possível observar que se trata de um genoma haploide com loci alternativos. O fato de ser um genoma haploide significa que durante o sequenciamento, foi escolhido uma base mais representativa para cada posição, mesmo que o ser humano seja diploide. 

Algumas estatísticas interessantes também estão disponíveis. O tamanho total é de 3.1 milhões de nucleotídeos, sendo que existiam 271 gaps entre os diferentes scaffolds (lembrando que estes são junções de contigs com a presença de buracos), além de 249 scaffolds ao todo. Os scaffolds contem ao todo 350 contigs e a porcentagem de GC em todo o genoma é de 41%. Há ainda uma tabela que permite visualizar as versões do genoma humano, incluindo as mais recentes e quando cada uma delas foi lançada.  

Por fim é possível acessar uma lista das anotações do RefSeq referentes a esta versão do genoma. Aqui é interessante fazer um pequeno desvio do tema principal para explicar que o RefSeq é um banco de dados público e compilado pelo NCBI através de dados de pesquisadores que submeteram as anotações para o GenBank (mais a respeito depois). O RefSeq se propõe a ter dados da sequência de genes, transcritos e proteínas, além de anotações referentes a estas sequências. As anotações são elementos que de alguma forma são de interesse para aquela sequência. Podem ser um éxon, no caso de um gene, ou um sítio catalítico, no caso da sequência de uma enzima do tipo protease. 

O RefSeq é um banco de dados imenso e possui sequências anotadas de muitas espécies diferentes além do Homo Sapiens. Outro projeto que é parecido com esse é o GenBank, também do NCBI. A diferença é que o GenBank consiste em um banco de dados que integra todas as submissões de sequências biológicas feitas por psequisadores, enquanto o refseq se propõe a fazer um conjunto de sequências de referência, mantendo somente uma entrada por sequência biológica com dados bem estabelecidos. 

Quando vamos ver um identificador do RefSeq, geralmente ele irá conter duas letras iniciais que indicam o tipo de molécula:
  • NC moléculas genômicas completas; 
  • NG regiões genômicas incompletas;
  • NM RNA mensageiro;
  • NR RNA não codificante;
  • NP Proteína;
  • XM molécula de mRNA predita mas não sequenciada;
  • XR molécula de RNA não codificante predita, mas não sequenciada;
  • XP molécula de proteína predita de eucarionte;
  • WP molécula de proteína predita de procarionte.
Neste momento é útil saber também que além das sequências que são depositadas no GenBank e estão no RefSeq, o banco de dados ENSEMBL também representa uma fonte significativa de sequências biológicas, e é um projeto do EBI: European Bioinformatics Institute. O ENSEMBL utilza os genes humanos e anotações do projeto GENCODE. 

Por fim, o GRCh37 pode ser baixado através de um link do dire'tório FTP disponível na página acima do NCBI:


Aqui existem uma série de arquivos diferentes que podem ser utilizados em diferentes contextos. Na genômica, geralmente iremos utilizar os arquivos marcados como _genomic. Em especial o arquivo maracado como .fna.gz, que contem todas as sequências que compõem o genoma de referência no formato FASTA, que é basicamente uma forma de armazenar sequências biológicas que geralmente irá seguir a seguinte estrutura:

>ID da sequência 1
NNNNNNNNNNATATATATACGatacgNNNNNNNNNNN
>ID da sequência 2
sequência2

Como no exemplo abaixo do cromossomo 1:

Neste caso, o ID da sequência é a primeira linha após o sinal >. "NC_000001.10 Homo sapiens chromosome 1, GRCh37 primary reference assembly". O começo do cromossomo 1 é composto inteiramente por Ns (assim como o seu final) pois estas regiões subteloméricas não são bem resolvidas pelo sequenciamento utilizado. 

Os outros arquivos contem outras informações sobre o genoma. O arquivo GBFF, em especial, é composto por toda a sequência do genoma, assim como o arquivo FNA, porém em um formato diferente adotado pelo GenBank. Por ter mais informações, o arquivo final é maior. 

O arquivo .GFF irá conter anotações sobre as regiões do genoma disponíveis nos arquivos de sequência, em um formato tabular:

O arquivo .GTF é bastante semelhante, porém existe por motivos históricos, em síntese. Vale mencionar que todos os arquivos estão comprimidos na extensão .gz para otimizar o espaço que ocupam no armazenamento. Por fim o arquivo genomic_gaps contem informações justamente sobre os gaps que permaneceram nesta versão do genoma. 

É possível baixar basicamente os mesmos arquivos, com anotações diferentes, no link da UCSC. Neste diretório o mais interessante é, na verdade, o subdiretório analysis set. Uma versão do genoma que foi preparada para uso com pipelines de alinhamento de dados de sequenciamento massivo em paralelo (ou NGS). Existem versões sem os haplótipos alternativos, sem patches já obsoletos e com uma sequência do genoma do vírus EBV que serve para alinhar leituras que possivelmente sejam oriundas do vírus, que é capaz de se integrar no genoma do hospedeiro, e pode aparecer nos dados de sequenciamento.  

Arquivos específicos para os softwares mais populares são disponibilizados já prontos (BWA-MEM, Bowtie2 e hisat2), para que o usuário não precise realizar o processo de indexação do genoma no seu computador. 

Acredito que irei terminar o texto por aqui, pois ele ficou maior do que eu havia esperado para trazer apenas algumas informações adicionais. Na próxima parte, sem falta, falaremos sobre o GRCh38.

Fiquem bem.




 

Comentários

Postagens mais visitadas deste blog

Entendendo o genoma de referência (parte 1)

Entendendo o genoma de referência (Introdução)

Entendendo o genoma de referência (parte 3)