Archium Interstitiale

Postagens

Entendo a sopa de letrinhas dos arquivos de sequenciamento genético: FASTQ

julho 18, 2025

Talvez o título possa parecer um pouco provocativo mas, talvez vocês concordão comigo em breve sobre o formato FASTQ, um dos mais comuns no contexto do sequenciamento massivo em paralelo. Os arquivos FASTQ também têm uma estrutura bem definida, como os arquivos FASTA, mas com mais informações.Isso acontece porque eles têm propósitos diferentes: o formato FASTQ surgiu para armazenar dados de leituras de sequenciamento em conjunto com dados de qualidade para cada base lida. As leituras são armazenadas sem uma ordem definida. O formato é bastante simples, na verdade, com 4 linhas por read, cada uma com informações diferentes: Linha 1: Inicia-se com um @ e em seguida tem o nome da read, além de poder ter alguma descricão Linha 2: São as bases lidas na read Linha 3: Geralmente consiste apenas do caractere +, porém pode repetir o identificador da linha 1 Linha 4: São os dados de qualidade, agora quase sempre calculados como um escore phred, codificados no formato...

Entendendo a sopa de letrinha dos formatos de arquivos de exames genéticos: FASTA e FAI

julho 15, 2025

Olá, amigos, como estão? Tranquilos? Quem está iniciando nos estudos da genômica e da bioinformática muitas vezes se sente perdido com a grande quantidade de formatos de arquivos que existem e o que significa cada um. Há uma grande variedade de formatos, de padronizações e algumas vezes o mesmo formato de arquivo possui vários padrões diferentes (o que geralmente irá gerar mais preocupação para quem está lidando com a bioinformática diretamente). Vamos começar do mais simples. O arquivo .FASTA, também visto como .FA, .FAS ou .FAA (este último muitas vezes é mais utilizado para sequências de aminoácidos). É um formato cujo propósito é armazenar sequências com um identificador individual. Um exemplo de arquivo FASTA válido seria: >SEQUÊNCIA 1 [organism=Homo sapiens] ATATTATTACGATAGCATA O identificador é precedido por um sinal de '>' (maior que) e na linha seguinte temos a sequência. É possível que hajam atributos específicos na linha de identificação, o que irá depender ...

Analisando a Lista de Fenótipos do OMIM - Parte 2

julho 14, 2025

Eu preciso abrir esse texto dizendo que menti, infelizmente. Havia dito que a próxima publicação seria em um futuro próximo, porém acabei demorando mais que o que desejava para escrever esse texto. Bom, eu posso me consolar dizendo que o conceito de "futuro próximo" é relativo, mas é melhor seguir em frente antes que perca os leitores menos pacientes. A análise da lista de fenótipos do OMIM que eu havia feito inicialmente ( link aqui ) havia parado quando eu retirei algumas palavras do corpus: and, type, syndrome, disease e with. Mas percebi que alguns termos genéticos também se repetem muito (como Chromosome, Autosomal, deletion etc). Até que decidi que queria uma representação visual dos epônimos nessa lista de condições genéticas. Provavelmente há uma maneira mais fácil (ou não tão fácil) para quem trabalha com corpus para fazer esse processo. O fato é que a alternativa menos trabalhosa que descobri envolveria a utilização de um corpus maior, de referência, em língua ingl...

Analisando a lista de fenótipos do OMIM - Parte 1

maio 12, 2025

Nós últimos dias eu estava interessado em fazer algumas análises na lista de fenótipos do OMIM. Mais especificamente, queria saber quais os nomes mais comuns de epônimos das doenças genéticas já registradas no banco de dados. Talvez um bom início seria começar baixando o banco de dados do site para fazer algumas análises. A pesquisa do OMIM permite listar até 100 entradas por página e te traz a opção de fazer download dos resultados no formato excel ou TSV, mas com um problema: o limite é de 200 ítens, a não ser que você se registre. Ao se registrar, seria possível fazer o download de alguns arquivos do banco de dados do site, porém é necessário preencher um formulário e aguardar resposta. Como ainda estou aguardando, e sendo um bom ansioso, decidi procurar uma alternativa para fazer o download da lista. Na verdade existe uma forma interessante, que inclusive permite listar os fenótipos e genes OMIM associados com regiões específicas do genoma humano. É o UCSC genome browser...

Entendendo o genoma de referência (parte 3)

abril 21, 2025

Olá, amigos, como estão? Tranquilos? Bem-vindos a mais um texto sobre o genoma de referência. Agora, without further ado, falaremos sobre o GRCh38. A versão mais atual do genoma, que está no seu patch 14, lançado em 03 de fevereiro de 2022 (GRCh38.p14). Aqui é útil retomar o conceito de que o genoma de referência humano é compilado a partir de dados de sequenciamento que são depositados no NCBI, sendo que a versão deste banco de dados é compilada pelo consórcio do genoma de referência e pode ser visitada neste link . Há também a versão compilada pela UCSC, basicamente a partir dos mesmos dados de sequenciamento, que contem opções diferentes de anotações, além de algumas opções especificamente para usos mais direcionados, em que a presença de haplótipos alternativos pode não ser tão útil. O link é este . Nessa versão do genoma, as nomenclaturas começaram a coincidir para diminuir confusões. Agora temos o GRCh38/hg38, lançado inicialmente em 2013. É interessante lembrar que o ...

O aumento na incidência do autismo e correlações espúrias

abril 20, 2025

Hoje eu estava em uma rede social que começa e termina com X (o antigo Twitter, é o epíteto mais comum) e vi algumas pessoas tentando fazer uma correlação espúria entre o aumento do número de vacinais disponíveis no mercado e o aumento dos casos de autismo: O gráfico ainda conta com um cálculo estatístico de correlação para tentar trazer uma aparência de maior legitimidade! Curiosamente alguém perguntou na mesma publicação qual seria a incidência de autismo em 1920. A resposta: Nada. De alguma forma isso também teria algum significado oculto que a indústria das vacinas não quer que você saiba. Talvez seja interessante notar que a definição de autismo como diagnóstico teve uma história bastante prolongada. O termo autismo foi cunhado em 1912 pelo psiquiatra suíço Paul Bleuler como autismus. A origem era do grego: Auto + Ismo - a ideia é de comportamento autocentrado. Antes disso, algumas descrições de demência precoce, infantil ou precocíssima poderiam ser relacionadas ao que hoje ...