Archium Interstitiale

Postagens

Mostrando postagens de julho, 2025

O Brasil, a genética e a eugenia: a aquiropodia como um estudo de caso

julho 30, 2025

Recentemente alguém me disse que veio ler alguns artigos do meu blog porém achou que os conteúdos eram muito específicos para quem atua na genética. Eu não posso negar que a maior parte dos posts realmente tem um apelo mais específico e por isso decidi escrever algo um pouco diferente do conteúdo que estava sendo habitual (Mas eu também posso dizer que já escrevi alguns posts diferentes, como esse ou esse ) O fato é que eu estava conversando com a professora Ida, que me falou sobre a aquiropodia como uma condição genética conhecida que teria sido descrita inicialmente por um brasileiro. Após algumas pesquisas, o resultado foi no mínimo inesperado: A menção mais antiga à aquiropodia pareceu chegar a um pequeno editorial publicado em uma revista chamada de Eugenical News , publicada pela American Eugenics association neste período. Essa mesma revista já foi publicada pelo instituto Carnegie de Washington (hoje mais conhecido como Carnegie Sciences) que se desvincul...

Entendo a sopa de letrinhas dos arquivos de sequenciamento genético: FASTQ

julho 18, 2025

Talvez o título possa parecer um pouco provocativo mas, talvez vocês concordão comigo em breve sobre o formato FASTQ, um dos mais comuns no contexto do sequenciamento massivo em paralelo. Os arquivos FASTQ também têm uma estrutura bem definida, como os arquivos FASTA, mas com mais informações.Isso acontece porque eles têm propósitos diferentes: o formato FASTQ surgiu para armazenar dados de leituras de sequenciamento em conjunto com dados de qualidade para cada base lida. As leituras são armazenadas sem uma ordem definida. O formato é bastante simples, na verdade, com 4 linhas por read, cada uma com informações diferentes: Linha 1: Inicia-se com um @ e em seguida tem o nome da read, além de poder ter alguma descricão Linha 2: São as bases lidas na read Linha 3: Geralmente consiste apenas do caractere +, porém pode repetir o identificador da linha 1 Linha 4: São os dados de qualidade, agora quase sempre calculados como um escore phred, codificados no formato...

Entendendo a sopa de letrinha dos formatos de arquivos de exames genéticos: FASTA e FAI

julho 15, 2025

Olá, amigos, como estão? Tranquilos? Quem está iniciando nos estudos da genômica e da bioinformática muitas vezes se sente perdido com a grande quantidade de formatos de arquivos que existem e o que significa cada um. Há uma grande variedade de formatos, de padronizações e algumas vezes o mesmo formato de arquivo possui vários padrões diferentes (o que geralmente irá gerar mais preocupação para quem está lidando com a bioinformática diretamente). Vamos começar do mais simples. O arquivo .FASTA, também visto como .FA, .FAS ou .FAA (este último muitas vezes é mais utilizado para sequências de aminoácidos). É um formato cujo propósito é armazenar sequências com um identificador individual. Um exemplo de arquivo FASTA válido seria: >SEQUÊNCIA 1 [organism=Homo sapiens] ATATTATTACGATAGCATA O identificador é precedido por um sinal de '>' (maior que) e na linha seguinte temos a sequência. É possível que hajam atributos específicos na linha de identificação, o que irá depender ...

Analisando a Lista de Fenótipos do OMIM - Parte 2

julho 14, 2025

Eu preciso abrir esse texto dizendo que menti, infelizmente. Havia dito que a próxima publicação seria em um futuro próximo, porém acabei demorando mais que o que desejava para escrever esse texto. Bom, eu posso me consolar dizendo que o conceito de "futuro próximo" é relativo, mas é melhor seguir em frente antes que perca os leitores menos pacientes. A análise da lista de fenótipos do OMIM que eu havia feito inicialmente ( link aqui ) havia parado quando eu retirei algumas palavras do corpus: and, type, syndrome, disease e with. Mas percebi que alguns termos genéticos também se repetem muito (como Chromosome, Autosomal, deletion etc). Até que decidi que queria uma representação visual dos epônimos nessa lista de condições genéticas. Provavelmente há uma maneira mais fácil (ou não tão fácil) para quem trabalha com corpus para fazer esse processo. O fato é que a alternativa menos trabalhosa que descobri envolveria a utilização de um corpus maior, de referência, em língua ingl...