Postagens

O Brasil, a genética e a eugenia: a aquiropodia como um estudo de caso

Imagem
Recentemente alguém me disse que veio ler alguns  artigos do meu blog porém achou que os conteúdos eram muito específicos para quem atua na genética. Eu não posso negar que a maior parte dos posts realmente tem um apelo mais específico e por isso decidi escrever algo um pouco diferente do conteúdo que estava sendo habitual (Mas eu também posso dizer que já escrevi alguns posts diferentes, como esse  ou esse ) O fato é que eu estava conversando com a professora Ida, que me falou sobre a aquiropodia como uma condição genética conhecida que teria sido descrita inicialmente por um brasileiro. Após algumas pesquisas, o resultado foi no mínimo inesperado:  A menção mais antiga à aquiropodia pareceu chegar a um pequeno editorial publicado em uma revista chamada de Eugenical News , publicada pela American Eugenics association  neste período. Essa mesma revista já foi publicada pelo instituto Carnegie de Washington (hoje mais conhecido como Carnegie Sciences) que se desvincul...

Entendo a sopa de letrinhas dos arquivos de sequenciamento genético: FASTQ

 Talvez o título possa parecer um pouco provocativo mas, talvez vocês concordão comigo em breve sobre o formato FASTQ, um dos mais comuns no contexto do sequenciamento massivo em paralelo.  Os arquivos FASTQ também têm uma estrutura bem definida, como os arquivos FASTA, mas com mais informações.Isso acontece porque eles têm propósitos diferentes: o formato FASTQ surgiu para armazenar dados de leituras de sequenciamento em conjunto com dados de qualidade para cada base lida. As leituras são armazenadas sem uma ordem definida.  O formato é bastante simples, na verdade, com 4 linhas por read, cada uma com informações diferentes:  Linha 1: Inicia-se com um @ e em seguida tem o nome da read, além de poder ter alguma descricão Linha 2: São as bases lidas na read  Linha 3: Geralmente consiste apenas do caractere +, porém pode repetir o identificador da linha 1 Linha 4: São os dados de qualidade, agora quase sempre calculados como um escore phred, codificados no formato...

Entendendo a sopa de letrinha dos formatos de arquivos de exames genéticos: FASTA e FAI

Imagem
Olá, amigos, como estão? Tranquilos? Quem está iniciando nos estudos da genômica e da bioinformática muitas vezes se sente perdido com a grande quantidade de formatos de arquivos que existem e o que significa cada um. Há uma grande variedade de formatos, de padronizações e algumas vezes o mesmo formato de arquivo possui vários padrões diferentes (o que geralmente irá gerar mais preocupação para quem está lidando com a bioinformática diretamente). Vamos começar do mais simples. O arquivo .FASTA, também visto como .FA, .FAS ou .FAA (este último muitas vezes é mais utilizado para sequências de aminoácidos). É um formato cujo propósito é armazenar sequências com um identificador individual. Um exemplo de arquivo FASTA válido seria: >SEQUÊNCIA 1 [organism=Homo sapiens] ATATTATTACGATAGCATA O identificador é precedido por um sinal de '>' (maior que) e na linha seguinte temos a sequência. É possível que hajam atributos específicos na linha de identificação, o que irá depender ...

Analisando a Lista de Fenótipos do OMIM - Parte 2

Imagem
Eu preciso abrir esse texto dizendo que menti, infelizmente. Havia dito que a próxima publicação seria em um futuro próximo, porém acabei demorando mais que o que desejava para escrever esse texto. Bom, eu posso me consolar dizendo que o conceito de "futuro próximo" é relativo, mas é melhor seguir em frente antes que perca os leitores menos pacientes.  A análise da lista de fenótipos do OMIM que eu havia feito inicialmente ( link aqui ) havia parado quando eu retirei algumas palavras do corpus: and, type, syndrome, disease e with. Mas percebi que alguns termos genéticos também se repetem muito (como Chromosome, Autosomal, deletion etc). Até que decidi que queria uma representação visual dos epônimos nessa lista de condições genéticas. Provavelmente há uma maneira mais fácil (ou não tão fácil) para quem trabalha com corpus para fazer esse processo. O fato é que a alternativa menos trabalhosa que descobri envolveria a utilização de um corpus maior, de referência, em língua ingl...

Analisando a lista de fenótipos do OMIM - Parte 1

Imagem
Nós últimos dias eu estava interessado em fazer algumas análises na lista de fenótipos do OMIM. Mais especificamente, queria saber quais os nomes mais comuns de epônimos das doenças genéticas já registradas no banco de dados.  Talvez um bom início seria começar baixando o banco de dados do site para fazer algumas análises. A pesquisa do OMIM permite listar até 100 entradas por página e te traz a opção de fazer download dos resultados no formato excel ou TSV, mas com um problema: o limite é de 200 ítens, a não ser que você se registre. Ao se registrar, seria possível fazer o download de alguns arquivos do banco de dados do site, porém é necessário preencher um formulário e aguardar resposta.  Como ainda estou aguardando, e sendo um bom ansioso, decidi procurar uma alternativa para fazer o download da lista. Na verdade existe uma forma interessante, que inclusive permite listar os fenótipos e genes OMIM associados com regiões específicas do genoma humano. É o UCSC genome browser...

Entendendo o genoma de referência (parte 3)

Imagem
 Olá, amigos, como estão? Tranquilos? Bem-vindos a mais um texto sobre o genoma de referência. Agora, without further ado, falaremos sobre o GRCh38. A versão mais atual do genoma, que está no seu patch 14, lançado em 03 de fevereiro de 2022 (GRCh38.p14).  Aqui é útil retomar o conceito de que o genoma de referência humano é compilado a partir de dados de sequenciamento que são depositados no NCBI, sendo que a versão deste banco de dados é compilada pelo consórcio do genoma de referência e pode ser visitada neste link . Há também a versão compilada pela UCSC, basicamente a partir dos mesmos dados de sequenciamento, que contem opções diferentes de anotações, além de algumas opções especificamente para usos mais direcionados, em que a presença de haplótipos alternativos pode não ser tão útil. O link é este . Nessa versão do genoma, as nomenclaturas começaram a coincidir para diminuir confusões. Agora temos o GRCh38/hg38, lançado inicialmente em 2013. É interessante lembrar que o ...

O aumento na incidência do autismo e correlações espúrias

Imagem
 Hoje eu estava em uma rede social que começa e termina com X (o antigo Twitter, é o epíteto mais comum) e vi algumas pessoas tentando fazer uma correlação espúria entre o aumento do número de vacinais disponíveis no mercado e o aumento dos casos de autismo: O gráfico ainda conta com um cálculo estatístico de correlação para tentar trazer uma aparência de maior legitimidade! Curiosamente alguém perguntou na mesma publicação qual seria a incidência de autismo em 1920. A resposta: Nada. De alguma forma isso também teria algum significado oculto que a indústria das vacinas não quer que você saiba. Talvez seja interessante notar que a definição de autismo como diagnóstico teve uma história bastante prolongada. O termo autismo foi cunhado em 1912 pelo psiquiatra suíço Paul Bleuler como autismus. A origem era do grego: Auto + Ismo - a ideia é de comportamento autocentrado. Antes disso, algumas descrições de demência precoce, infantil ou precocíssima poderiam ser relacionadas ao que hoje ...