Analisando a Lista de Fenótipos do OMIM - Parte 2

Eu preciso abrir esse texto dizendo que menti, infelizmente. Havia dito que a próxima publicação seria em um futuro próximo, porém acabei demorando mais que o que desejava para escrever esse texto. Bom, eu posso me consolar dizendo que o conceito de "futuro próximo" é relativo, mas é melhor seguir em frente antes que perca os leitores menos pacientes. 

A análise da lista de fenótipos do OMIM que eu havia feito inicialmente (link aqui) havia parado quando eu retirei algumas palavras do corpus: and, type, syndrome, disease e with. Mas percebi que alguns termos genéticos também se repetem muito (como Chromosome, Autosomal, deletion etc). Até que decidi que queria uma representação visual dos epônimos nessa lista de condições genéticas.

Provavelmente há uma maneira mais fácil (ou não tão fácil) para quem trabalha com corpus para fazer esse processo. O fato é que a alternativa menos trabalhosa que descobri envolveria a utilização de um corpus maior, de referência, em língua inglesa, que contivesse dados sobre as partes da linguagem de cada componente. Então seria necessário fazer a anotação (sim, assim como fazemos anotações em arquivos de variantes genéticas, por exemplo, adicionando informações relevantes) da categoria morfológica  de cada uma das palavras do corpus. Isso permitira remover categorias inteiras que não fossem relevantes para o que quero fazer.

O fato é que esta análise mais sofisticada do corpus envolve uma série de passos que eu ainda preciso aprender melhor, além do download de um arquivo de referência que pode ser da ordem de gigabytes. Como proprietário de um Macbook com 256GB de SSD, pode ser que eu esteja com pouco espaço disponível de armazenamento local.  Todavia, decidi fazer uma curadoria manual da lista, além de ter usado alguns termos de regex para remover palavras específicas da representação (como De ou Von). 

Além disso, aproveitei para retirar entradas repetidas o melhor que pude, já que havíamos notado que alguns fenótipos na verdade são bastante repetidos. Trata-se da mesma doença genética, porém com diferentes genes causadores. O mais egrégio exemplo foi Charcot-Marie-Tooth:


Vocês podem reparar também que alguns outros epônimos associados com fenótipos mais geneticamente heterogêneos estão super-representados nesta imagem: Brugada, Usher, Ehlers e Danlos, Parkinson, Coffin e Siris. Muitos destes nomes costumam ocorrer em dupla ou até trio (Charcot-Marie-Tooth, anyone?), na verdade. 

Assim, eu entrei na trabalhosa tarefa de fazer a curadoria manual desta lista para remover outros termos e duplicatas. Ah, também adicionei as displasias que continham epônimos, que haviam sido ignorados na versão anterior. Posso dizer que não fui inteiramente perfeito na minha tarefa, porém aprendi a aceitar as imperfeições da vida e me contentei com o gráfico seguinte:


As cores também são significativas na proporção que cada nome apareceu em fenótipos. Os nomes mais comuns foram: Smith, Vries, Opitz e Li. Os três primeiros são nomes de famosos pesquisadores na genética médica. Li é um pouco mais complexo por ser um sobrenome bastante comum na China e fora dela. Inclusive, há uma síndrome que tem dois Li's em seu nome: Li-Shao-Li. 

Li-Shao-Li é um tipo de displasia espondiloepimetafisária causada por variantes no gene CCN2 (omim). Foi descrita em 2024 por pesquisadores da Universidade Jiao Tong de Shanghai  (link do paper). A verdade é que existem 4 autores com sobrenome Li na publicação, além de um Shao. Suponho que o epônimo se refere aos três primeiros autores. 

E assim concluo, por ora, minha análise da lista de fenótipos do OMIM. Até onde vi, não recebi uma resposta do pedido para acessar a lista completa de fenótipos, porém o UCSC Genome Browser tem estes dados em uma dos seus arquivos de anotação do genoma humano. 

Fiquem bem e acompanhem o blog para mais textos interessantes.


Comentários

Postagens mais visitadas deste blog

Entendendo o genoma de referência (parte 1)

Entendendo o genoma de referência (Introdução)

O Brasil, a genética e a eugenia: a aquiropodia como um estudo de caso