Analisando a Lista de Fenótipos do OMIM - Parte 2
Eu preciso abrir esse texto dizendo que menti, infelizmente. Havia dito que a próxima publicação seria em um futuro próximo, porém acabei demorando mais que o que desejava para escrever esse texto. Bom, eu posso me consolar dizendo que o conceito de "futuro próximo" é relativo, mas é melhor seguir em frente antes que perca os leitores menos pacientes.
A análise da lista de fenótipos do OMIM que eu havia feito inicialmente (link aqui) havia parado quando eu retirei algumas palavras do corpus: and, type, syndrome, disease e with. Mas percebi que alguns termos genéticos também se repetem muito (como Chromosome, Autosomal, deletion etc). Até que decidi que queria uma representação visual dos epônimos nessa lista de condições genéticas.
Provavelmente há uma maneira mais fácil (ou não tão fácil) para quem trabalha com corpus para fazer esse processo. O fato é que a alternativa menos trabalhosa que descobri envolveria a utilização de um corpus maior, de referência, em língua inglesa, que contivesse dados sobre as partes da linguagem de cada componente. Então seria necessário fazer a anotação (sim, assim como fazemos anotações em arquivos de variantes genéticas, por exemplo, adicionando informações relevantes) da categoria morfológica de cada uma das palavras do corpus. Isso permitira remover categorias inteiras que não fossem relevantes para o que quero fazer.
O fato é que esta análise mais sofisticada do corpus envolve uma série de passos que eu ainda preciso aprender melhor, além do download de um arquivo de referência que pode ser da ordem de gigabytes. Como proprietário de um Macbook com 256GB de SSD, pode ser que eu esteja com pouco espaço disponível de armazenamento local. Todavia, decidi fazer uma curadoria manual da lista, além de ter usado alguns termos de regex para remover palavras específicas da representação (como De ou Von).
Além disso, aproveitei para retirar entradas repetidas o melhor que pude, já que havíamos notado que alguns fenótipos na verdade são bastante repetidos. Trata-se da mesma doença genética, porém com diferentes genes causadores. O mais egrégio exemplo foi Charcot-Marie-Tooth:
Comentários
Postar um comentário