IA aplicada para estudar a causa genética de doenças

Uma das maneiras que os cientistas usam para investigar o metabolismo celular é sequenciar e quantificar as moléculas de RNA presente dentro da célula. O RNA é a molécula expressa a partir do DNA e que carrega a informação necessária do núcleo da célula até o seu alvo, onde ela exercerá algum tipo de atividade. A sequência revela que informação é essa, e a quantidade é um indicativo do nível de atividade que essa informação vai elicitar. O perfil de expressão gerado por este método é chamado de transcriptoma, e é um indicativo do estado metabólico da célula, podendo ser usado para indicar um organismo sadio ou doente.

Hoje em dia, a etapa de construção de um transcriptoma é muito fácil; existem equipamentos que realizam a tarefa para diferentes células e/ou tecidos em um tempo muito curto. O grande gargalo é no processamento desses dados. Cada transcriptoma tem milhares de sequências únicas, e mapeá-las até a informação que carregam ainda demanda muito tempo e recursos computacionais. Entender como atividades específicas contribuem para o estado de um organismo inteiro é ainda mais complicado, já que todos os agentes nessa cadeia interagem de forma complexa.

Mas essa enorme quantidade de dados parece ser um candidato adequado para a exploração usando inteligência artificial. É o que pesquisadores da Universidade de Linköping, na Suécia, fizeram. Eles usaram dados de transcriptoma referentes a 20 mil genes, obtidos de diferentes laboratórios e pessoas, para treinar uma rede neural do tipo autoencoder, forçando com que a informação fosse cada vez mais comprimida até um embedding central. A rede não recebeu nenhuma informação sobre possíveis interações entre as moléculas de RNA, de forma que, se encontrasse alguma associação, ela faria isso por conta própria. E foi o que aconteceu. Eles observaram que as camadas escondidas dessa rede revelavam diferentes níveis de interação metabólica. Nas primeiras camadas, foi possível observar um sinal para interação do tipo proteína-proteína, uma das formas mais elementais dentro da célula, que foi sumindo nas camadas seguintes. Na terceira camada, ficou evidente a interação entre diferentes tipos celulares, o que indica um nível de complexidade maior. Já na última camada, estavam presentes associações entre genes indicativos de estados mais gerais do organismo, como diversas doenças.

Os autores do trabalho então testaram se a rede poderia ser usada para determinar quais padrões de expressão de RNA estavam associados com doenças específicas ou organismos saudáveis. Os resultados revelaram padrões que concordavam com os mecanismos biológicos do corpo, ou seja, alterações relacionadas a genes ativos no fígado indicavam doenças relacionadas ao fígado. O mais interessante é que, como a rede foi treinada sem conhecimento prévio das doenças, é bem possível que ela tenha descoberto padrões de expressão anteriormente desconhecidos.

O trabalho foi publicado no último dia 12, e tanto os dados quanto os algoritmos estão disponíveis ao público. Os pesquisadores dizem que essa é a primeira vez que um algoritmo de deep learning foi usado para encontrar genes relacionados a doenças, de forma não-supervisionada. Eles agora pretendem investigar se os novos padrões associados a doenças podem ser validados, ou seja, se eles têm o impacto biológico esperado nesses quadros.

No futuro, além de fornecer novas informações sobre o metabolismo celular em seus diferentes níveis, pesquisas como essa podem catapultar áreas como a medicina personalizada, já que uma mesma doença pode ser causada por mais de um distúrbio metabólico, os quais reagem de forma diversa a diferentes tratamentos.

Seja o primeiro a comentar

    Deixe uma resposta

    O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *