Alucinação
Perturbação mental que se caracteriza pelo aparecimento de sensações (visuais, auditivas etc.) atribuídas a causas objetivas que, na realidade, inexistem; sensação sem objeto.
Oxford Languages
O que alucinações tem a ver com proteínas? Neste texto, falaremos de como os cientistas tem usado redes neurais profundas para criar novas proteínas nunca identificadas em seres vivos para desempenhar funções desejadas.
Projetar proteínas é um problema difícil
As proteínas são moléculas primordiais para a vida. Desempenham uma ampla gama de funções essenciais nos seres vivos. Elas tem também grande relevância na biotecnologia de modo que grande esforço tem se concentrado na engenharia de proteínas. Seja na alterações de proteínas existentes para que adquiram uma determinada função desejada, seja na criação de proteínas absolutamente novas (design de novo).
O design de proteínas de novo tem sido resolvido por métodos de otimização, ou seja, que buscam identificar os parâmetros uma função matemática que gerem o seu valor mínimo (ou máximo). Neste caso, busca-se minimizar uma função de energia que é calculada com base nas interações entre os átomos da proteína.
Computacionalmente, este é um problema com um espaço de busca gigantesco (possíveis conformações de uma proteína) e é resolvido através de heurísticas, que são algoritmos aproximados. Até então, o sucesso dessas abordagens tem sido limitado.
Entretanto, este problema tem sido revisitado sob a perspectiva dos modelos de aprendizado baseados em redes neurais profundas (deep learning). Essa é uma abordagem promissora no cenário atual em que temos grandes quantidades de estruturas de proteínas resolvidas e com funções identificadas.
Alucinações para criação de arte
O projeto DeepDream do Google visa produzir obras de arte através de inteligência artificial que combina obras de arte criadas por humanos e fotos originando imagens psicodélicas. Um grupo de pesquisadores liderado pelo Prof. David Baker, da Universidade de Washington, inspirados nesse processo que eles denominaram alucinação, criaram um método para construção de proteínas de novo.

Alucinando proteínas

A ideia do método de Baker e colaboradores [2] consiste em gerar sequencias aleatórias e computar seus mapas de distâncias. Temos um texto aqui sobre mapas de distância.
O trRosetta é um algoritmo para modelagem da estrutura de proteínas com base em minimizações de energia. As restrições incluem a distância entre os resíduos e distribuições de orientação, previstas por uma rede neural profunda. O trRosetta foi treinado com estruturas de proteínas do PDB para aprender os padrões de enovelamento de proteínas de estrutura resolvida experimentalmente.

Os autores criaram então um
conjunto 2.000 sequências de proteínas aleatórias, com 100 aminoácidos de comprimento cada. Usaram o trRosetta, para prever a distribuição de distâncias e orientação entre todos os pares de resíduos, que podem ser representado em mapas de distância mapas (Figura 2). Os mapas iniciais
(passo 0) são borrados não mostram padrões. Em cada iteração, as sequências são mutadas um resíduo por vez. A mutação é aceita sempre que o contraste entre a distribuição prevista de trRosetta de distâncias entre resíduos e uma distribuição genérica média calculada sobre todas as proteínas atinge um critério de corte pré-definido. Mutações aceitas tendem a produzir mapas de distância melhores do que os das etapas anteriores (Figura 2, passo 40.000).
Das 2.000 estruturas de saída geradas, os autores selecionaram 129 e expressaram
em Escherichia coli, purificaram e analisaram. 27 delas produziram proteínas com
espectros de dicroísmo consistentes com os de estruturas previstas e exclusão de tamanho
picos de cromatografia correspondentes a espécies monoméricas ou oligoméricas pequenas.
As estruturas tridimensionais foram determinadas para 3 das proteínas (Figura 3), duas por cristalografia de raios-X e uma por ressonância magnética, e eles correspondiam aos modelos “alucinados”.
Esse trabalho pioneiro mostra o grande potencial dos métodos baseados em redes neurais na engenharia de proteínas. Segundo [1], ele também levanta novas questões para trabalhos futuros:
- Até o momento, sequencias aleatórias são geradas e adquirem mutações também aleatórias. Será possível ter mais direção sobre a geração de sequências nesse processo?
- Seremos capazes de gerar proteína de arquiteturas não vistas durante o treinamento? Ou seja, esses modelos serão capazes de extrapolar o conhecimento fornecido como entrada nas proteínas conhecidas permitindo a criação de proteínas realmente novas?
- Será possível projetar de novo sequência, estrutura e função (como atividades catalíticas, por exemplo) em um processo simultâneo?
Restaram dúvidas sobre esse conteúdo? Deixe um comentário. Deixe também sugestões de outros temas de interesse.
Referências
[1] FERRUZ, Noelia; HÖCKER, Birte. Dreaming ideal protein structures. Nature Biotechnology, p. 1-2, 2022.
[2] ANISHCHENKO, Ivan et al. De novo protein design by deep network hallucination. Nature, v. 600, n. 7889, p. 547-552, 2021.