Como avaliar os resultados do AlphaFold? – Parte I – lDDT

O AlphaFold é o método do estado da arte para modelagem de estruturas de proteínas. Ele é baseado em redes neurais profundas e utiliza, como entrada, dados de sequências proteicas, de alinhamentos múltiplos de sequências e de estruturas resolvidas experimentalmente. Basicamente, ele aprende as mutações que podem ocorrer ao longo da evolução e as relaciona a mudanças conformacionais em estruturas de proteínas. As redes neurais predizem as distâncias entre pares atômicos e, a seguir, as coordenadas tridimensionais dos átomos.

O método tem obtido bons resultados para protéinas com baixo grau de homologia com outras conhecidas e até para a modelagem de complexos proteicos, pela capacidade de generalização das redes neurais produndas. Existem bancos de dados de modelos já produzidos para todo o proteoma humano e para mais de 20 espécies de organismos referência. O próprio Protein Data Bank (PDB) já alterou sua política para trazer, além de estruturas resolvidas experimentalmente, modelos teóricos.

É um método bastante acessível para uso da comunidade científica. Especialmente porque existe uma interface de terceiros, o ColabFold, que permite executar por detrás o AlphaFold2 e o AlphaFold2-multimer (sua versão para modelagem de complexos proteicos) através de um GoogleColab Notebook. Basta passar como entrada a sequência a ser modelada e o sistema faz a busca por sequências e estruturas homólogas e gera o modelo final. O sistema gera também inúmeras análises que permitem ao usuário entender a qualidade e os possíveis usos do modelo teórico construído.

O problema é que as análises trazidas pelo AlphaFold tem gerado dúvidas. Neste post, vamos esclarecer estas análises. Quando geramos um modelo usando o ColabFold, ele gera, na verdade, 5 modelos. O resultado mostrado na Figura 1 é o primeiro dos modelos gerados. Eu gerei usando uma sequência fictícia. Peguei a sequência original e introduzi substituições, deleções e inserções para não ser tão fácil gerar um modelo de alta qualidade.

  • Sequência original: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASK
  • Sequência fictícia: PIAQIRLLDGRAASDFGCLKHDENKETIIDDAISKSLEAPITSARVTEMALLGHFGEIASHH
Figura 1 – Exemplo de modelo construído pelo ColabFold / AlphaFold2. Usei como entrada a sequência fictícia: PIAQIRLLDGRAASDFGCLKHDENKETIIDDAISKSLEAPITSARVTEMALLGHFGEIASHH. Do lado esquerdo, a visualização da proteína está colorida do N para o C-terminal usando as cores do espectro. (N-terminal é azul). Do lado direito, as cores são ilustrativas do valor do lDDT, sendo vermelho a pior qualidade e azul, a melhor (no caso, não aparecem trechos em azul).

A Figura 1 mostra, à esquerda, o modelo colorido nas cores do espectro indo do N-terminal (azul) para o C-terminal (vermelho). À direita, vemos o mesmo modelo colorido segundo a principal métrica de qualidade usada pelo AlphaFold, que é o lDDT. Quanto mais vermelho, pior a qualidade do segmento e quanto mais próximo de azul, melhor a qualidade (no caso deste exemplo, não existem trechos azuis).

lDDT é um acrônimo para Local Distance Difference Test. Para explicar como ele funciona e o objetivo da concepção desta métrica, é preciso introduzir os métodos de comparação de estruturas primeiro. A avaliação de técnicas de predição da estrutura de proteínas requer critérios objetivos (métricas) para avaliar a similaridade entre um modelo computacional e a estrutura de referência, a experimental. As métricas de similaridade clássicas (RMSD, por exemplo) exigem um procedimento de sobreposição global dos átomos (usualmente apenas os de carbono-α). Elas são muito sensíveis a pequenas movimentações de domínios, dando valores mais altos mesmo que uma pequena parte da estrutura esteja em conformação diferente.

A lDDT é uma pontuação que independe de sobreposição estrutural prévia e avalia as diferenças de distância local de todos os átomos em um modelo. A referência pode ser uma única estrutura ou um conjunto de estruturas similares.

A lDDT é calculada considerando as distâncias entre todos os pares de átomos na estrutura de referência situados a uma distância mais próxima do que um limiar predefinido (chamado raio de inclusão, Ro) e não pertencente ao mesmo resíduo. A distância é considerada conservada no modelo que está sendo avaliado se tiver, dentro de um limite de tolerância, o mesmo comprimento da referência. Se os átomos que definem a distância não estiverem presentes no modelo, a distância é considerada não conservada.

A lDDT é calculada em uma faixa de valores limite. Para cada limite, a fração de distâncias conservadas é calculada. A pontuação final é a fração média de distâncias conservadas em quatro limites de tolerância:

  • 0,5 Å
  • 1,0 Å
  • 2,0 Å
  • 4,0 Å

As pontuações locais de lDDT também podem ser calculadas por resíduo e representam a fração média de distâncias conservadas que envolvem átomos do resíduo.

Foi demonstrado [1] que o lDDT é adequado para avaliar a qualidade do modelo local, mesmo na presença de movimentos de domínio, mantendo boa correlação com medidas globais. Essas propriedades tornam o lDDT uma métrica robusta para a avaliação de modelos tridimensionais de proteínas. Como, no caso do AlphaFold, os modelos são previsões teóricas, eles chamam o lDDT de plDDT, onde o p indica predito.

Segundo a documentação do próprio AlphaFold [2], regiões com:

  • plDDT > 90 são modeladas com alta precisão, devem ser adequados para qualquer aplicação (por exemplo, identificação e caracterização de sítios de ligação).
  • 70 < plDDT <= 90 são bem modeladas (uma previsão de backbone confiável).
  • 50 < lDDT <= 70 são de baixa confiança e devem ser tratadas com cautela.

Para concluir, veja os plDDTs para os 5 modelos preditos pelo ColabFold na Figura 2. Como é uma sequência fictícia, cheia de mutações, inserções e deleções, a maior parte do modelo tem as métricas abaixo de 80, indicando baixa qualidade ou apenas confiabilidade na predição do backbone em alguns trechos. Particulamente, a região entre 12-22 foi uma inserção de resíduos aleatórios “AASDFGCLKH“. Isso pode ser visualizado de forma mais qualitativa na Figura 1, em que as regiões de mais baixo lDDT estão em vemelho e o restante está em verde, indicando qualidade mediana.

Figura 2 – lDDT predito (eixo-y) para os 5 modelos produzidos pelo ColabFold pela posição dos resíduos na sequência (eixo-x).

Este texto foi útil? Deixe um comentário se tiver dúvidas e sugestões, por favor. Assine o blog para receber aviso do próximo post que será uma continuidade deste. Falaremos a seguir dos outros gráficos e métricas trazidos pelo AlphaFold.

Até a próxima,

Raquel

Referências

[1] Mariani, Valerio, et al. “lDDT: a local superposition-free score for comparing protein structures and models using distance difference tests.” Bioinformatics 29.21 (2013): 2722-2728.

[2] plDDT, segundo o FAQ do AlphaFold. https://alphafold.ebi.ac.uk/faq#faq-5

Publicado por OnlineBioinfo Bioinformática

Meu nome é Raquel Minardi, sou bacharel em Ciência da Computação e doutora em Bioinformática. Sou professora do Departamento de Ciência da Computação da UFMG desde 2010, membro afiliado da Academia Brasileira de Ciências (ABC), vice-coordenadora do Programa de Pós-graduação em Bioinformática da UFMG, coordenadora da rede BaBEL de Bioinformática aplicada a Biotecnologia, vice-coordenadora do comitê especial de Biologia Computacional da Sociedade Brasileira de Computação (SBC) e secretaria da diretoria regional centro-sudeste da Associação Brasileira de Bioinformática e Biologia Computacional (AB3C). Sou fascinada pela área de Bioinformática e pela possibilidade de desenvolver modelos e algoritmos para suporte a resolução de problemas tão desafiadores quanto os que envolvem a biologia e biotecnologia. Também amo ensinar e desenvolver conteúdos para ensino a distância.

Um comentário em “Como avaliar os resultados do AlphaFold? – Parte I – lDDT

Deixe um comentário