Como avaliar os resultados do AlphaFold? – Parte II – Sequence coverage

Em post anterior, falamos sobre o AlphaFold, com foco na principal métrica de avaliação da qualidade do modelo gerado, a plDDT. No texto de hoje, falaremos sobre o gráfico de cobertura de sequência (sequence coverage), com exemplo na Figura 1.

Figura 1 – Gráfico de cobertura de sequência fornecido de ColabFold/AlphaFold.

Eu usei o ColabFold para modelar uma sequência fictícia. Peguei a sequência original e introduzi substituições, deleções e inserções para não ser tão fácil gerar um modelo de alta qualidade.

  • Sequência original: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASK
  • Sequência fictícia: PIAQIRLLDGRAASDFGCLKHDENKETIIDDAISKSLEAPITSARVTEMALLGHFGEIASHH

O gráfico de cobertura da sequência apresenta de forma visual os alinhamentos múltiplos de sequência usados pelo ColabFold/AlphaFold para construção do modelo. A maior parte dos métodos de modelagem não nos trazem essa visualização da estatística dos templates existentes. Eles costumam rankear os templates mais promissores em termos de cobertura e similaridade de sequência e apresentar essas métricas para cada template.

Acho esse gráfico do AlphaFold particularmente informativo. No eixo-x, ele nos apresenta a sequência de aminoácidos da proteína modelada. Note que podem haver várias cadeias também (mostramos um exemplo da Figura 3). No caso do nosso exemplo, temos uma sequência de pouco mais de 60 resíduos. No eixo-y, vemos as sequências recuperadas na base de dados que podem ser usadas como template na modelagem. No nosso exemplo, foram recuperadas quase 500 sequências com alguma similaridade.

Observe agora que a figura é apresentada em um esquema de cores, segundo a legenda à direita da figura. Esse esquema de cores segue todo o espectro indo de 0 (vermelho) até 1 (azul). Quanto mais próximo de 1, mais idêntica a sequência (100% de similaridade). Cada linha do gráfico é uma sequência template, as que estão na parte superior são as mais similares. No exemplo, aparentemente temos algumas sequências com similaridade na faixa 0,4-0,6 que seriam úteis para construção de um bom modelo.

Por fim, o gráfico mostra a cobertura das sequências template. Note que os trechos entre 12-22 e após 55 apresentam baixíssima cobertura (faixas brancas). De fato, essa região 12-22 foi uma inserção aleatória que introduzidos na sequência fictícia. A linha preta mostra essa cobertura.

Veja, na Figura 2, um exemplo de modelo de uma Tripsina, enzima muito estudada. Veja como existem mais de 16.000 templates e com similaridades próximas de 100%. A cobertura também é muito boa, muito embora ainda existam regiões de confiabilidade um pouco mais baixa.

Figura 2 – Exemplo de modelo feito com sequência de proteína bem estudada, Tripsina, existente no PDB: 4AN7.
Figura 3 – Exemplo de modelos feitos com sequências de Tripsina e seu inibidor do tipo Kunitz. PDB id 4AN7. Veja que a sequência até a posição 245 é a Tripsina e a partir deste ponto é a sequência do inibidor, que tem 175 resíduos.

Veja, na Figura 3, um exemplo de modelo de complexo de Tripsina com seu inibidor. Note que o primeiro bloco de 245 resíduos ilustra a alta cobertura e similaridade de templates da Tripsina. A partir do resíduo 245, temos o inibidor com 175 resíduos e com uma cobertura e similaridade um pouco mais baixa, se comparadas às encontradas para Tripsinas.

Regiões de baixa cobertura (vales no gráfico) devem ser olhadas com cautela, visto que podem representar regiões de interesse para seu estudo, como sítios de ligação, sítios catalíticos ou regiões de mutação. Mesmo. que você obtenha um modelo com boa qualidade geral, as regiões de interesse devem ter uma cobertura e qualidade que suporte suas análises. Esses vales indicam regiões de baixíssima confiabilidade no modelo.

Deixe eventuais dúvidas nos comentários. Sugestões de temas também são sempre muito bem-vindas. Assine o blog para receber chamadas do nosso próximo post em que finalizaremos este assunto sobre as análises dos modelos do AlphaFold.

Até a próxima,

Raquel

Referências

[1] Mariani, Valerio, et al. “lDDT: a local superposition-free score for comparing protein structures and models using distance difference tests.” Bioinformatics 29.21 (2013): 2722-2728.

[2] plDDT, segundo o FAQ do AlphaFold. https://alphafold.ebi.ac.uk/faq#faq-5

Publicado por OnlineBioinfo Bioinformática

Meu nome é Raquel Minardi, sou bacharel em Ciência da Computação e doutora em Bioinformática. Sou professora do Departamento de Ciência da Computação da UFMG desde 2010, membro afiliado da Academia Brasileira de Ciências (ABC), vice-coordenadora do Programa de Pós-graduação em Bioinformática da UFMG, coordenadora da rede BaBEL de Bioinformática aplicada a Biotecnologia, vice-coordenadora do comitê especial de Biologia Computacional da Sociedade Brasileira de Computação (SBC) e secretaria da diretoria regional centro-sudeste da Associação Brasileira de Bioinformática e Biologia Computacional (AB3C). Sou fascinada pela área de Bioinformática e pela possibilidade de desenvolver modelos e algoritmos para suporte a resolução de problemas tão desafiadores quanto os que envolvem a biologia e biotecnologia. Também amo ensinar e desenvolver conteúdos para ensino a distância.

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s

%d blogueiros gostam disto: