Um mapa de distância é uma representação bidimensional (matriz) da estrutura tridimensional de uma proteína. Eles são matrizes quadradas onde o eixo-x representa a sequência de aminoácidos de uma proteína e o eixo-y representa a mesma sequência. Dessa forma, cada célula (x,y) contém um valor real que é a distância euclideana entre o resíduo x e y da sequência proteica. Essa matriz pode ser visualizada como um mapa de calor em que uma escala de cores é utilizada para ilustrar os valores quantitativos dessas distâncias (ver Figura 1).


PDB id 1A6M.

PDB id 1A6M.
O mapa de distâncias da Figura 1 é, então, uma representação 2D da estrutura 3D da Mioglobina ilustrada na Figura 2. Neste caso, computamos apenas as distâncias entre os carbonos alfa de cada resíduo de aminoácido, exibidos como esferas na Figura 3.
É interessante notar que os padrões de cores na imagem refletem os trechos distantes da sequência que são trazidos para próximos na estrutura tridimensional. Isso fica representado pelos trechos em roxo que estão distâncias da diagonal. Note, por exemplo, que a região do resíduo 80 está próxima da região do resíduo 130. São regiões distantes que fazem interações químicas não covalentes quando a proteína está enovelada em seu estado tridimensional nativo.

Defendi minha tese em 2008 mas ainda gosto bastante da figura que aqui reproduzo (Figura 4) e na qual mostro as hélices G e H da Mioglobina em verde e azul respectivamente no mapa e a seta vermelha mostra os contatos entre estas hélices. Veja que são contatos distantes da sequência e que são antiparalelos ou seja, enquanto na hélice G vamos do N ao C terminal da proteína, na hélice H vamos do C ao N terminal. Os mapas de contatos refletem esse empacotamento das estruturas (packing) e é possível reproduzir uma proteína a partir deles.

É possível identificar cada estrutura secundária neles. Note que o mapa de contatos é o mapa de distância quando se aplica uma distância de corte (limiar) para plotar os pontos. Digamos, por exemplo, 4,5 angstroms. Na Figura 5, destacamos em vemelho as 8 hélices da mesma Mioglobina. As hélices são formadas principalmente por padrões de ligações de hidrogênio entre resídios distantes de 3-4 resíduos na sequência. Por isso, hélices são vistas como marcações na diagonal dos mapas.
Já as fitas beta são vistas como segmentos de retas que podem ser paralelos ou antiparalelos à diagonal dependendo se são fitas paralelas ou antiparalelas. Note que esses mesmos segmentos podem indicar contatos entre hélices, como mostrado na Figura 4 pela seta em vermelho.

Mioglobina é uma proteína toda alfa na qual podemos notar a predominância de hélices pelas 8 marcações na diagonal do mapa de distâncias. A Mioglobina é composta por 8 alfa-hélices.

A Tioredoxina é uma proteína alfa-beta, ou seja, mistura alfa-hélices e folhas-beta. É possível notar as 4 pequenas alfa-hélices nas diagonais dos mapas de contados e as fitas-beta pregueadas fazem inúmeros desenhos no restante do mapa.

Aqui vemos uma Apolipoproteína que é composta por um barril de folhas-beta mais duas pequenas hélices.

Por fim, uma pequena Plastocianina composta por um barril beta. Vejam como as estruturas em barril formam quadrados no mapa de distância. Esses quadrados mostram contatos entre fitas paralelas e anti-paralelas.
Em resumo, os mapas tem duas características principais:
- Refletem a estrutura de uma proteína contendo as estruturas secundárias e suas interações no espaço tridimensional
- São uma assinatura única por tipo de enovelamento, ou seja, cada família estrutural tem um padrão de mapa
Por ter essas características, esses mapas foram recentemente usados pelo Deepmind / Google no método AlphaFold conforme a Figura 6. Em linhas gerais, eles usam redes neurais profundas para prever os mapas de distância a partir de dados de alinhamentos múltiplos de sequências e da base de todas as estruturas tridimensionais resolvidas experimentalmente, entre outros dados. Nesta atividade está grande parte da inovação do método. A seguir, os mapas de distância são usados para reconstrução das coordenadas atômicas através de um método de otimização clássico baseado no gradiente descendente e refinamentos são realizados com base em métodos de minimização de energia.

Referências
de Melo, Raquel Cardoso. “Classificação estrutural de famílias de proteínas com base em mas de contatos.” (2008). Tese defendida do PPG em BIoinformática da UFMG em 13 de junho de 2008.
Pagina do Alphafold https://deepmind.com/research/case-studies/alphafold
Oi professora, eu dei uma lida na sua tese de doutorado. Me interessei muito pelo assunto. Eu acho que entendi por alto o problema central abordado, mas me falta muita bagagem de estudos tanto em bioquímica quanto em computação e matemática para entender mais a fundo. Mas o assunto é muito interessante.
CurtirCurtido por 1 pessoa
Podemos conversar mais sobre o assunto se quiser.
CurtirCurtir
Obrigado. Eu estou querendo me aprofundar nesses estudos de bioquímica. Também pensei em ler mais sobre tratamento de lixo hospitalar, como fazer com que material infectado pelo coronavirus deixe de representar um risco. Até pensei em me candidatar como voluntário em alguma ONG que trate dessas questões. Talvez eles precisem de alguém que tenha alguns conhecimentos de bioinformatica.
CurtirCurtir