AlphaFold
AlphaFold é um programa de inteligência artificial desenvolvido pela DeepMind do Google que realiza previsões da estrutura de proteínas. O programa é projetado como um sistema de aprendizagem profunda.
As proteínas consistem em cadeias de aminoácidos que se dobram espontaneamente, em um processo chamado de dobramento de proteínas, para formar as estruturas tridimensionais (3-D) das proteínas. A estrutura 3-D é crucial para a função biológica da proteína. No entanto, entender como a sequência de aminoácidos pode determinar a estrutura 3-D é altamente desafiador, dando origem ao "problema de dobramento de proteína". O "problema de dobramento de proteínas" envolve a compreensão da termodinâmica das forças interatômicas que determinam a estrutura estável dobrada, o mecanismo e a via através da qual uma proteína pode atingir seu estado dobrado final com extrema rapidez e como a estrutura nativa de uma proteína pode ser prevista a partir de sua sequência de aminoácidos. As estruturas das proteínas são atualmente determinadas experimentalmente usando técnicas como cristalografia de raios X, microscopia crioeletrônica e ressonância magnética nuclear, técnicas que são caras e demoradas. Esses esforços identificaram as estruturas de cerca de 170.000 proteínas nos últimos 60 anos, enquanto existem mais de 200 milhões de proteínas conhecidas em todas as formas de vida. Se for possível prever a estrutura da proteína apenas a partir da sequência de aminoácidos, isso ajudaria muito no avanço da pesquisa científica. No entanto, o paradoxo de Levinthal mostra que enquanto uma proteína pode dobrar em milissegundos, o tempo que leva para calcular todas as estruturas possíveis aleatoriamente para determinar a verdadeira estrutura nativa é maior do que a idade do universo, o que tornou a previsão de estruturas de proteínas um grande desafio em biologia para cientistas.
Imagem: John Jumper et al · BY · Openverse
Embora os detalhes completos dos algoritmos do AlphaFold 2020 não tenham sido divulgados publicamente, mais detalhes são esperados quando a DeepMind publicar artigos científicos descrevendo seus métodos e resultados. Sabe-se que a DeepMind treinou o programa em mais de 170.000 proteínas de um repositório público de sequências e estruturas de proteínas. O programa usa uma forma de rede de atenção, uma técnica de aprendizado profundo que se concentra em fazer o algoritmo de IA identificar partes de um problema maior e, em seguida, juntá-las para obter a solução geral. O treinamento geral foi conduzido em poder de processamento entre 100 e 200 GPUs. O treinamento do sistema neste hardware levou "algumas semanas", após as quais o programa levaria "uma questão de dias" para convergir para cada estrutura.
AlphaFold 1, 2018
O AlphaFold 1 (2018) foi construído com base no trabalho desenvolvido por várias equipes na década de 2010, trabalho que analisou os grandes bancos de dados de sequências de DNA agora disponíveis de muitos organismos diferentes (a maioria sem estruturas 3D conhecidas), para tentar encontrar mudanças em diferentes resíduos que pareciam estar correlacionados, embora os resíduos não fossem consecutivos na cadeia principal. Tais correlações sugerem que os resíduos podem estar próximos fisicamente, embora não próximos na sequência, permitindo a estimativa de um mapa de contato. Com base em um trabalho recente antes de 2018, AlphaFold 1 estendeu isso para estimar uma distribuição de probabilidade para quão perto os resíduos podem estar - transformando o mapa de contato em um mapa de distância provável. Ele também usou métodos de aprendizagem mais avançados do que antes para desenvolver a inferência. Combinando um potencial estatístico baseado nesta distribuição de probabilidade com a energia livre local calculada da configuração, a equipe foi então capaz de usar o gradiente de descida para uma solução que melhor se adequasse a ambos.
AlphaFold 2, 2020
A versão 2020 do programa (AlphaFold 2, 2020) é significativamente diferente da versão original que ganhou o CASP 13 em 2018, de acordo com a equipe da DeepMind. A equipe da DeepMind identificou que sua abordagem anterior, combinando física local com um guia potencial derivado do reconhecimento de padrões, tinha uma tendência de superestimar as interações entre os resíduos que estavam próximos na sequência em comparação com as interações entre os resíduos mais distantes ao longo da cadeia. Como resultado, AlphaFold 1 tinha uma tendência a preferir modelos com estrutura ligeiramente mais secundária (hélices alfa e folhas-beta) do que na realidade (uma forma de overfitting).
AlphaFold 3, 2024
Em 2024 foi publicado uma terceira versão desse programa, o AlphaFold 3. Essa nova versão permite a predição, não só de estruturas proteicas, mas também de DNA, RNA, moléculas e uma combinação e interação entre eles, predizendo a posição de cada átomo no composto. A entrada consiste de uma cadeia de caracteres que é convertida em tokens. É utilizado também exemplos de estruturas similares registradas nos Template Search e Genetic Search. São geradas 2 tipos de representações para a sequência, a singular e a pareada, com a última carregando informações de cada token com relação a todos os outros da sequência de entrada original. Durante o processamento interno, são utilizadas diversas etapas de atenções triangulares, uma variação do módulo de atenção apresentado em Attention is all you need. Diferente da versão anterior, o AlphaFold 3 utiliza de um modelo de difusão para gerar a estrutura final, acoplado a um módulo de predição de acurácia para cada átomo individual. Para evitar alucinações, o modelo completo foi treinado utilizando dados reais, mas também gerados pelo AlphaFold 2, de forma que, quando deparado com uma estrutura muito diferente do esperado, ao invés de alucinar sobre a estrutura final, produz uma estrutura bidimensional sem dobras, evidenciando a sua incapacidade de dobrar a entrada fornecida.
Imagem: Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021). https://doi.org/10.1038/s41586-021-03819-2 · BY-SA · Openverse
CASP13
Em dezembro de 2018, o AlphaFold da DeepMind ficou em primeiro lugar na classificação geral da 13ª Avaliação Crítica de Técnicas para Predição de Estrutura de Proteínas (CASP).
CASP14
Em novembro de 2020, a nova versão da DeepMind, AlphaFold 2, ganhou o CASP14. No geral, AlphaFold 2 fez a melhor previsão para 88 dos 97 alvos. Na medida de precisão do teste de distância global (GDT) preferido da competição, o programa alcançou uma pontuação média de 92,4 (de 100), o que significa que mais da metade de suas previsões foram pontuadas em mais de 92,4% por terem seus átomos no lugar certo, um nível de precisão relatado para ser comparável a técnicas experimentais como cristalografia de raios-X. Em 2018, o AlphaFold 1 só havia atingido esse nível de precisão em duas de todas as suas previsões. 88% das previsões na competição de 2020 tiveram uma pontuação GDT_TS de mais de 80. No grupo de alvos classificados como os mais difíceis, AlphaFold 2 alcançou uma pontuação média de 87.
Imagem: U758803 · CC0 · Openverse
AlphaFold 2 pontuando mais de 90 no teste de distância global CASP (GDT) é considerado uma conquista significativa em biologia computacional e um grande progresso em direção a um grande desafio da biologia. O vencedor do Prêmio Nobel e biólogo estrutural Venki Ramakrishnan chamou o resultado de "um avanço impressionante no problema de dobramento de proteínas", acrescentando que "Isso ocorreu décadas antes que muitas pessoas na área tivessem previsto. Será emocionante ver as muitas maneiras pelas quais mudará fundamentalmente a pesquisa biológica."
Imagem: AlphaFold · BY-SA · Openverse
SARS-CoV-2
O AlphaFold foi usado para prever estruturas de proteínas de SARS-CoV-2, o agente causador de COVID-19. As estruturas dessas proteínas aguardavam detecção experimental no início de 2020. Os resultados foram examinados pelos cientistas do Instituto Francis Crick no Reino Unido antes de serem divulgados para a comunidade de pesquisa. A equipe também confirmou a previsão precisa contra a proteína spike SARS-CoV-2 determinada experimentalmente que foi compartilhada no Protein Data Bank, um banco de dados internacional de acesso aberto, antes de lançar as estruturas determinadas computacionalmente das moléculas de proteína subestimadas. A equipe reconheceu que, embora essas estruturas proteicas possam não ser objeto de esforços contínuos de pesquisa terapêutica, elas contribuirão para a compreensão da comunidade sobre o vírus SARS-CoV-2. Especificamente, a previsão do AlphaFold 2 da estrutura da proteína Orf3a era muito semelhante à estrutura determinada por pesquisadores da Universidade da Califórnia, Berkeley, usando microscopia crioeletrônica. Acredita-se que esta proteína específica auxilie o vírus a escapar da célula hospedeira, uma vez que se replique. Acredita-se que essa proteína também desempenhe um papel no desencadeamento da resposta inflamatória à infecção.


