Assim como o ChatGPT gera texto prevendo a palavra com maior probabilidade de seguir em uma sequência, um novo inteligência artificial O modelo (IA) pode escrever novas proteínas que não ocorrem naturalmente a partir do zero.
Cientistas usaram o novo modelo, ESM3, para criar uma nova proteína fluorescente que compartilha apenas 58% de sua sequência com proteínas fluorescentes naturais, disseram eles em um estudo publicado em 2 de julho na pré-impressão banco de dados bioRxiv. Representantes da EvolutionaryScale, uma empresa formada por ex-pesquisadores do Meta, também delinearam detalhes em 25 de junho em um declaração.
A equipe de pesquisa lançou um versão pequena do modelo sob uma licença não comercial e tornará a versão grande do modelo disponível para pesquisadores comerciais. De acordo com a EvolutionaryScale, a tecnologia pode ser útil em campos que vão da descoberta de medicamentos ao design de novos produtos químicos para degradação de plástico.
O ESM3 é um modelo de linguagem grande (LLM) semelhante ao GPT-4 da OpenAI, que alimenta o chatbot ChatGPT, e os cientistas treinaram sua maior versão em 2,78 bilhões de proteínas. Para cada proteína, eles extraíram informações sobre sequência (a ordem dos blocos de construção de aminoácidos que compõem a proteína), estrutura (a forma tridimensional dobrada da proteína) e função (o que a proteína faz). Eles mascararam aleatoriamente pedaços de informação sobre essas proteínas e solicitaram que o ESM3 previsse os pedaços faltantes.
Eles escalaram esse modelo a partir de uma pesquisa que a mesma equipe estava conduzindo enquanto ainda estava na Meta. Em 2022, eles anunciou EMSFold — um precursor do ESM3 que previu estruturas de proteínas microbianas desconhecidas. Naquele ano, a Alphabet’s Mente Profunda também estruturas proteicas previstas para 200 milhões de proteínas.
Os cientistas posteriormente apontaram que existem limitações às previsões destes modelos de IA e que as previsões de proteínas precisam ser verificadas. Mas os métodos ainda podem acelerar massivamente a busca por estruturas de proteínas, porque a alternativa é usar raios X para mapear estruturas de proteínas uma por uma — o que é lento e custoso.
O ESM3 vai além de apenas prever proteínas existentes, no entanto. Usando as informações coletadas de 771 bilhões de peças únicas de informação sobre estrutura, função e sequência, o modelo pode gerar novas proteínas com funções particulares. Foi descrito como um “momento ChatGPT para a biologia” por um dos patrocinadores da EvolutionaryScale.
No novo estudo, os pesquisadores questionaram o modelo para gerar uma nova proteína fluorescente — um tipo de proteína que captura luz e a libera de volta em um comprimento de onda maior, fazendo-a brilhar em um novo tom de verde. Essas proteínas são importantes para pesquisadores biológicos que as anexam a moléculas que eles estão interessados em estudar para rastreá-las e imaginá-las; sua descoberta e desenvolvimento ganharam um Prêmio Nobel de química Em 2008.
O modelo gerou 96 proteínas com sequências e estruturas propensas a produzir fluorescência. Os pesquisadores então escolheram uma com o menor número de sequências em comum com proteínas naturalmente fluorescentes. Embora essa proteína fosse 50 vezes menos brilhante do que as proteínas fluorescentes verdes naturais, o ESM3 gerou outra iteração que levou a novas sequências que aumentaram o brilho — e o resultado foi uma proteína fluorescente verde diferente de qualquer outra encontrada na natureza, apelidada de “esmGPF”. Essas iterações, feitas em momentos pela IA, levariam 500 milhões de anos de evolução para serem alcançadas, estimou a equipe da EvolutionaryScale.
“Atualmente, ainda não temos o entendimento fundamental de como as proteínas, especialmente aquelas “novas para a ciência”, se comportam quando introduzidas em um sistema vivo, mas este é um novo passo legal que nos permite abordar a biologia sintética de uma nova maneira. A modelagem de IA como o ESM3 permitirá a descoberta de novas proteínas que as restrições da seleção natural nunca permitiriam, criando inovações na engenharia de proteínas que a evolução não pode. Isso é emocionante. No entanto, a alegação de simular 500 milhões de anos de evolução se concentra apenas em proteínas individuais, o que não leva em conta os muitos estágios da seleção natural que criam a diversidade da vida que conhecemos hoje. A engenharia de proteínas orientada por IA é intrigante, mas não posso deixar de sentir que podemos estar excessivamente confiantes em assumir que podemos superar os processos intrincados aprimorados por milhões de anos de seleção natural.”