Millions of protein complexes added to AlphaFold Database shed light on how proteins interact
Four-way collaboration brings together world-leading AI and biological expertise to make AI-predicted protein complex structures openly available to the global scientific community
A new collaboration between EMBL’s European Bioinformatics Institute (EMBL-EBI), Google DeepMind, NVIDIA, and Seoul National University has made millions of AI-predicted protein complex structures openly available through the AlphaFold Database. To maximise global health impact, the dataset prioritises proteins important for understanding human health and disease. This is the largest dataset of protein complex predictions currently available.
Proteins are the building blocks of life. They interact to create protein complexes which fulfil biological functions. By visualising protein interactions, scientists can uncover the molecular mechanisms that drive cell behaviour, identify what goes wrong when someone gets sick, and develop new drugs and therapies. Predicting the structure of protein complexes is extremely challenging because, in nature, proteins change shape and interact in many different ways.
“Science thrives on collaboration,” said Jo McEntyre, Interim Director of EMBL-EBI. “By making this foundational protein complex dataset openly available to the world, we’re inviting researchers to test, refine, and build on it to drive the next wave of biological discoveries.”
Protein complexes for global health impact
The latest AlphaFold Database update spans millions of homodimers – protein complexes formed of two identical proteins. It focuses on 20 of the most studied species, including humans, as well as the World Health Organization’s priority pathogens list. This approach aims to bring significant and immediate value for global health challenges.
“By expanding the AlphaFold Database to include protein complexes, we are addressing a critical need expressed by the scientific community,” said Anna Koivuniemi, Head of the Google DeepMind Impact Accelerator. “We hope that by lowering the barrier to these complex predictions, we can empower researchers everywhere to pursue the next wave of discoveries that could ultimately improve human health on a global scale.”
Scientific expertise meets technical innovation
The collaboration builds on Google DeepMind’s AI system AlphaFold, which, since 2021, accurately predicted the structure of millions of proteins. To democratise access to AlphaFold predictions, Google DeepMind and EMBL-EBI developed the AlphaFold Database, an open resource that anyone can access. The database has over 3.4 million users from 190 countries.
Through ongoing dialogue with the scientific community, a clear need emerged to expand the AlphaFold database to include protein complexes. In response to this need, EMBL-EBI, Google DeepMind, NVIDIA, and Seoul National University teamed up, contributing specialist expertise and resources, to calculate and integrate millions of protein complexes into the AlphaFold Database.
“By making this foundational dataset openly available to the world, we’re inviting researchers to test, refine, and build on it to drive the next wave of biological discoveries.”
The collaboration brought together deep biological expertise and technical innovations. NVIDIA and the Steinegger Lab at the Seoul National University developed the methodology, based on Google DeepMind’s AI system AlphaFold, including accelerations to multiple sequence alignment calculations and deep learning inference. NVIDIA provided cutting-edge AI infrastructure and scaled out inference pipelines to overcome limitations that historically made this scale of calculations challenging. EMBL-EBI enabled the collaboration by bringing the other parties together and contributing expertise in scientific and biodata management, as well as analysis. As a champion of open science, EMBL-EBI, together with Google DeepMind, integrated the new dataset into the AlphaFold Database.
“NVIDIA’s ambition is to consistently contribute orders-of-magnitude accelerations for fundamental digital biology workloads, enabling what was not possible before,” said Anthony Costa, NVIDIA Director of Digital Biology. “This release is a great example of how AI infrastructure and software can uniquely enable new scales of biological understanding.”
“By making predicted protein complexes accessible at an unprecedented scale, we are illuminating an unseen landscape of molecular interactions across the tree of life,” explained Martin Steinegger, Associate Professor at Seoul National University.
Open science at scale
It takes a blend of AI-scale infrastructure and deep technical knowledge in accelerating complex workflows to generate AI predictions for protein complexes at this scale. The collaboration is centrally hosting data that would otherwise require around 17 million hours of GPU (graphics processing unit) computing to recreate.
By making these calculations once and adding the information into the AlphaFold Database, this collaboration aims to help democratise access to protein complex predictions. It enables scientists everywhere to investigate how proteins interact in the vast protein universe, and accelerate discoveries that could lead to new medicines, new products, and a deeper understanding of life itself.
“This release is a great example of how AI infrastructure and software can uniquely enable new scales of biological understanding.”
This is the first step in an ambition to add a wide range of protein complex structure predictions to the AlphaFold Database. The partnership has already calculated predictions for 30 million complexes. Of these, 1.7 million high-confidence homodimer predictions have been added to the AlphaFold Database. Another 18 million are lower-confidence homodimers, which will be made available as a list and for bulk download from the EMBL-EBI FTP server in the coming days. The rest are heterodimers, currently being analysed and assessed. More protein complex predictions will be calculated and high-confidence predictions will be added to the AlphaFold Database in the coming months. The work is described in more detail in this preprint.
“The human genome has just over 20,000 different proteins. Despite this relatively small genome, human beings display incredibly complex pathways, processes and regulation. Much of this complexity arises from the intermolecular interactions between proteins, and with small molecule ligands and DNA. Adding predicted protein-protein homodimeric interactions to the AlphaFold Database is a first step towards a comprehensive description of the human interactome, the basis by which human biology will be described and understood. This has relevance for the design of new therapeutics, understanding host-pathogen interactions, and more. Making these structures accessible to all, allows every researcher around the world to build on these data, moving one step closer to predicting the biology of life,” said Dame Janet Thornton, Director Emeritus of EMBL-EBI.
Milioni di complessi proteici aggiunti al Database Alphafold fanno luce su come le proteine interagiscono
Una collaborazione internazionale mette insieme le principali competenze mondiali nell’AI e nella biologia per rendere accessibili alla comunità scientifica globale le predizioni delle strutture dei complessi proteici.
Una nuova collaborazione tra l’Istituto di Bioinformatica dell’EMBL (EMBL-EBI),
Google DeepMind, NVIDIA, e la Seoul National University, ha reso accessibili le predizioni basate sull’AI di milioni si strutture di complessi proteici attraverso il Database Alphafold. Per massimizzare l’impatto sulla salute globale, il dataset ha dato priorità alle proteine importanti per la comprensione della salute umana e delle malattie. Questo è il più grande dataset attualmente disponibile di previsioni sui complessi proteici.
Le proteine sono i mattoni della vita. Interagiscono tra loro per formare complessi proteici che svolgono funzioni biologiche. Visualizzando le interazioni tra proteine, gli scienziati possono scoprire i meccanismi molecolari che guidano il comportamento delle cellule, identificare cosa non funziona quando una persona si ammala e sviluppare nuovi farmaci e terapie. Prevedere la struttura dei complessi proteici è estremamente difficile perché, in natura, le proteine cambiano forma e interagiscono in molti modi diversi.
“La scienza progredisce attraverso la collaborazione”, ha detto Jo McEntyre, Direttrice ad Interim dell’EMBL-EBI. “Rendendo questo dataset di complessi proteici disponibile alla comunità scientifica, invitiamo i ricercatori a testarlo, perfezionarlo e svilupparlo ulteriormente, per guidare la prossima ondata di scoperte biologiche”.
Complessi proteici per un impatto sulla salute globale
L’ultimo aggiornamento del Database Alphafold comprende milioni di omodimeri – complessi proteici formati da due proteine identiche. Si concentra su 20 delle specie più studiate, tra cui l’uomo, oltre che sulla lista dei batteri patogeni considerati prioritari dall’Organizzazione Mondiale della Sanità. Questo approccio mira ad avere un impatto significativo e immediato per affrontare le sfide della salute globale.
“Espandere il Database Alphafold con l’aggiunta dei complessi proteici risponde ad un’esigenza critica espressa dalla comunità scientifica”, ha detto Anna Koivuniemi, a capo dell’Impact Accelerator di Google DeepMind. “Ci auguriamo che, rendendo
accessibili queste informazioni, consentiremo ai ricercatori di tutto il mondo di guidare la prossima ondata di scoperte, che potrebbero migliorare la salute umana su scala globale”.
L’esperienza scientifica incontra l’innovazione tecnologica
La collaborazione si basa sul sistema di AI sviluppato da Google DeepMind – Alphafold – che dal 2021 ha previsto con elevata precisione la struttura di milioni di proteine. Per democratizzare l’accesso alle previsioni di Alphafold, Google DeepMind e EMBL-EBI hanno sviluppato il Database Alphafold, una risorsa aperta accessibile a chiunque. Il database conta oltre 3,4 milioni di utenti provenienti da 190 paesi.
Attraverso un dialogo continuo con la comunità scientifica, è emersa la necessità di espandere il Database Alphafold per includere anche i complessi proteici. In risposta a questa esigenza, EMBL-EBI, Google DeepMind, NVIDIA e la Seoul National University hanno unito le forze, contribuendo con competenze specifiche e risorse per calcolare e integrare milioni di complessi proteici nel Database Alphafold.
“Rendendo questo dataset di complessi proteici disponibile alla comunità scientifica, invitiamo i ricercatori a testarlo, perfezionarlo e svilupparlo ulteriormente, per guidare la prossima ondata di scoperte biologiche”
NVIDIA e il gruppo di Steinegger alla Seoul National University hanno sviluppato la metodologia, basata sul sistema di AI di Google DeepMind Alphafold, includendo accelerazioni nei calcoli di allineamento di sequenze multiple e nelle previsioni di deep learning. NDIVIA ha fornito infrastrutture di AI all’avanguardia e ha ottimizzato le pipeline di calcolo per superare i limiti che storicamente rendevano difficile eseguire calcoli su larga scala. EMBL-EBI ha reso possibile la collaborazione riunendo le diverse parti e contribuendo con competenze nella gestione e nell’analisi dei dati scientifici e biologici. Come sostenitore della open science, EMBL-EBI insieme a Google DeepMind ha integrato il nuovo dataset nel Database Alphafold.
“L’ambizione di NVIDIA è di fornire costantemente accelerazioni di ordini di grandezza per i processi fondamentali della biologia digitale, permettendo ciò che prima non era possibile”, ha dichiarato Anthony Costa, Direttore di Digital Biology di NVIDIA. “Questa espansione del Database è un ottimo esempio di come infrastruttura e software basati su AI possano raggiungere nuovi livelli di comprensione scientifica”.
“Rendendo le previsioni sui complessi proteici accessibili su una scala senza precedenti, stiamo illuminando un panorama fino ad ora invisibile di interazioni molecolari lungo l’albero della vita”, ha spiegato Martin Steinegger, Professore Associato presso la Seoul National University.
Open science su larga scala
Per accelerare processi complessi e generare previsioni AI sui complessi proteici, è necessario un mix di infrastrutture AI su larga scala e accurata conoscenza tecnica. La collaborazione ospita centralmente dati che, altrimenti, richiederebbero circa 17 milioni di ore di calcolo GPU (graphics processing unit) per essere ricreati.
Rendendo questi calcoli disponibili una sola volta e integrando le informazioni nel Database Alphafold, la collaborazione mira a democratizzare l’accesso alle previsioni sui complessi proteici. Questo permette agli scienziati di tutto il mondo di studiare come le proteine interagiscono nell’immenso universo biologico e di accelerare scoperte che potrebbero portare a nuovi farmaci, nuovi prodotti e a una comprensione più profonda della vita stessa.
“Questo risultato è un ottimo esempio di come infrastruttura e software basati su AI possano raggiungere nuovi livelli di comprensione scientifica”
Questo è il primo passo verso l’ambizione più ampia di includere una vasta gamma di previsioni di strutture di complessi proteici al Database Alphafold.
La partnership ha già calcolato previsioni per 30 milioni di complessi. Di questi, 1,7 milioni di previsioni di omodimeri ad alta affidabilità sono state aggiunte al Database Alphafold. Altre 18 milioni di strutture di omodimeri, con affidabilità più bassa, sono disponibili come liste per il download in blocco. Il resto delle strutture sono eterodimeri, attualmente in fase di analisi e valutazione. Ulteriori previsioni di complessi proteici saranno calcolate e quelle ad alta affidabilità saranno integrate nel Database Alphafold nei prossimi mesi. Il lavoro è descritto più in dettaglio in un preprint.
“Il genoma umano contiene poco più di 20.000 proteine diverse. Nonostante questo genoma relativamente piccolo, gli esseri umani mostrano percorsi, processi e regolazioni incredibilmente complessi. Gran parte di questa complessità deriva dalle interazioni intermolecolari tra proteine, ligandi di piccole molecole e DNA. Aggiungere le previsioni di interazioni proteina-proteina omodimeriche al Database
Alphafold è un primo passo verso una descrizione completa dell’interattoma umano, la base su cui sarà descritta e compresa la biologia umana. Questo ha rilevanza per progettare nuovi farmaci, comprendere le interazioni ospite-patogeno e molto altro. Rendere queste strutture accessibili a tutti permette a ogni ricercatore nel mondo di basarsi su questi dati, e di avvicinarsi sempre di più alla predizione della biologia della vita”, ha dichiarato Dame Janet Thornton, Direttrice Emerita di EMBL-EBI.