Disegniamo delle Alfa Eliche
Il gioco è cambiato! AlphaFold e la rivoluzione nella predizione della struttura delle proteine. Domenico Raimondo sulle nuove frontiere della bioinformatica.
Come può un algoritmo, creato per vincere partite ai videogiochi, diventare in poco più di dieci anni una reale alternativa per la biologia sperimentale che studia le strutture delle proteine? Una storia, quella di AlphaFold2, che vede tra gli altri anche l’intervento di colossi come Google, che stupisce. AlphaFold2 è forse una delle “applicazioni” più tangibili dell’intelligenza artificiale alla ricerca biologica. Da chi le strutture le predice da anni e bene, il racconto di Domenico Raimondo sul software intelligente.
È ormai ben chiaro come il ricorso all’ intelligenza artificiale (IA) nell’ambito della ricerca scientifica sia una via imprescindibile e proficua di risultati eclatanti; sebbene la velocità con cui ciò avviene confonde anche i più esperti. L’efficacia di questo approccio è ulteriormente avvalorata dal software AlphaFold2, che, alla fine del 2020, ha impresso una svolta epocale ad una delle grandi sfide della biologia degli ultimi cinquant’anni. Ha dimostrato, infatti, di poter prevedere come le catene di amminoacidi possano ripiegarsi nello spazio per assumere forme articolate ed uniche, divenendo, così, proteine completamente funzionali. Si stima esistano quasi 200 milioni di proteine in tutte le forme di vita, fino a 400mila soltanto nel corpo umano; tuttavia, le strutture sono note solo per una piccola frazione di esse, circa 170mila. La conoscenza della loro forma è indispensabile per la comprensione del funzionamento cellulare e per la progettazione di farmaci capaci di depositarsi nelle cavità e nelle fessure delle proteine. Inoltre, essere in grado di sintetizzare proteine con una struttura desiderata potrebbe accelerare lo sviluppo di enzimi che producono biocarburanti e degradano i rifiuti di plastica. Che cos’è AlphaFold2? Sostanzialmente, si tratta di un metodo computazionale che predice la struttura delle proteine. È un software che calcola come dovrebbe apparire la struttura di ciascuna di esse: partendo dalla sequenza amminoacidica di una proteina genera la struttura 3D in poche ore. Evidentemente, AlphaFold2 velocizza di molto il processo di determinazione di questa entità biologica a fronte dell’itinerario tradizionale che: arriva all’obiettivo attraverso un percorso sperimentale articolato su tecniche come cristallografia ai raggi x e microscopia elettronica, dispendiose in quanto a tempo e costi e, per giunta, non sempre funzionanti. Come si è arrivati ad AlphaFold? Il software è stato sviluppato da DeepMind, un’azienda inglese che si occupa di IA, sorta nel 2010. Inizialmente, DeepMind non è impegnata nello sviluppo di software scientifici, ma in algoritmi che, impiegando l’intelligenza artificiale, cercano di vincere partite a videogiochi ATARI degli anni settanta-ottanta. Il software ignaro delle regole dei giochi, grazie all’apprendimento automatico e giocando ripetute partite, impara sia le regole che, nel corso del tempo, scopre modi per vincere facilmente e velocemente. Nel 2014 DeepMind è acquisita da Google per circa 600 milioni di dollari e, nello stesso anno, parte il progetto AlphaGo. Questo è volto a studiare quanto le reti neurali artificiali, cioè modelli computazionali ispirati alle interconnessioni dei neuroni del cervello, possano essere applicabili al gioco del go, (gioco strategico di origine cinese giocato da più di 2500 anni). Nel 2016, AlphaGo è balzato agli onori delle cronache battendo il campione indiscusso nel gioco del go, Lee Sedol, in una sfida guardata da oltre 200 milioni di persone in tutto il mondo. Successivamente, Demis Hassabis, il co-fondatore di DeepMind, ha confermato che, in realtà l’obiettivo finale non era quello di vincere partite, bensì di utilizzare l’ambito dei giochi come campo di addestramento per programmi che, una volta abbastanza potenti, potessero essere applicati a problemi più impegnativi del mondo reale. Nel 2018 compare la prima versione del progetto AlphaFold. Lo scopo è di predire al calcolatore, mediante l’intelligenza artificiale, il ripiegamento nello spazio delle proteine. I ricercatori di DeepMind “addestrano” il loro algoritmo su un database pubblico, contenente circa 170mila sequenze proteiche e le loro strutture 3D e, su database contenente sequenze proteiche prive di struttura nota. Mettono alla prova AlphaFold partecipando ad una competizione mondiale biennale (nata nel 1994 su input del professore John Moult, biologo strutturale dell’Università del Maryland, e di alcuni suoi colleghi), denominata CASP, (Critical Assessment of Protein Structure Prediction), una “Olimpiade delle predizioni della struttura delle proteine”. Si ottengono subito risultati molto positivi: AlphaFold vince CASP alla prima partecipazione, battendo software dotati di pluriennale esperienza. A proposito di CASP, sento di dover ricordare Anna Tramontano, figura di riferimento per la bioinformatica e la biologia computazionale, venuta purtroppo a mancare cinque anni or sono. E’ stata un elemento di forza in CASP, prima come partecipante di rilievo, poi come giudice della competizione e, successivamente, come membro organizzatore, passando infine il testimone, nell’ambito di CASP, ad alcuni membri del suo gruppo di ricerca come il dott. Edoardo Milanetti, attualmente ricercatore in Sapienza e uno dei giudici dell’ultima edizione di CASP (2020). Come funziona CASP? I partecipanti ottengono sequenze di amminoacidi per circa cento proteine le cui strutture non sono note, e predicono la struttura per ciascuna sequenza in un tempo prestabilito. In parallelo, biologi strutturali determinano sperimentalmente le strutture delle stesse proteine “modellate” dai partecipanti. Gli organizzatori confrontano, infine, le predizioni computazionali con i risultati di laboratorio e assegnano alle predizioni in-silico un punteggio definito GDT con scala da zero a cento. I software, che riescono ad ottenere punteggi superiori a novanta, sono considerati alla pari dei metodi sperimentali. Nel 1994, le strutture predette per proteine piccole e semplici, in alcuni casi, corrispondevano ai risultati sperimentali. Ma, per le proteine più grandi e difficili da predire, i punteggi GDT dei software erano quasi pari a venti: “una catastrofe completa“, ha affermato Andrei Lupas, giudice CASP e biologo evoluzionista presso l’Istituto Max Planck di Tübingen. Fino al 2016, i gruppi in competizione avevano raggiunto punteggi al massimo pari a quaranta per le proteine più ostiche. Dopo un incoraggiante esordio del 2018, in cui AlphaFold vince CASP con un punteggio medio di GDT pari a sessanta, l’evoluzione del software di DeepMind, AlphaFold2, nel CASP successivo, del 2020, ha letteralmente sbaragliato il campo, ottenendo un punteggio medio di 92.5 su 100, che gli consente di affermarsi come una reale alternativa ai metodi sperimentali tradizionali. Alla luce di tali risultati, Janet Thornton, direttrice emerita dell’Istituto Europeo di Bioinformatica, ha affermato: “quello che il team di DeepMind è riuscito a ottenere è fantastico e cambierà il futuro della biologia strutturale e della ricerca sulle proteine”. “Questo è un problema vecchio di cinquant’anni”, aggiunge John Moult “Non avrei mai pensato di vederlo in vita mia.” Gli organizzatori dell’edizione di CASP del 2020 temevano persino che DeepMind potesse aver barato in qualche modo con AlphaFold2. Perciò, Andrei Lupas lanciò una sfida speciale: predire la struttura 3D di una proteina di membrana di una specie di archeobatteri, un antico gruppo di microbi. Per dieci anni, il suo team di ricerca ha provato invano di ottenere una struttura mediante cristallografia ai raggi x della proteina. AlphaFold2 non ha avuto problemi. Ha restituito una struttura 3D dettagliata della proteina. Il modello ha consentito a Lupas e ai suoi colleghi di dare un senso ai loro dati sperimentali; in mezz’ora, avevano adattato i loro risultati sperimentali alla struttura prevista di AlphaFold2. John Jumper, un ricercatore del team di DeepMind, ha dichiarato: “non sapevamo davvero – finché non abbiamo visto i risultati di CASP – fino a che punto ci fossimo spinti sul campo“. Non è la fine del lavoro, però. La ricerca futura si concentrerà su come le proteine si combinano per formare “complessi” più grandi e su come interagiscono con altre molecole negli organismi viventi. Nel luglio 2021 è stato pubblicato il manoscritto relativo, sulla rivista Nature, e, il codice sorgente dell’algoritmo, è stato reso disponibile alla comunità scientifica internazionale. Allo stesso tempo, il principale centro europeo di bioinformatica, EMBL-EBI, ha messo a disposizione, per ogni singola proteina nel corpo umano e per altri venti organismi modello, le predizioni della struttura delle proteine note mediante AlphaFold2 attraverso il database AlphaFold DB. Certamente esistono dei limiti, ma, con AlphaFold e l’utilizzo dell’IA nel campo della biologia strutturale, abbiamo davvero assistito ad un cambio di paradigma della ricerca in questo settore, che lo stimolerà verso nuove e provvide direzioni. Possiamo aspettarci un rapido sviluppo per quanto riguarda, ad esempio, il miglioramento nella definizione dei siti attivi per le applicazioni farmaceutiche, una migliore predizione di complessi supramolecolari e/o dinamici e per la predizione di proteine debolmente strutturate, definite anche “proteine disordinate”, quasi del tutto ancora inesplorate, che possono assumere diverse conformazioni spaziali a seconda della funzione svolta. Alcune delle tante sfide in cui l’intelligenza artificiale proverà a dire la sua.
Domenico Raimondo, bioinformatico presso il Dipartimento di Medicina Molecolare della Sapienza Università di Roma
Commenti recenti