L’intelligenza artificiale disegna le proteine del disordine: rivoluzione nella biologia molecolare

L’intelligenza artificiale disegna le proteine del disordine: rivoluzione nella biologia molecolare
Condividi:
5 min di lettura

La progettazione di proteine su misura non è più un sogno della bioingegneria. Oggi è possibile costruire molecole capaci di cambiare costantemente forma, senza mai assumere una struttura stabile. È il risultato di un metodo innovativo sviluppato dai ricercatori di Harvard e Northwestern University, che grazie all’intelligenza artificiale hanno ideato un sistema per creare da zero proteine intrinsecamente disordinate (IDP), molecole cruciali per la vita cellulare ma da sempre difficilissime da progettare e prevedere.

“Le proteine disordinate non si piegano mai in una singola forma, ma oscillano in un ampio insieme di configurazioni. Queste fluttuazioni definiscono la loro funzione biologica, e finora hanno reso quasi impossibile progettarle razionalmente”, spiegano i ricercatori di Harvard e Northwestern.
Il nuovo approccio, dicono:
"Inverte il paradigma tradizionale. Invece di partire da strutture stabili e prevedere le funzioni, il modello apprende la relazione tra sequenza, disordine conformazionale e funzione, per poi risalire alla sequenza più adatta a ottenere il comportamento desiderato".

Un linguaggio comune tra fisica e intelligenza artificiale

Il cuore della scoperta è un algoritmo differenziabile che unisce le simulazioni fisiche alla potenza dell’apprendimento automatico. Gli autori hanno costruito un framework computazionale in grado di “invertire” le simulazioni molecolari, ottimizzando in modo continuo la sequenza amminoacidica fino a ottenere le proprietà desiderate.

“Abbiamo sviluppato un sistema che combina la programmazione differenziabile con la fisica statistica, così da calcolare come piccoli cambiamenti nella sequenza si riflettano sul comportamento della proteina nel suo insieme - dicono gli autori -. Il modello utilizza rappresentazioni probabilistiche delle sequenze, in cui ogni posizione di un peptide è descritta da una distribuzione di probabilità sui 20 amminoacidi. In questo modo è possibile esplorare enormi spazi di sequenze in modo efficiente, senza dover generare miliardi di varianti discrete. L’algoritmo, inoltre, impara direttamente dalle simulazioni, evitando di appoggiarsi a modelli già addestrati, che spesso perdono accuratezza fuori dai dati di riferimento".

Dalla teoria alla pratica

Nel loro studio, i ricercatori hanno dimostrato che il metodo è in grado di progettare IDP di diversa lunghezza e complessità, controllandone le dimensioni medie e la dinamica conformazionale.
Attraverso simulazioni basate sul modello Mpipi-GG, il team ha generato sequenze di 50 e 75 residui con raggio di gyration (Rg) e raggio end-to-end (Ree) predeterminati — parametri che descrivono il grado di compattezza di una catena polimerica.

“Questo approccio permette di creare molecole disordinate con proprietà geometriche definite, ad esempio proteine che rimangono compatte o che si estendono in risposta a stimoli ambientali”, raccontano i ricercatori.

Rispetto ai modelli puramente predittivi come ALBATROSS, il nuovo sistema ha mostrato maggiore accuratezza e flessibilità, poiché lavora direttamente sui principi fisici delle simulazioni e non su approssimazioni statistiche.

Loop, linker e architetture dinamiche

Una parte chiave del lavoro è dedicata alla progettazione di loop e linker, le regioni flessibili che collegano domini strutturali nelle proteine multidominio.

Il gruppo di Harvard e Northwestern ha identificato sequenze ottimizzate che massimizzano la decoupling tra Rg e Ree, rompendo la correlazione lineare tipica dei polimeri ideali.

"Le simulazioni hanno mostrato che i loop ottimali contengono combinazioni di triptofano e tirosina agli estremi, separati da residui di prolina e arginina che generano curvature locali. Al contrario, i linker disordinati più efficienti alternano proline e arginine, creando catene cariche e repulsive che restano estese. Il risultato più interessante è che la struttura ideale non è frutto di una singola regola, ma di un equilibrio tra attrazioni aromatiche, repulsioni elettrostatiche e rigidità locale. L’algoritmo riesce a scoprire questo bilanciamento autonomamente”, evidenziano i ricercatori.

Proteine che rispondono all’ambiente

Ma non finisce qui. Uno degli esperimenti più spettacolari riguarda la progettazione di sensori molecolari disordinati. Le IDP naturali, infatti, spesso funzionano come “sentinelle” cellulari, cambiando forma in risposta a variazioni di sale, temperatura o fosforilazione.

Utilizzando il loro modello, gli scienziati sono riusciti a generare IDP che si contraggono o si espandono al variare della concentrazione salina.

Una delle sequenze create mostrava un comportamento contrattile: si compattava con l’aumento del sale grazie a cluster aromatici che restano stabili anche quando le repulsioni elettrostatiche vengono schermate
Un’altra, definita “espansore”, reagiva in senso opposto, allungandosi con l’aumento del sale.

“In questo caso, la proteina si comporta come una molla molecolare, con tre moduli di carica alternata e regioni aromatiche che regolano la risposta. È un piccolo sensore biologico programmabile”.

Il metodo è stato esteso anche a sensori sensibili alla temperatura e alla fosforilazione. Sebbene i modelli attuali non catturino ancora perfettamente le variazioni di interazioni idrofobiche con la temperatura, i risultati dimostrano il potenziale del sistema nel programmare risposte conformazionali complesse.

Leganti per substrati disordinati

Infine, gli autori hanno affrontato una delle sfide più ardue: progettare leganti disordinati per substrati disordinati.

Utilizzando simulazioni che includono sia il substrato sia la proteina “binder”, l’algoritmo ha identificato sequenze in grado di riconoscere substrati come la regione a bassa complessità di FUS (una proteina implicata in malattie neurodegenerative) e la regione poli-Q di Whi3, importante nel ciclo cellulare dei lieviti.

“Durante le simulazioni abbiamo osservato forti interazioni intermolecolari e pattern di contatto che indicano un’affinità specifica. Abbiamo anche notato una transizione netta durante il processo di apprendimento, corrispondente all’emergere di un legame stabile: un fenomeno che, secondo noi, riflette la cooperatività fisica del legame tra proteine disordinate”, commentano gli autori.

Potenzialità e limiti

Il nostro approccio può essere applicato a qualsiasi sistema in cui sia possibile simulare la relazione tra sequenza e comportamento molecolare. Non serve un modello addestrato, serve solo un potenziale fisico realistico. Questo rende il metodo potenzialmente universale e lo trasforma in un ponte tra biologia molecolare e fisica computazionale, capace di guidare la progettazione di nuove proteine, RNA e DNA per la medicina, la biotecnologia e la scienza dei materiali - affermano -. Siamo consapevoli che il nostro sistema ha ancora dei limiti. Le prestazioni dipendono dalla qualità dei parametri di simulazione e il modello funziona meglio per processi di equilibrio che per dinamiche più complesse. Inoltre, l’inversione diretta delle simulazioni richiede un notevole tempo computazionale rispetto ai modelli di machine learning puramente statistici. Le nostre previsioni non dipendono da approssimazioni empiriche, ma dai principi fisici. E' un investimento in accuratezza".

"Per il futuro immaginiamo modelli ibridi, dove simulazioni, machine learning e dati sperimentali lavorino insieme. Lo stesso framework potrà essere usato non solo per progettare sequenze, ma anche per ottimizzare le simulazioni a partire dai risultati di laboratorio”, concludono i ricercatori.