AlphaFold - hur har du sett nyttan?
Hej!
Såg precis en video om AlphaFold som tydligen är en AI som enkelt och snabbt kan bygga i princip vilken proteinstruktur som helst. Detta verkar vara ett av historiens största framsteget inom vetenskap. Jag undrar hur ni som jobbar med biologi/kemi påverkats av detta och vad ni tycker om uppfinningen? Är den bättre eller sämre än vad man som icke-kemist/biolog tror?
En lång, intressant historia!
Man kan börja med den här artikeln:
De har avslöjat proteinernas hemligheter med hjälp av datorer och artificiell intelligens
https://www.kva.se/app/uploads/2024/11/pop_ke_sv_24.pdf
som ingår i Vetenskapsakademins presentation av kemipriset:
Nobelpriset i kemi 2024: De har knäckt koden för proteinernas märkliga strukturer
Ska kika! Hade varit coolt att höra direkt från någon inom fältet bara.😄
Jag vet en i forumet som har extremt bra koll på det här, han/hon kommer nog svara hehe, im waiting too.
(det blev en lång radda här i alla fall haha)
En sak jag vill kommentera är dock att nobelpriset ger pris till upptäckter med lång fördröjning, och att när det sker så blåses signifikansen lite opropotioneligt up. Att bestämma proteinstruktur är inte ett "mysterium" utan vi har kunnat göra det med kristallografi sen 1950, och jag tror breakthroughn är mer inom deep learning än inom proteinvetenskap. Proteinforskare i KTH tex som jobbar mer med design (som den andra pristagaren Baker) utgår ofta från ett välkänt mall-protein (igG antikroppen eller affibody eller det som jag jobbade med i mitt examensarbete, Bakers WSHC6 protein) och modifierar deras flexibla/funktionsbärande region (med replacement, ingen insert eller deletion eftersom det får mycket större konsekvenser för proteinets övriga struktur) och då använder man homology modelling istället för de novo modelling. För dem är Alphafold inte särskilt viktigt.
Men det finns en helt annan kategori av grundforskare vars mål är att förstå dåligt förstådda och icke strukturbestämda proteiner, där sparar alphafold dramatiskt mycket tid och pengar. Att strukturbestämma ett protein med röntgenkristallografi tar... 1, 2 månader? Det får du rätta mig på mag1. I guess det finns också designinriktade forskare/företag som inte utgår ifrån mallar, men jag vet inte mycket om dem, jag vet inte om de finns, kombinationsmöljigheterna på en flexibel region är ju 20^n stycken och det är smidigt att prova massor genom repeterad fiskning. Drug development är ett stort fält men de designar väl små organiska molekyler.
AlphaFold (AF) genererar en modell (oftast fler) av ett proteins struktur. Just att det är modeller behöver man vara medveten om/ha i bakhuvudet. Lite bakgrundsinformation om proteinstruktur/modeller tror jag är bra för att sätta AF och strukturprediktion i ett sammanhang.
Ett proteins tredimensionella struktur, uppstår från hur dess aminosyror interagerar/binder till varandra, och de rör sig i förhållande till alla andra aminosyror i proteinet, samt hur aminosyrorna dras till vatten/membran eller bort från dessa. Ofta beskrivs en enstaka strukturvariant, och det görs genom en så kallad modell - som är en beskrivning av proteinets struktur "just då, och under just de aktuella förhållandena". Man kan beskriva det som att ett protein alltid har _en_ struktur, men proteinet måste inte alltid ha just _den_ strukturen. Man kan säga att proteinets struktur (precis som andra ämnen) inte är fast utan dynamisk. Proteinet är precis som andra partiklar aldrig helt stilla, de rör sig/vibrerar hela tiden. Både i form av en rörelse av proteinet i t.ex. vatten från punkt A->B, men eftersom proteiner är så pass stora molekyler finns rörelser inom själva proteinet.
Rörelserna påverkas av krafter på proteinet från bl.a. omgivningen, men även vad som sker inuti proteinet (t.ex. en kemisk reaktion). Och samtidigt hålls proteinets övergripande struktur samman av de attraktionskrafter som finns inom proteinet. "Övergripande" för att de små detaljerna alltid rör lite på sig, men betraktar man proteinet på lite avstånd/lägre upplösning så finns det en övergripande struktur. En analogi är ett garnnystan som ser ut som just ett garnnystan på lite avstånd men tittar man nära på detaljerna så skiljer sig två tillsynes likadana garnnystan lite åt, eller liknande om man trycker försiktigt med fingret på en ballong (proteinets struktur), så blir det en liten grop men formen är övergripande densamma - och när man tar bort fingret återgår formen till vad den var tidigare.
Ofta brukar man beskriva hur ett protein veckas genom att energidiagram, där massvis med aningen olika strukturer av proteinet kan finnas, men att proteinet till slut veckas på rätt sätt och får en struktur som är (eller är nära) den mest stabila strukturen. Och av alla dessa tänkbara strukturer som ett protein (teoretiskt) kan ha, kan man skapa en unik modell av en av flera möjliga strukturer. De mindre stabila eller rent utav instabila strukturerna, är i princip omöjliga att beskriva, eftersom atomerna i dessa strukturer har en så stor rörlighet/hastighet i förhållande till varandra, och i en modell behöver atomerna vara stilla för att kunna beskrivas/observeras. Skall man beskriva hur atomerna i proteinet rör sig i förhållande till varandra, t.ex. i ett enzym, behöver man beskriva det med en utgångs- och en slutpunkt - det blir då en beskrivning av strukturen "innan" och en annan för "efter" reaktionen.
AlphaFold skapar modeller av ett proteins struktur, vilket också var möjligt tidigare med andra metoder. En av utmaningarna med att förutspå proteinstrukturer är att det krävs energiminimisering för att kunna skapa en modell, istället för massvis med modeller där atomernas positioner är osäkrare (lite förenklat behöver atomernas "rörelser" minskas så att deras positioner kan beskrivas som mer eller mindre stilla). Man kan t.ex. inte beskriva en position om atomen fortfarande har en för stor kraft/hastighetsvektor som "skjuter" atomen åt ett håll, det blir vara en suddig bild då. Det finns alltid en osäkerhet för varje atoms position, och den behöver minimeras. Oavsett metod konvergerar de enskilda atomernas/aminosyrornas/helixarnas positioner (förhoppningsvis) och en modell kan skapas.
Med AF görs prediktionen på ett nytt sätt och resultatet förvånade många med sin träffsäkerhet. För vid jämförelser med andra experimentellt bestämda modeller av proteinstrukturen så är överensstämmelsen i allmänhet god, trots att AF inte "sett" och inspirerats av den experimentella modellen (lite eller inget bias).
Validering av prediktioner sker oftast genom en jämförelse mellan predicerade modeller och experimentellt observerade modeller. Är de lika så verkar preciseringen fungera väl. Med AF och andra predicerande metoder finns en möjlighet att förutspå strukturer som inte tidigare observerats. Skillnaden mot tidigare prediceringsmetoder är träffsäkerheten med AF anses vara mycket högre, speciellt för mer komplicerade fall.
Men både predicerade och experimentella modeller har sina begränsningar. En predicerad modell är "förutspådd" och kan vara allt från: exakt - bra - hyfsad - ganska inkorrekt - helt fel. Experimentellt bestämda modeller har begränsningar som t.ex.: detaljrikedomen (upplösningen), hur provet bereddes innan data samlades in, samt hur datat behandlats för att sedan skapa modellen av proteinstrukturen som fanns i provet. Oavsett vilken modells som skall användas sker en tolkning av modellen, vilket även påverkar hur användbara slutsatserna från tolkningen faktiskt är.
Det finns numera massvis med modeller av proteinstrukturer skapade med AlphaFold, där det även finns information om hur korrekt AlphaFold anser delarna av den beräknade modellen är (även om denna skala är kryptisk). Och om man undrar över strukturen för ett protein från en specifik organism kan modellen i AlphaFold vara till hjälp för en uppsjö frågeställningar kopplade till proteinstruktur. Hur kan strukturen se ut? Liknar den ett annat protein vi är intresserade av? Aminosyrasekvensen för protein X i människa är 10% längre än varianten som finns hos hästar - vilken struktur kan dessa extra 10% skapa, och om vi får en förutsägelse av vilken struktur den extra biten kan ha - finns den i andra proteiner som också har denna bit eller är den unik för människa?
En förutsägelse/prediktion är alltid begränsad av att den är skapad, och skapandet är i sin tur begränsad av hur väl metoden kan skapa modeller. För ganska snabbt efter att AlphaFolds träffsäkerhet blev accepterad proklamerade en del att - "nu kan allt förutspås". Det finns fortfarande strukturer som AlphaFold inte kan förutspå med träffsäkerhet, speciellt de som inte liknar tidigare observerade strukturer - det är ju lite knepigt att göra en förutsägelse utan inspiration från tidigare erfarenheter, vilket både vi och en LLM AI som AlphaFold är begränsade i. Samtidigt finns det protein som är tekniskt/metodmässigt så pass svåra att arbeta med, att det ligger på gränsen till att överhuvudtaget vara möjligt att experimentellt samla information om deras strukturer. För sådana exempel kan en predicerad modell ge fler delar av pusslet, men samtidigt kan en del av dessa bitar istället tillhöra ett annat pussel (svårt att förutspå något korrekt om man inte har bra utgångsdata/metod).
Qetsiyah skrev: Men det finns en helt annan kategori av grundforskare vars mål är att förstå dåligt förstådda och icke strukturbestämda proteiner, där sparar alphafold dramatiskt mycket tid och pengar. Att strukturbestämma ett protein med röntgenkristallografi tar... 1, 2 månader? Det får du rätta mig på mag1.
Med be bästa omständigheterna kan det i teorin gå fortare än så, men för mer utmanande fall kan det ta åratal... För att inte tala om de protein(varianter) som p.g.a. sina unika egenskaper man hitintills inte har kunnat bestämma strukturen för alls. Så det kan absolut vara till hjälp med de modeller AF beräknat. Det går även att starta egna beräkningar utifrån vad man själv är intresserad av.
Qetsiyah skrev: I guess det finns också designinriktade forskare/företag som inte utgår ifrån mallar, men jag vet inte mycket om dem, jag vet inte om de finns, kombinationsmöljigheterna på en flexibel region är ju 20^n stycken och det är smidigt att prova massor genom repeterad fiskning. Drug development är ett stort fält men de designar väl små organiska molekyler
Alla kombinationer av aminosyror bör inte finnas representerade i proteiner, så man kan (och måste) begränsa sig till kortare polypeptider. Både därför att antalet kombinationer är så pass stort och att det blir mer komplicerat att förutspå strukturen när parametrarna ökar med varje aminosyra som adderas. Två aminosyror ger 400 olika kombinationer av aminosyror, och snart blir det otrevligt stora siffror redan innan man når längden av ett protein, som består av mer än ~50 aminosyror, uppåt till 27000. 27000^20 kombinationer av aminosyror går inte att hantera, och varje aminosyra består av flera atomer med unika strukturvektorer. Men med information om ett liknande protein, kan prediktionen förenklas så pass mycket att det kan gå även om storleken måste begränsas!
Alla kombinationer av aminosyror bör inte finnas representerade i proteiner, så man kan (och måste) begränsa sig till kortare polypeptider. Både därför att antalet kombinationer är så pass stort och att det blir mer komplicerat att förutspå strukturen när parametrarna ökar med varje aminosyra som adderas. Två aminosyror ger 400 olika kombinationer av aminosyror, och snart blir det otrevligt stora siffror redan innan man når längden av ett protein, som består av mer än ~50 aminosyror, uppåt till 27000. 27000^20 kombinationer av aminosyror går inte att hantera, och varje aminosyra består av flera atomer med unika strukturvektorer. Men med information om ett liknande protein, kan prediktionen förenklas så pass mycket att det kan gå även om storleken måste begränsas!
Det jag skrev om ("fiska") men glömde namnet på hette directed evolution och det är alltså inte hela proteinet som är intressant utan endast the variable regions (som jag kallade för flexibla regioner). På igG antikroppen är det 110 aminosyror på vardera heavy chain och låt oss anta även 110 på light chain, så 20^440 kombinationer. I exemplet av en membrane pore är det ju på motsvarande sätt endast the membrane lining amino acids som avgör dess funktion (selektivitet och genomströmningshastighet). Det blir väldigt stora siffror, men samtidigt är det inte svårt heller att skapa mycket stora bibliotek och låta provrörsevolutionen göra sitt jobb.
Man man kan dock få ner siffran 20 i 20^n mycket genom att gruppera liknande aminosyror efter storlek och hydrofob/fil också.
Qetsiyah skrev: Det jag skrev om ("fiska") men glömde namnet på hette directed evolution och det är alltså inte hela proteinet som är intressant utan endast the variable regions (som jag kallade för flexibla regioner). På igG antikroppen är det 110 aminosyror på vardera heavy chain och låt oss anta även 110 på light chain, så 20^440 kombinationer. I exemplet av en membrane pore är det ju på motsvarande sätt endast the membrane lining amino acids som avgör dess funktion (selektivitet och genomströmningshastighet). Det blir väldigt stora siffror, men samtidigt är det inte svårt heller att skapa mycket stora bibliotek och låta provrörsevolutionen göra sitt jobb.
Man man kan dock få ner siffran 20 i 20^n mycket genom att gruppera liknande aminosyror efter storlek och hydrofob/fil också.
Jag misstänkte att det var det du menade. Liknande gruppering/begränsning görs även vid prediktioner, för att spara tid genom att välja bort aminosyrasekvenser som inte borde kunna ge en rimlig struktur (t.ex. poly- Ala/Gly där man vill ha helixar/strängar).
Med fler begränsningar blir det mindre att beräkna, så när du vet vilken del av strukturen "direkt påverkar funktionen", kan man göra antagandet att "resten" inte påverkar funktionen lika mycket, och kan då primärt fokusera på den fösta delen (även varje del påverkar allt annat).
Räknar man på en struktur som en antikropp går det att välja bort en ännu större del, paratopen (den del som innehåller de aminosyror som binder till antigenet) är sällan större än 20 aminosyror lång. Samtidigt går det enkelt att göra detta i celler eller semisyntetiskt.
För andra proteinfunktioner blir det mer komplicerat, där en förbättring/förändring av funktionen kräver flera mutationer. T.ex. vid directed evolution av enzymer kan en hastighetsökning fås genom en ackumulation av mutationer, som i strukturen finns långt bort från den aktiva yta. En effekt som är svår att klura ut för oss, då systemet har för många frihetsgrader. Fördelen med AI i jämförelse är att dessa kan angripa utmaningen på andra vis och i princip endast begränsas av antalet flops de har tillgång till.
Jag undrar hur ni som jobbar med biologi/kemi påverkats av detta och vad ni tycker om uppfinningen? Är den bättre eller sämre än vad man som icke-kemist/biolog tror?
Uppenbart subjektiv uppfattning nu, visst har det haft en påverkan. Det går att ladda ner en precicerad modell direkt, av väldigt många strukturer och antalet ökar hela tiden. Detta är en stor fördel speciellt för strukturer som inte tidigare observerats, för med modellen kan nya hypoteser ställas upp och prövas. Hur kvalitativt utfallet blir av prövningen påverkas av hur korrekt modellen är (och hur bra hypotesen är), men oavsett tillför prövningen information. Så för hypotesskapande inom grundforskning är det bra att med ett enkelt klick kunna ladda ner modeller, så länge man betraktar dessa som modeller, med en kvalité som varierar från i teorin prefekt till helt eller delvis kass. Modellerna från AlphaFold är överlag kvalitativa, speciellt på det övergripande planen, men även ner på detaljnivå. En brasklapp dock gällande detaljnivån, för alla atomers som kan prediceras ges en position men inte alla positioner är lika bra förutspådda, och vissa modeller blir så klart bättre än andra. Även inom en modell kan delar av strukturen prediceras, och andra har lägre träffsäkerhet.
Blir trist svar nu men, om AF är bättre eller sämre än vad man tror, beror nog mest på vad man har för förväntningar och hur man upplever denna AI. Det har varit gott om positiv press för AF, så bilden generellt av AF är nog positiv/bra. Det blir ju en rätt seg nyhet om man skall utöka resonemanget med användning och begränsningar. Det blir intressant att se hur det beskrivs om 5-10 år när användandet har pågått ett tag, och AI kanske inte är lika hajpat. AF är lite som de flesta verktyg; kan vara riktigt bra för att tackla en del problem, men kan inte ensam ersätta de andra verktygen.
Qetsiyah skrev:
[...] den andra pristagaren Baker [...]
I guess det finns också designinriktade forskare/företag som inte utgår ifrån mallar, men jag vet inte mycket om dem, jag vet inte om de finns,
Baker själv är en sådan style av designer, där gjorde jag bort mig rejält. Förlåt David Baker!
Jag undrar hur ni som jobbar med biologi/kemi påverkats av detta och vad ni tycker om uppfinningen? Är den bättre eller sämre än vad man som icke-kemist/biolog tror?
Om jag ska kasta in min lilla erfarenhet i korgen med så är alphafold... imponerande men bara ett partytrick-ish? Men det är som sagt bara i sfärer jag vistats i. Jag vet inte hur receptionen var precis när den kom ut för då gick jag bara i gymnasiet.
Asså många proteiner utför sin funktion genom att ändra sin egna konformation, och strukturer är sällan statiska, enzymer är ett viktigt och stort exempel, men även jonkanaler vilket var det jag jobbade med, samt olika typer av lösliga proteiner med biologisk funktion binder sig ofta till något annat och det involverar också konformationsändring och det kan man simulera med dator eller använda biokemiska metoder för att observera indirekt. Alphafold förutsäger alltså strukturer men det är inte end all be all, även om det var det för strukturbiologer jobbade på och som nu är löst. Ganska stort påstående men jag tror inte någon kallar sig för strukturbiolog mer utan man jobbar på mer derivata frågeställningar nu.