Chemieingenieure des MIT nutzten ein umfangreiches Sprachmodell, um zu lernen, wie industrielle Hefe DNA liest, und setzten es anschließend ein, um Proteinmedikamente effizienter herzustellen. Dieser Ansatz könnte dazu beitragen, die Entwicklungszeit und -kosten neuer Biologika für Patienten zu reduzieren.
Ein neues Modell künstlicher Intelligenz, das DNA wie eine Sprache liest, könnte dazu beitragen, proteinbasierte Medikamente und Impfstoffe schneller und kostengünstiger herzustellen.
Chemieingenieure des MIT haben ähnliche große Sprachmodelle, wie sie auch in Chatbots zum Einsatz kommen, für die Untersuchung des genetischen Codes einer Industriehefe adaptiert, die häufig zur Herstellung von Medikamenten verwendet wird. Indem das Modell die bevorzugten DNA-Muster der Hefe erkennt, kann es optimierte genetische Rezepte für die Produktion wertvoller Proteine vorschlagen, vom menschlichen Wachstumshormon bis hin zu krebsbekämpfenden Antikörpern.
In Labortests halfen diese KI-generierten DNA-Sequenzen Hefezellen dabei, mehr von sechs verschiedenen therapeutischen Proteinen zu produzieren als Sequenzen, die von führenden kommerziellen Tools generiert wurden, berichten die Forscher in einem Beitrag. veröffentlicht in England, Proceedings of the National Academy of Sciences.
Für Arzneimittelhersteller könnten solche Aufschwünge zu kürzeren Entwicklungszeiten und geringeren Herstellungskosten für Biologika führen – komplexe Arzneimittel, die aus lebenden Zellen hergestellt werden und oft zu den teuersten Behandlungen auf dem Markt gehören.
Ziel ist es, einen Prozess, der immer noch überraschend manuell abläuft, besser vorhersagbar zu machen, so der Hauptautor J. Christopher Love, Raymond A. und Helen E. St. Laurent Professor für Chemieingenieurwesen am MIT.
„Heute werden diese Schritte allesamt durch sehr aufwendige experimentelle Verfahren durchgeführt“, sagte Love, die auch Mitglied des Koch Institute for Integrative Cancer Research und Co-Direktorin der MIT Initiative for New Manufacturing ist, in einer Pressemitteilung. „Wir haben uns mit der Frage beschäftigt, wie wir einige der Konzepte des maschinellen Lernens anwenden können, um verschiedene Aspekte des Prozesses zuverlässiger und einfacher vorhersagbar zu machen.“
Die genetische „Syntax“ der Hefe verstehen
Industriehefen wie Komagataella phaffii und Saccharomyces cerevisiae Sie sind die Arbeitspferde der biopharmazeutischen Industrie. Sie tragen jedes Jahr zur Herstellung von Proteinmedikamenten und Impfstoffen im Wert von Milliarden von Dollar bei, darunter Insulin, Hepatitis-B-Impfstoffe und monoklonale Antikörper.
Um Hefe in eine Miniaturfabrik für ein neues Proteinmedikament zu verwandeln, fügen Ingenieure ein Gen, das für dieses Protein kodiert, in das Hefegenom ein und optimieren anschließend das Wachstum und die Produktionsbedingungen der Zellen. Bei Biologika kann diese Entwicklungsphase einen erheblichen Anteil der Gesamtkosten für die Markteinführung eines Produkts ausmachen.
Eine zentrale Designentscheidung betrifft die Art und Weise, wie die DNA-Sequenz für das Gen geschrieben wird. Proteine bestehen aus 20 Aminosäuren, aber die DNA verwendet 64 mögliche Drei-Buchstaben-Codons, um diese zu codieren. Das bedeutet, dass die meisten Aminosäuren in der DNA auf verschiedene Arten geschrieben werden können.
Verschiedene Organismen bevorzugen unterschiedliche Codons. Herkömmliche Codon-Optimierungswerkzeuge wählen üblicherweise die häufigsten Codons im Wirtsorganismus aus, da Zellen diese vermutlich besser nutzen können. Diese einfache Strategie kann jedoch kontraproduktiv sein. Wenn eine Zelle immer wieder dasselbe Codon für eine bestimmte Aminosäure sieht, kann es zu einem Mangel an passenden tRNA-Molekülen kommen, die für die Proteinsynthese benötigt werden, was die Produktion verlangsamt.
Das MIT-Team wünschte sich einen differenzierteren Ansatz, der den gesamten Kontext der Anordnung von Codons in realen Genen erfassen konnte.
Sie wandten sich einem Encoder-Decoder-Sprachmodell zu, einer Art KI, die normalerweise Muster in Texten lernt. Anstatt es mit Sätzen zu füttern, trainierten sie es mit den Aminosäuresequenzen und den entsprechenden DNA-Sequenzen von etwa 5,000 Proteinen. K. phaffii natürlich produziert, unter Verwendung einer öffentlichen Datenbank des National Center for Biotechnology Information.
„Das Modell lernt die Syntax oder die Sprache der Verwendung dieser Codons“, fügte Love hinzu. „Es berücksichtigt sowohl die Anordnung der Codons zueinander als auch die Beziehungen zwischen ihnen über größere Entfernungen.“
Nach dem Training könnte das Modell die Aminosäuresequenz eines gewünschten Proteins nehmen und eine DNA-Sequenz vorschlagen für K. phaffii Das sollte es effizient produzieren.
Überlegenheit gegenüber kommerziellen Tools in direkten Vergleichstests
Um zu sehen, wie gut ihr KI-System funktionierte, baten die Forscher es, codonoptimierte Gene für sechs verschiedene Proteine zu entwerfen, darunter menschliches Wachstumshormon, menschliches Serumalbumin und Trastuzumab, ein monoklonaler Antikörper zur Behandlung von Krebs.
Außerdem erstellten sie optimierte DNA-Sequenzen für dieselben Proteine unter Verwendung von vier kommerziell erhältlichen Codon-Optimierungswerkzeugen, die unterschiedliche Strategien zur Auswahl von Codons darstellen.
„Wir haben darauf geachtet, eine Vielzahl unterschiedlicher Philosophien der Codonoptimierung abzudecken und sie mit unserem Ansatz zu vergleichen“, fügte die Hauptautorin Harini Narayanan, eine ehemalige Postdoktorandin am MIT, hinzu.
Das Team fügte dann jede Version jedes Gens ein in K. phaffii Die Zellen wurden untersucht und die Menge des von der Hefe produzierten Zielproteins gemessen. Bei fünf der sechs Proteine führten die Sequenzen des MIT-Modells zu den höchsten Ausbeuten. Beim verbleibenden Protein erzielte das Modell den zweithöchsten Wert.
„Wir haben diese Ansätze experimentell verglichen und gezeigt, dass unser Ansatz die anderen übertrifft“, fügte Narayanan hinzu.
Neben den Leistungssteigerungen hob Love den potenziellen Einfluss auf die Geschwindigkeit hervor, mit der neue Proteinmedikamente von der Konzeption zur Produktion gelangen können.
„Zuverlässige Prognoseinstrumente sind enorm wichtig, um die Zeitspanne von der Idee bis zur Produktionsumsetzung zu verkürzen. Unsicherheiten zu beseitigen spart letztendlich Zeit und Geld“, sagte er.
Entdeckung verborgener biologischer Regeln
K. phaffii, früher bekannt als Pichia PastorisEs wird bereits zur Herstellung Dutzender kommerzieller Produkte verwendet, darunter Medikamente und Lebensmittelzutaten wie Hämoglobin. Das machte es zu einem naheliegenden Ausgangspunkt für das MIT-Team.
Die Forscher wollten aber auch wissen, ob sich ihr Ansatz auf andere Arten übertragen lässt. Sie trainierten ähnliche Modelle mit genetischen Daten von Menschen, Kühen und anderen Organismen. Jedes Modell lieferte unterschiedliche Codon-Vorhersagen, was darauf hindeutet, dass artspezifische Modelle benötigt werden, um die besten Ergebnisse zu erzielen.
Als das Team untersuchte, wie das Hefemodell seine Entscheidungen traf, stellten sie fest, dass es reale biologische Prinzipien aufgegriffen hatte, die nie explizit in es einprogrammiert worden waren.
Das Modell lernte beispielsweise, bestimmte sich wiederholende DNA-Elemente zu vermeiden, die die Genexpression beeinträchtigen können. Es schien auch Aminosäuren anhand chemischer Eigenschaften, wie etwa ihrer Wechselwirkung mit Wasser, zu gruppieren, was zugrundeliegende biophysikalische Regeln der Proteinstruktur widerspiegelt.
„Es lernte nicht nur diese Sprache, sondern setzte sie auch in einen Kontext anhand biophysikalischer und biochemischer Merkmale, was uns zusätzliches Vertrauen gibt, dass es etwas lernt, das tatsächlich sinnvoll ist und nicht einfach nur eine Optimierung der ihm gestellten Aufgabe“, fügte Love hinzu.
Öffnen des Werkzeugkastens
Forscher in Loves Labor haben bereits damit begonnen, das neue Modell zu nutzen, um Gene für gewünschte Proteine zu entwerfen. K. phaffii zur Herstellung. Sie haben den Code auch veröffentlicht, damit andere Wissenschaftler ihn für ihre eigene Arbeit anpassen können. K. phaffii oder ähnliche Modelle für verschiedene Organismen trainieren.
Langfristig könnten solche Werkzeuge Teil einer umfassenderen KI-gestützten Produktionskette für Biologika werden und Wissenschaftlern helfen, von einer Proteinidee auf dem Papier zu einem robusten Produktionsprozess mit weniger Versuch-und-Irrtum-Experimenten zu gelangen.
