Narastający kryzys oporności na antybiotyki (AMR) wymaga nowych rozwiązań obliczeniowych, które wyprzedzą szybko ewoluujące patogeny. ApexOracle to zintegrowana platforma ML, służąca zarówno do przewidywania aktywności związków wobec określonych szczepów bakteryjnych, jak i do generacji de novo cząsteczek celowanych na przyszłe „superbakterie”.
Motywacja i zakres
- Globalne znaczenie: AMR odpowiada za blisko 5 mln zgonów rocznie.
- Tradycyjne wyzwania: Długotrwałe i kosztowne procesy odkrywania leków, reagujące na bieżące zagrożenia.
- Cel ApexOracle: Połączenie kontekstu genomowego z projektowaniem molekularnym w jednym przepływie.
Architektura ApexOracle
Wyobraź sobie, że masz trzy zestawy wskazówek: kod genetyczny bakterii (genom), krótki opis jej właściwości (jak prosta karta informacyjna) oraz składniki potencjalnego leku (przepis chemiczny). ApexOracle działa jak wysoce zaawansowany detektyw, który jednocześnie analizuje wszystkie trzy źródła informacji. Następnie dobiera najskuteczniejsze molekuły, a nawet tworzy całkowicie nowe przepisy chemiczne, które mogą zatrzymać rozwój bakterii.
Wejścia
- Embedding genomu: Evo2 – model języka DNA przeszkolony na milionach genomów mikroorganizmów.
- Opis cech: Embeddingi Me-LLaMA dostrojone do metadanych fenotypowych (taksonomia, morfologia, profil oporności).
- Reprezentacja cząsteczki: SELFIES dla małych molekuł lub peptydów, przetwarzane przez Dyskretny Model Dyfuzji Językowej (DLM).
Fuzja multi-modalna
- Mechanizmy cross-attention integrujące różne embeddingi do zadań predykcji i generacji.
Moduły zadaniowe
- Głowa predykcyjna: Regresja wartości MIC i klasyfikacja aktywności.
- Głowa generacyjna: Generacja SELFIES sterowana embeddingiem patogenu i sprzężeniem zwrotnym z predyktora.
Paradygmat treningowy
Podwójne zadania DLM:
- Maskowanie i rekonstrukcja: Odtwarzanie zmaskowanych tokenów SELFIES.
- Regresja deskryptorów: Predykcja 209 właściwości fizykochemicznych (deskryptory RDKit).
Zbiory danych:
- Publiczne biblioteki MIC dla bakterii Gram±.
- Zbiory peptydów AMP z niestandardowymi aminokwasami.
Wyniki
Wyniki predykcji:
- Lepsza skuteczność niż modele strain-specific dla nieznanych szczepów (wzrost R² do 15%).
- Poprawa AUC-ROC w klasyfikacji aktywności.
Generacja de novo:
- Wygenerowane związki z przewidywanymi wartościami MIC zbliżonymi do standardów klinicznych.
- Wstępne testy in vitro potwierdzają aktywność wybranych cząsteczek.
Dyskusja i kierunki rozwoju
- Proaktywne odkrywanie: Projektowanie przeciw przyszłym patogenom.
- Możliwości rozszerzenia: Integracja danych strukturalnych białek, metadanych klinicznych i aktywnego uczenia.
- Wyzwania: Skalowalność, predykcja toksyczności, automatyzacja eksperymentów wet-lab.
Podsumowanie
ApexOracle demonstruje, jak wielomodalne ML może zrewolucjonizować odkrywanie antybiotyków, integrując predykcję i generację w jednym modelu, co stanowi kluczowy krok w walce z AMR.
📎 Linki
- Na podstawie publikacji 📄 arXiv:2507.07862 PDF