Digitalisering

Forskere kommer tættere på at forebygge pandemier

Forskere fra bl.a. DTU har udviklet et nyt AI-værktøj, der kan hjælpe med at afgøre, om en ukendt bakteries genetik gør den i stand til at forårsage sygdom. Med værktøjet vil man verden over kunne opdage skadelige bakterier, selv før de når at inficere det første menneske.

Computerservere
Det krævede en enorm regnekraft at udvikle PathogenFinder2, som blev trænet på et datasæt med mere end 21.000 bakteriegenomer fra internationale databaser. Modelfoto: Bax Lindhardt
Alfred Ferrer Florensa på sit kontor ved DTU Fødevareinstituttet. På skærmen ses det første kort, der viser, hvordan tusindvis af bakterier er forbundet med hinanden i forhold til deres sygdomsfremkaldende egenskaber
Alfred Ferrer Florensa på sit kontor i DTU Fødevareinstituttet. På skærmen ses det første kort, der viser, hvordan tusindvis af bakterier er forbundet med hinanden i forhold til deres sygdomsfremkaldende egenskaber. Foto: Lene Hundborg Koss

Det gør PathogenFinder2 anderledes

PathogenFinder2 introducerer en fundamentalt ny strategi. I stedet for at basere sig på ligheder med kendte bakteriearter anvender modellen protein-sprogmodeller – dvs. avancerede AI-systemer, der er trænet på millioner af proteinsekvenser. Ligesom tekstsprogmodeller lærer mønstre i det menneskelige sprog, lærer proteinsprogmodeller proteinernes ’sprog’ eller karakteristika, hvilket gør det muligt for forskerne at opdage biokemiske signaler, som traditionelle tilgange overser.

”PathogenFinder2 er en af de første modeller, der fortolker hele bakterielle genomer ved at udnytte sprogmodellernes enorme potentiale. Den klarer sig markant bedre end alle tidligere modeller, især når den støder på bakteriearter, vi aldrig har set før. Derudover giver den forklaringer på sine forudsigelser,” siger Alfred Ferrer Florensa.

Forskerne kan også bruge PathogenFinder2 til at fortolke hvilke proteiner, som har størst indflydelse på bakteriers potentiale til at udvikle sygdom. Det åbner for nye muligheder for forskning i diagnostik, vacciner og infektionsmekanismer.

Forskerne understreger, at PathogenFinder2 kan påpege interessante mønstre og potentielle risici, men, at resultaterne altid skal undersøges nærmere, før der kan drages endelige konklusioner.

Et kort over bakteriers sygdomsfremkaldende potentiale

Brugen af proteinsprogmodeller til at repræsentere fulde genomer gjorde det også muligt for forskerne at bygge det første ’Bacterial Pathogenic Capacity Landscape’, et kort, der viser, hvordan tusindvis af bakterier forholder sig til hinanden med hensyn til deres sygdomsrelaterede egenskaber. 
Kortet afslører klynger af bakterier, der inficerer lignende væv eller har samme måde at omsætte næringsstoffer på. 

”Bacterial Pathogenic Capacity Landscape giver det første overblik over alle de sygdomsfremkaldende bakterier, som mennesker kan blive smittet af. Det afslører mønstre og kan f.eks. vise, hvilke bakterier der har tendens til at inficere de samme steder i kroppen eller potentielt er afhængige af lignende næringsstoffer. Det giver os nye muligheder for at undersøge, hvordan bakterier udvikler sig og interagerer,” siger Alfred Ferrer Florensa.

Trænet på 21.000 bakteriegenomer

Forskerne indsamlede det hidtil største datasæt af bakteriegenomer med kendte sygdomsfremkaldende potentialer eller kendt ikke-sygdomsfremkaldende adfærd.

Datasættet bestod af mere end 21.000 bakteriegenomer fra internationale databaser, herunder bakterier isoleret fra infektioner hos mennesker samt bakterier fra det sunde menneskelige mikrobiom, probiotiske kulturer, fødevareproduktion og ekstreme miljøer, som f.eks. bakterier, der er i stand til at overleve under meget varme eller meget kolde forhold.

Det gav modellen et unikt grundlag for at lære at skelne mellem skadelige og harmløse bakterier, selv når den stødte på hidtil ubeskrevne arter.

Læs mere

Den videnskabelige artikel Whole-genome prediction of bacterial pathogenic capacity on novel bacteria using protein language models with PathogenFinder2 er offentliggjort i tidsskriftet Bioinformatics.

Projektet er finansieret af EU’s Horizon 2020-program, det amerikanske National Institute of Allergy andL Infectious Diseases og Novo Nordisk Fonden. 

Læs mere om Forskningsgruppen for Genetisk Epidemiologi.