Philip Bille, DTU Compute

Genvej gennem dataskoven

Informationsteknologi Matematik
Nye måder at komprimere data på kan være løsningen på mange af de udfordringer, som de voksende datamængder stiller os overfor. Med nye smarte komprimerings-algoritmer kan man arbejde direkte i de komprimerede data. Det vil spare tid og lagerplads samt gøre det muligt at arbejde med endnu større datamængder.

BIG DATA er på alles læber, da potentialet i den dataeksplosion, vi oplever i disse år, er kæmpe stort. Uanset om man arbejder med sygdomsforskning, markedsføring, klimaproblematikker eller forståelsen af universet, så synes svarene at gemme sig i de petabytes af data, som generes i en uendelig strøm.

Men lige så lovende de voksende datamængder er, lige så mange udfordringer rejser de i form af mangel på lagerplads, computerkraft og -hukommelse, båndbredde og ikke mindst tid. Derfor spiller komprimering af data en stadig vigtigere rolle. På DTU Compute arbejder en forsker, som er blevet en slags pioner indenfor datakomprimering, siden han beviste, at det kan lade sig gøre at arbejde i komprimerede data. 

Hopper rundt i komprimerede data
”Jeg viste, at man kan tage komprimerede data, i dette tilfælde en klassisk Lempel-Ziv kompression, og så bygge noget ovenpå, som gør det muligt at hoppe rundt i data og gøre forskellige ting uden først at dekomprimere dem, og det var en øjenåbner. Det vi egentlig gjorde var, at vi fandt en ny måde at repræsentere data på. Ved at kombinere en masse forskellige klassiske teknikker skabte vi en ny intern datastruktur”, forklarer Philip Bille, lektor ved DTU Compute.

Den nye metode vakte opsigt, for hvis man kan begynde at arbejde i komprimerede data, og derfor aldrig behøver hverken at bruge tid eller lagerplads på at pakke data ud igen, så kan det åbne nye muligheder. Et af de steder, hvor metoden allerede har vist sin anvendelighed, er videoovervågning. 

Søgning i overvågningsvideo
”Overvågningskameraer optager typisk tomgang, mange timers video hvor der sker meget lidt eller ingenting. Derfor er det muligt at gemme det på en kompakt måde, så det fylder meget mindre, men samtidig er det en fordel, hvis man hurtigt kan slå op i data og søge efter bestemte ting. Så slipper man nemlig for at sidde og kigge mange timers video igennem. I et projekt støttet af Højteknologifonden samarbejdede vi med bl.a. videosoftwarefirmaet Milestone om at udvikle søgefunktion, som kan foretage forskellige smarte søgninger: F.eks. kan man vælge et bestemt område af optagelsen, og så lave en søgning, hvor man får at vide, hvornår der er sket noget i præcis det område. Og vores opgave har så været, at få det til at fylde så lidt som muligt”, forklarer Philip Bille.

DNA koder kan komprimeres effektivt
Et andet sted, hvor metoden kan få stor betydning er ved arbejdet med gensekvenser. Siden udviklingen af Next Generation Sequencing er prisen på DNA sekventering faldet drastisk, og det har betydet at netop gensekvensinformation er et af de områder, hvor mængden af data vokser hurtigst. I projekter som Genome Denmark  har man f.eks. sekventeret det fulde genom fra 30 danskere, for at kunne forske i sammenhængen mellem gener og sygdomme, og det stiller store krav til datakapacitet, men er kun begyndelsen på en udvikling hvor flere og flere mennesker såvel som andre organismer får sekventeret deres fulde genom.

”Netop ved gensekvenser giver det rigtig god mening at komprimere data, for selv om et fuldt genom fylder over 3 milliarder basepar, så minder DNA sekvenser fra samme race utrolig meget om hinanden. Over 99 % af den genetiske kode er fuldstændig ens, så hvis man først har gemt et genom, så kan man komprimere de andre relativt til det første, herved kan de komprimeres rigtig effektivt og gemmes i komprimeret form. Det spændende er så, at udvikle disse komprimeringsmetoder, så det samtidig bliver muligt at arbejde i data, f.eks søge efter bestemte mønstre eller genvariationer, uden nogensinde at skulle dekomprimere de store datamængder først. Og det er bl.a. et af målene med vores kommende forskning”, forklarer Philip Bille.

Fremtidens algorimter
Lektor Philip Bille modtog for nylig den prestigefyldte Sapere Aude-bevilling på 7 mio. kr. fra Det Frie Forskningsråd. Det betyder, at han i de kommende år sammen med Lektor Inge Li Gørtz to PhD studerende, to Postdocs og samarbejdspartnere fra Israel, Norge og Finland kan forskere videre i bl.a. søgning og indeksering i komprimerede data.
Philip Billes forskerhold vil både arbejde med eksisterende komprimeringsalgoritmer og forsøge at bygge fremtidens algoritmer designet fra starten, så man kan arbejde i dem.