Fem hurtige til professoren: Hvad skal vi med Big Data?

Danske virksomheder bruger kun spidsen af det enorme isbjerg af data, de indsamler. Professor i Big Data på DTU Bjarne Kjær Ersbøll svarer her på fem spørgsmål om det meget omtalte begreb, der, ifølge ham, kan få optimerede produktionsprocesser og helt nye produkter ud af resten af isbjerget.

1. Kan du give en kort definition på hvad Big Data er?

Nej, det kan jeg ikke. Big Data er et fluffy begreb, der ikke er særligt veldefineret. Men det handler blandt andet om de fire v’er: volume, velocity, variety og veracity [red. mængde, hastighed, forskelligartethed og troværdighed].

Vi har spillet rundt med de her 4 v’er i årevis. Der er også nogle, der siger, at vi skal have endnu flere v’er. Og så er der nogen, der har helt andre definitioner. Fx definerer EU det, som når datastørrelsen i sig selv bliver et problem, og den derfor ikke kan processeres med almindelige metoder. Og hvis du spurgte en sundhedsforsker fra KU, ville du sikkert få et helt andet svar.

Men fra et DTU-perspektiv handler det basalt set om at få noget ud af at kombinere data fra forskellige kilder.

Se IBM's infografik om de 4 V'er Du kan se IBM's infografik om de 4 V'er ved at trykke på billedet

2. Hvor meget data taler vi om?

Det man kan se, som er ret interessant, er, at computerfabrikanterne opfylder Moores lov, nemlig at processorkraften bliver dobbelt så stor hvert andet eller tredje år. Og så skulle man jo tro, at alt er godt. Men datamængden i verden fordobles hver 18 måned.

Det betyder, at vi får en udfordring med ting, som vi måske kan løse nu, men som vi på et eller andet forudsigeligt tidspunkt ikke kan løse længere. Simpelthen fordi kurven for datamængden stiger meget hurtigere end kurven for processorkraft.

Der kommer bare til at være så meget data, at det er helt vildt!

I 2020 vil man have 40.000 exabytes i verden. Det er 40.000 milliard-millarder bytes – eller bare ubegribeligt stort.

3. Hvad skal virksomhederne bruge Big Data til?

Jeg tror ikke, virksomheder behøver bekymre sig om ret meget andet end deres bundlinje. Og hvis man ved at grave i en bunke data kan optimere en produktionsproces eller lave et helt nyt produkt, så er det jo positivt.

Der er simpelthen så meget data, der ligger rundt omkring i forskellige virksomheder. Måske er  5% procent af det blevet analyseret. Men 95% af det er aldrig blevet set på af nogen. Og hvis det kan bringes i anvendelse, så er det uundgåeligt, at der kommer noget ud af det, som har en eller anden værdi.

Skoleeksemplet på Big Data i Danmark er Vestas. Da Vestas blev oprettet i sin tid, var det basalt set nørdede ingeniører, der tænkte, at når de nu havde bygget en vindmølle, kunne de lige så godt spække den med sensorer, smække et modem på og lave noget satellit-kommunikation. Og det kostede en bondegård, og ingen vidste, hvad de skulle bruge det til.

Men da de begyndte at analysere deres data, viste det sig, at de kunne forudsige, hvor det ville være rigtigt godt at sætte vindmøller op. Og deres prognoser blev et produkt, de kunne sælge til andre vindmøllefabrikanter. Så ved at samle data ind fik de et nyt produkt, som er et helt andet end deres primære produkt.

4. Er der nogle problemer med Big Data?

Big Data handler i virkeligheden om en ændring af et mindset. Det handler om, at du skal turde give mig dine data, og jeg skal turde give dig mine data. Og sammen kan vi få mere information ud af den kombinerede mængde data, end vi kunne af hver af dem for sig. Men mange frygter den her grænseoverskridende ting, at når du har givet mig dine data, så ved jeg alt om dig. Derfor er der også en risiko, og den skal man have afdækket.

Der kan også være et etisk problem med Big Data. For hvad nu hvis en butikskæde med medlemskort graver så dybt i deres kunders boner, at de afslører, dem der har en usund livsstil. Det kan de jo forholdsvis let. Hvad skal de gøre med den viden? De kan bruge den direkte og sige, ”okay, han har nok brug for nogle tilbud på Chardonnay eller smøger eller slik.”. Men i totalitære stater kunne det også blive til sådan noget, ”Big Brother is watching you”. Det må selvfølgelig ikke ske.

Det har vi ikke noget kursus om på DTU. Men et kursus i etik og sikring af privatlivets fred er måske noget, nogen burde udbyde.

5. Hvorfor fokuserer DTU på Big Data

Hver uge får jeg efterspørgsler fra virksomheder på folk, der kan det her. Det er ikke noget, jeg har reklameret med, de kommer bare af sig selv.

Derfor fokuserer vi kraftigt på både uddannelse og efteruddannelse i Big Data, fordi det er måden, vi bedst kan hjælpe virksomhederne med at udnytte deres datas potentiale.

Vi har fået syv millioner af Industriens Fond til at lave det, der hedder Big Data Business Academy, hvor vi bl.a. skal udvikle efteruddannelseskurser af 1-2 dages varighed.

I et samarbejde mellem bl.a. DTU, Københavns Universitet og Aarhus Universitet har vi fået et samfundspartnerskab hos Innovationsfonden med et budget på 121 millioner kroner, hvor formålet er at udvikle Big Data-værktøjer, hjælpe og rådgive virksomheder og udvikle efteruddannelseskurser.

Og derudover arbejde vi også i EU-regi med at kunne udbyde flere efteruddannelsesaktiviteter indenfor Big Data. Det hele kommer til at ligge i et Big Data-center på DTU.

 

Kontakt

Bjarne Kjær Ersbøll
Professor, Sektionsleder
DTU Compute
45 25 34 13