Course is offered in English

Alle foredrag bliver holdt på DTU hovedcampus. Hvis nødvendigt kører de online i 2021

Computational Data Analysis

 

Eksempel af en hyperspectral terning (fra Wikipedia)
 
Kursusoversigt

Nye og udfordrende datakilder så som microarrays og hyperspectral billeder har skabt en enorm fremgang i statistisk modellering i de sidste årtier. Formålet med dette kursus er at give en teoretisk og anvendt introduktion til flere metoder, der gør det muligt at analysere og forstå sådanne data. Disse metoder er også anvendelige på mere traditionelle datasæt, hvor de færdige modeller kan give et bedre resultat og/eller være lettere at fortolke.

Vi vil holde et fokus på hands-on anvendelse af metoderne og begrænse teorien til de mest nødvendige for at bruge metoderne korrekt.

På grund af det brede indhold på dette kursus vil tempoet være relativt højt. Der er dog masser af plads til øvelser og diskussioner, så de studerende er i stand til at gennemføre kurset på trods af forskellige erfaringer.

Øvelser vil primært være baseret på at køre og ændre Matlab-, Python- eller R-programmer (vælg det programmeringssprog, du foretrækker). Tidligere erfaring med programmering er en forudsætning. Installer Matlab, R eller Python på din computer inden kursusstart. DTU tilbyder en gratis Matlab-studerende licens.

 


Tilmelding

Praktisk information

Dato: 23. - 27. August 2021

Varighed: 8:00 - 17:00

Sted: DTU, Kgs. Lyngby

Sprog: Engelsk

Tilmeldingsfrist: 16. august

Pris:
7.500 DKK ex. VAT /excl. moms

Har du spørgsmål?

Kursusansvarlig
Line Katrine Harder Clemmensen
Tlf: +45 45 25 37 64
Mail: lkhc@dtu.dk

Detaljeret information

Kursusform

Dette kursus gives som et kursus af en uges varighed i august (24.-28. August 2020) ved Danmarks Tekniske Universitet, eller om nødvendigt vil kurset køre online i år. Derefter bruger de studerende en måned på at anvende metoderne til egne data. Kurset er et 5 ECTS-kursus. Det er åbent både for alle ph.d.-studerende og for alle andre via Åben Universitet / DTU-efteruddannelse. For information om, hvordan du ansøger via Åben Universitet / DTU Efteruddannelse, se dette link.

Microarray eksempel (fra Wikipedia)

 
 
 
Kursusmateriale

Kursusmaterialet består af kapitler fra elektroniske lærebøger og dokumenter. De fleste forelæsninger vil henvise til bogen "Elements of Statistical Learning" (ESL) af Hastie, Tibshirani og Friedman. Denne bog er frit tilgængelig fra dette link. Henvisninger til andet materiale vil blive givet på CampusNet.

 

Skema for forelæsningerne

Forelæsninger og øvelser er i moduler på en halv dag for hvert emne (8-12 og 13-17) og finder sted på DTU, Lyngby Campus. Vi arrangerer frokost fra 12-13, men studerende skal betale deres egen frokost. Skemaet herunder kan blive underlagt mindre ændringer - indholdet vil være: cross-validation, model selection, bias-variance trade-off, over and under fitting, sparse regression, sparse classification, logistic regression, linear discriminant analysis, clustering, classification and regression trees, multiple hypothesis testing, principal component analysis, sparse principal component analysis, support vector machines, neural networks, self-organizing maps, random forests, boosting, non-negative matrix factorization, independent component analysis, archetypical analysis, og sparse coding.

Module

Date

Subjects

Lecturer

Litterature

1

24/8

Introduction to computational data analysis [OLS, Ridge]

Line

ESL Chapters 1, 2, 3.1, 3.2, 3.4.1, 4.1

2

24/8

Model selection [CV, Bootstrap, Cp, AIC, BIC, ROC]

Line

ESL Chapter 7 and 9.2.5. You may safely skip sections 7.8 and 7.9

3

25/8

Sparse regression [Lasso, elastic net]

Line

ESL Chapters 3.3, 3.4, 18.1, and 18.7

4

25/8

Sparse classifiers [LDA, Logistic regression]

Line

ESL Chapters 4.3, 4.4, 18.2, 18.3, 18.4, 5.1, and 5.2

5

26/8

Nonlinear learners [Support vector machines, CART and KNN]

Line

ESL Chapters 4.5, 4.4, 5.1, 5.2, 9.2 and 13.3

6

26/8

Ensemble methods [Bagging, random forest, boosting]

Line

ESL Chapter 8.7, 9.2, 10.1 and 15

7

27/8

Subspace methods [PCA, SPCA, PLS, CCA, PCR]

Line

ESL Chapters 14.5.1, 14.5.5 and 3.5

8

27/8

Unsupervised decompositions [ICA, NMF, AA, Sparse Coding]

Line

ESL Chapters 14.6 - 14.10,[Sparse Coding, Nature]

9

28/8

Cluster analysis [Hierarchical, K-means, GMM, Gap-Statistic]

Line

ESL Chapter 14.3

10

28/8

Artificial Neural Networks and Self Organizing Maps

Line

11.1-11.5 and 14.5

 

Eksamen

Den studerende skal deltage i kurset og aflevere en lille rapport om et eller flere af kursets emner relateret til de studerendes egen forskning eller arbejde. Karaktererne er bestået / ikke bestået. Deadline for rapporten er en måned fra det sidste forelæsning (dvs. slutningen af september).

 
Kursusansvarlig

Line H. Clemmensen, Associate Professor, DTU Compute, Statistics and Data Analysis, lkhc@dtu.dk