Biologiske sekvenser (DNA og proteiner) findes i meget store offentligt tilgængelige databaser. Søgning består af parvise alignments mellem søgesekvensen og hver sekvens i databasen. Et alignment er en redegørelse for hvilke dele af den ene sekvens der svarer til (er homologe med) hvilke dele af den anden. To sekvenser på længde 100 kan alignes på 1060 forskellige måder, så det er ikke realistisk at regne alle muligheder igennem. I stedet bruges algoritmer til dynamisk programmering: Needleman-Wunsch og Smith-Waterman.
Beskrivelse af FASTA-formatet
Baggrundsmateriale om sekvensalignment:
Introduktion til sekvensalignment
Sekvensalignment, definitioner
Sekvensalignment med dynamisk programmering
Dynamisk programmering - Globalt alignment
Dynamisk programmering - Lokalt alignment
Vejledning til EMBOSS Align
EBIs hjælpefunktion til EMBOSS Align (på engelsk)
Mere om matricer
Mere om gaps
Værktøjer:
Parvis sekvensalignment vha. Needleman-Wunsch eller Smith-Waterman algoritmen (EBIs implementering).
EMBOSS Align
Entrez Nucleotide database
Entrez Protein database
Scoringsskema:
Som udgangspunkt vil et fornuftigt valg af substitutionsmatricer og gap penalties være at bruge defaults fra EBIs implementering af Needleman-Wunsch og Smith-Waterman algoritmerne. Dvs. BLOSUM62 matricen til proteinalignmnts, DNAFULL til DNA alignments og en gap-open penalty på 10,0 point og en gap-extension penalty på 0,5 point. Men der er mange andre muligheder man kan eksperimentere med.
Substitutionsmatricer til proteinalignments:
BLOSUM45
BLOSUM62
BLOSUM90
PAM100
PAM160
PAM250
Kontaktpersoner
Anders Gorm Pedersen
Henrik Nielsen