Edit

Science Education

Formerly known as European Learning Laboratory for the Life Sciences

Our inspiring educational experiences share the scientific discoveries of EMBL with young learners aged 10-19 years and teachers in Europe and beyond. We belong to EMBL’s Science Education and Public Engagement office.

October 5, 2015

Step 1: Database search

Overview
Your task
ENA
Sequences 1-4
Questions
Activity navigation

Overview

Imagine that our DNA samples have been mixed up before sequencing and we don’t know which one is which. To establish the identity of the sequences and find out more about their origins, we will search a database called European Nucleotide Archive (ENA).

The sequences we will use for our analysis can be found in the “Sequences” tabs below. Each of them has a generic name, and after the ENA search you should be able to assign the sequences to four organisms of origin.

Your task

Proceed as described below:

Go to the tab “Sequence 1” and copy the whole sequence which starts with “>Sequence 1”. You can use the keyboard shortcut Ctrl.+C to copy the sequence.
Follow the instructions in the “ENA” tab to search the database.
Take a note of what you have found, try to answer the questions in the “Questions” tab and repeat this procedure with the rest of the sequences.

ENA

Paste the sequence into the ENA search box (shortcut Ctrl.+V).
Now, click on “Submit“ at the bottom and your search will be initiated. The inserted sequence will now be compared to all the known sequences that are contained in the database.
The search results will be presented to you after a few seconds. Scroll through the page to the columns headed “ENA” and try to find out which species was identified to match your sequence. The most similar sequences have an “Identity (%)” value of 100 and an “E-Value” of 0.
Take a note of what you have found, try to answer the questions in the “Questions” tab and repeat this procedure with the rest of the sequences.

Sequences 1-4

Sequence 1

>Sequence1_AVGFP
ATGAGTAAAGGAGAAGAACTTTTCACTGGAGTGGTCCCAGTTCTTGTTGAATTAGATGGCGATGTTAATGGGCAAAAATTCTCTGTCAGTGGAGAGGGTGAAGGTGATGCAACATACGGAAAACTTACCCTTAATTTTATTTGCACTACTGGGAAGCTACCTGTTCCATGGCCAACACTTGTCACTACTTTCTCTTATGGTGTTCAATGCTTCTCAAGATACCCAGATCATATGAAACAGCATGACTTTTTCAAGAGTGCCATGCCCGAAGGTTATGTACAGGAAAGAACTATATTTTACAAAGATGACGGGAACTACAAGACACGTGCTGAAGTCAAGTTTGAAGGTGATACCCTTGTTAATAGAATCGAGTTAAAAGGTATTGATTTTAAAGAAGATGGAAACATTCTTGGACACAAAATGGAATACAACTATAACTCACATAATGTATACATCATGGGAGACAAACCAAAGAATGGCATCAAAGTTAACTTCAAAATTAGACACAACATTAAAGATGGAAGCGTTCAATTAGCAGACCATTATCAACAAAATACTCCAATTGGCGATGGCCCTGTCCTTTTACCAGACAACCATTACCTGTCCACACAATCTGCCCTTTCCAAAGATCCCAACGAAAAGAGAGATCACATGATCCTTCTTGAGTTTGTAACAGCTGCTAGGATTACACATGGCATGGATGAACTATACAAA

Sequence 2


>Sequence2_GFPm
ATGTCTAAAGGTGAAGAATTATTCACTGGTGTTGTCCCAATTTTGGTTGAATTAGATGGTGATGTTAATGGTCACAAATTTTCTGTCTCCGGTGAAGGTGAAGGTGATGCTACTTACGGTAAATTGACCTTAAAATTTATTTGTACTACTGGTAAATTGCCAGTTCCATGGCCAACCTTAGTCACTACTTTCGGTTATGGTGTTCAATGTTTTGCTAGATACCCAGATCATATGAAACAACATGACTTTTTCAAGTCTGCCATGCCAGAAGGTTATGTTCAAGAAAGAACTATTTTTTTCAAAGATGACGGTAACTACAAGACCAGAGCTGAAGTCAAGTTTGAAGGTGATACCTTAGTTAATAGAATCGAATTAAAAGGTATTGATTTTAAAGAAGATGGTAACATTTTAGGTCACAAATTGGAATACAACTATAACTCTCACAATGTTTACATCATGGCTGACAAACAAAAGAATGGTATCAAAGTTAACTTCAAAATTAGACACAACATTGAAGATGGTTCTGTTCAATTAGCTGACCATTATCAACAAAATACTCCAATTGGTGATGGTCCAGTCTTGTTACCAGACAACCATTACTTATCCACTCAATCTGCCTTATCCAAAGATCCAAACGAAAAGAGAGACCACATGGTCTTGTTAGAATTTGTTACTGCTGCTGGTATTACCCATGGTATGGATGAATTGTACAAATAACTGCAG

Sequence 3

>Sequence3_YFP
AATATTTTTATTAATTCATTAGAAAAATGAGAGGAAGGATTATTATGTTTAAAGGTATAGTAGAAGGTATAGGAATCATTGAAAAAATTGATATATATACTGACCTAGATAAGTATGCAATTCGATTTCCTGAAAATATGTTGAATGGAATTAAAAAGGAGTCGTCAATAATGTTTAACGGATGCTTCTTAACGGTAACTAGCGTGAATTCAAACATTGTCTGGTTTGATATATTTGAAAAAGAAGCACGTAAGCTTGATACTTTTCGGGAATATAAGGTAGGTGACCGAGTAAATTTAGGAACATTCCCAAAATTTGGCGCTGCATCTGGTGGGCATATATTATCAGCAAGGATTTCATGTGTAGCAAGTATTATTGAAATAATAGAAAATGAGGATTATCAACAAATGTGGATTCAAATTCCTGAAAATTTTACAGAGTTTCTTATTGATAAAGACTATATTGCTGTGGATGGTATTAGCTTAACTATTGACACTATAAAAAACAACCAATTTTTCATTAGTTTACCCTTAAAAATAGCACAAAATACAAATATGAAATGGCGAAAAAAAGGTGATAAGGTAAATGTTGAGTTATCAAACAAAATTAATGCTAACCAGTGTTGGTAATTTACTGAGGATAGTAAAAATGAACTGTTTAAAATAATATTTAAATTTTTATTTATAATACAGAGTCAGTTGTTGTAAATAGTCTGAGTGGTAAATAAGTTCTACCATTAATTAAATATTATCCATATTAAATAAAGGATCT

Sequence 4

>Sequence4_RFP
AGTTTCAGCCAGTGACAGGGTGAGCTGCCAGGTATTCTAACAAGATGAGTTGTTCCAAGAATGTGATCAAGGAGTTCATGAGGTTCAAGGTTCGTATGGAAGGAACGGTCAATGGGCACGAGTTTGAAATAAAAGGCGAAGGTGAAGGGAGGCCTTACGAAGGTCACTGTTCCGTAAAGCTTATGGTAACCAAGGGTGGACCTTTGCCATTTGCTTTTGATATTTTGTCACCACAATTTCAGTATGGAAGCAAGGTATATGTCAAACACCCTGCCGACATACCAGACTATAAAAAGCTGTCATTTCCTGAGGGATTTAAATGGGAAAGGGTCATGAACTTTGAAGACGGTGGCGTGGTTACTGTATCCCAAGATTCCAGTTTGAAAGACGGCTGTTTCATCTACGAGGTCAAGTTCATTGGGGTGAACTTTCCTTCTGATGGACCTGTTATGCAGAGGAGGACACGGGGCTGGGAAGCCAGCTCTGAGCGTTTGTATCCTCGTGATGGGGTGCTGAAAGGAGACATCCATATGGCTCTGAGGCTGGAAGGAGGCGGCCATTACCTCGTTGAATTCAAAAGTATTTACATGGTAAAGAAGCCTTCAGTGCAGTTGCCAGGCTACTATTATGTTGACTCCAAACTGGATATGACGAGCCACAACGAAGATTACACAGTCGTTGAGCAGTATGAAAAAACCCAGGGACGCCACCATCCGTTCATTAAGCCTCTGCAGTGAACTCGGCTCAGTCATGGATTAGCGGTAATGGCCACAAAAGGCACGATGATCGTTTTTTAGGAATGCAGCCAAAAATTGAAGGTTATGACAGTAGAAATACAAGCAACAGGCTTTGCTTATTAAACATGTAATTGAAAAC

Questions

Which species can be assigned to sequences 1, 2, 3 and 4?
Looking at “Alignments” you will find a 1:1 comparison of the two sequences. This is called a “pairwise alignment”. To view the alignment, either click on the description of the individual search results or click on “Show all alignments” at the bottom of the ENA results.
- How are the nucleotides depicted which are matching in both sequences?
- Compare your input sequence with the database sequence. Are there any differences between your sequence (query) and the sequence stored in the database (subject)?
- Are there any differences in single nucleotides between the two sequences? What could be the reasons for this?