• No results found

Molecular Databases and Tools

N/A
N/A
Protected

Academic year: 2021

Share "Molecular Databases and Tools"

Copied!
24
0
0

Loading.... (view fulltext now)

Full text

(1)

 

NWeHealth, The University of Manchester 

Molecular

 

Databases

 

and

 

Tools

 

Afternoon Session: NCBI/EBI resources, pairwise alignment, BLAST, multiple  sequence alignment and primer finding. 

Dr. Georgina Moulton   21/04/2010 

(2)

Exploring

 

bioinformatics

 

tools

 

for

 

pairwise

 

alignment,

 

multiple

 

sequence

 

alignment,

 

primer

 

design

 

and

 

functional

 

analysis.

 

Session

 

Objectives

 

It is the aim of this session to introduce you to the following areas:  • NCBI databases and tools (mostly DNA)  • Navigation between databases  • Sequence databases  • Data formats and conversions 

• Searching sequence databases (e.g., BLAST) 

• Bioinformatics tools that are available to design and choose primers.  • Multiple sequence alignment programs and editors   

Session

 

Outcomes

 

At the end of today’s course you will be able to:  • retrieve sequences from sequence data repositories  • browse the UCSC Genome Browser and navigate to other data resources  • understand which databases contain which information and how to access it  • know how to design primers using suitable bioinformatics tools  • understand and know how to create an MSA  • know which programs to use to create and visualise an MSA  • able to know the advantages and disadvantages of the MSA methods/programs  • know the uses of an MSA  • know how to design primers using suitable bioinformatics tools (e.g., eprimer3 and primer‐ BLAST)  • understand the difficulties involved in using bioinformatics tools for primer design  • appreciate the difficulties when navigating various data resources     

(3)

 

3

Pairwise

 

Alignment

 

 

Sequence comparisons are used to detect evolutionary relationships between organisms, proteins or  gene sequences.  They are also used to discover the function of a novel gene or the structure of an 

unknown protein, by comparing an already characterised gene or protein, since we assume that 

sequences that are very similar often have similar structure/function. 

If two sequences from different organisms are evolutionary related, it means they have a common  ancestor and it is said to be homologous.   By comparing sequence 1 and sequence 2, or aligning 

them, we may infer the evolutionary process starting from the same ancestor sequence and then 

changing through mutations. 

However, the snag is deciding how similar is similar.  A general rule is: if your sequences are more  than 100 amino acids or nucleotides long, the rule says that you can label proteins as homologous if  25% of the amino acids are identical and DNA as similar if 70% of the nucleotides are identical.   Anything below this threshold is referred to as the ‘twilight zone’. 

Local and Global Alignments 

The two types of dynamic algorithms mentioned above are described as local and global  respectively.   

A local alignment identifies regions of similarity within long sequences that are often widely  divergent overall. Local alignments are often preferable, but can be more difficult to calculate 

because of the additional challenge of identifying the regions of similarity. 

A global alignment "forces" the alignment to span the entire length of all query sequences 

Searching sequence databases 

The growing size and diversity of the public sequence databases makes them invaluable resources 

for molecular biologists. When investigating a novel DNA/protein sequence, a fast, cheap and 

potentially very rewarding analysis involves scanning EMBL/GenBank, or UNIPROT/SWISSPROT for 

sequences with homology to your own sequence. Database searching is one of the first and most 

important steps in analysing a new sequence. If your unknown sequence has a similar copy already  in the databases, a search will quickly reveal this fact and if the copy is well annotated you will have  various clues to help you in further studying your sequence. Database searches usually provide the  first clues of whether the sequence belongs to an already studied and well known protein family. If 

(4)

there is a similarity to a sequence that is from another species, then they may be homologous (i.e., 

sequences  that descended from a  common  ancestral sequence).  Knowing the function  of  a 

homologous sequence will often give a good indication of the identity of the unknown sequence.    

Many programs for database searching already exist, but still many more are being developed. They  can be spilt into two types: heuristic and dynamic algorithms.   

Dynamic algorithms including Needleman and Wunsch (1970) and Smith‐Waterman (1981) can be 

used, but the time taken to complete such a task is longer than desirable.   To counteract this,  heuristic search algorithms are used to routinely search large databases. 

The most commonly employed algorithms are FASTA and BLAST (Basic Local Alignment Search Tool).   The following is a brief description of some programs: 

BLAST performs fast database searching combined with rigorous statistics for judging the  significance of matches.  

FASTA can be used to compare either protein or DNA sequences and hence the name, which  stands for Fast‐All. 

BLITZ is an automatic electronic mail server for the MPsrch program.  MPsrch allows you to  perform sensitive and extremely fast comparisons of your protein sequences against Swiss‐

Prot protein  sequence database using  the  Smith and  Waterman best  local similarity 

algorithm.     All programs identify local regions of conserved residues between sequences.  This approach allows  the program to identify similarities between a query sequence and sequences in the database in the  shortest possible time.    We’ll talk about BLAST today but you might want to look at others if time allows. 

(5)

 

5

BLAST – the most popular and used data‐mining tool 

The BLAST algorithm and family of programs rely on work on the statistics of local sequence  alignments by Altschul et ali. The statistics allow us to estimate the probability of obtaining an  alignment with a particular score. The BLAST algorithm permits nearly all sequence matches above a  cutoff1 to be located efficiently in a database. 

There are many flavours of BLAST that exist, so you can search both protein and nucleotide 

sequence databases with protein or nucleotide sequences!   We deal with the different flavours 

today, depending on the type of query sequence and the type of biological question we hope to ask. 

BLAST program  Database  Query 

blastp  Protein  Protein 

blastn  Nucleotide  Nucleotide 

blastx  Translated DNA  Protein 

tblastn  Translated DNA  Protein 

tblastx  Translated DNA  Translated DNA 

 

BLAST input  parameters you can change 

The default parameters that BLAST uses are quite optimal and well tested.  However, here are some  reasons you may wish to change the default parameters: 

• The  sequence  your  interested  in  contains  many  identical  residues;  it  has  a  biased 

composition (change the sequence filtering) 

• BLAST doesn’t report any results (change substitution matrix or gap penalities) 

• Your match has a borderline e‐value (change substitution matrix or gap penalities) 

• Too many matches are reported (change database you are searching OR filter reported 

entries by keyword OR increase the number of reported matches OR increase the e‐value)   

BLAST

 

output

  

BLAST reports back a list of sequence matches to the query sequence ordered by score that 

represents the significance of the match.  In BLAST, the reported value is referred to as the p‐value,  as it represents the probability of a random sequence matching a database sequence with the same        

1

(6)

or better score than the query.  Sometimes the e‐value is reported, which represents the number of  random matches with scores greater or equal to the query sequence that would be found by chance  in a database of the same size.   It follows that both values, the smaller the value, the more  significant the match. 

What

 

are

 

you

 

looking

 

for?

 

Several important features are worthy of note in BLAST output: 

• Look for high scores with low p‐values. This means the match is unlikely to be random. 

• Look for clusters of high scores at the top of the hitlist for hint of a potential family 

• Look for trends in type of sequences matched   

BLASTing with DNA sequences – which program for what problem?? 

blastn:  compares  a  DNA  sequence  with  a  DNA  database.    You  can  use  this  for  mapping 

oligonucleotides, cDNAs and PCR products to a genome; annotating genomic DNA; screening 

repetitive elements and cross‐species sequence exploration. 

blastx:  use this for finding  protein‐coding regions in  genomic cDNA; determining if a  cDNA  corresponds to a known protein. 

tblastx: by comparing a DNA translated into a protein with a DNA database also translated into  protein allows cross‐species gene prediction at the genome or transcript level (ESTs) and searching  for genes that are not yet in protein databases. 

(7)

 

7

Dotplots – visualising a pairwise alignment 

One of the earliest methods of comparing two protein or nucleotide sequences was to create a dot  plot.  This matrix can reveal the presence of insertions and deletions because they shift the diagonal 

horizontally or vertically.   There are many programs that produce dot plots; however you can do 

simple dot plots by hand (DIY dot plots).  A dot plot can be useful if you plot a sequence against itself  as internal repeats, tandem genes, repeated domains in proteins and regions of low complexity can 

be highlighted.   Please note that although useful a dot plot cannot resolve similarity that is 

interrupted by regions of low similarity or insertions/deletions.  This is a dot plot of two similar, but  not identical sequences 

(8)

Sequence

 

Databases

 

and

 

Retrieval

 

 

There is a wealth of information that can be associated with a gene (see diagram above for a 

sample).  Although this data is interlinked through links, each type of information is stored 

in a separate database.  An example of this would be Entrez Gene (hosted at the NCBI) has a 

focus 

on 

the 

gene 

information, 

whereas 

dbSNP, holds 

database 

SNP 

entries.  

You can 

link 

between the two data‐resources, so you can find out more information about the SNPs of a 

particular gene. 

 

 

Sequence

 

Retrieval

 

System

  

As these databases contain hundreds of thousands of sequences, searching through them requires 

the processing power of a computer search engine. The Sequence Retrieval System (SRS) has been 

designed to do just that. SRS is available at many sites over the world. However, every site allows 

access to a different set of databases and, sometimes, search and analysis tools.   

Of course, sequences and their information can be directly retrieved by searching primary sequence  databases; for example, if you are doing more work with proteins, you might want to investigate the  Expert Protein Analysis System (ExPASy) held at the Swiss Institute of Bioinformatics. This site not 

only holds the SwissProt and TrEMBL databases, but also offers many tools for the user to analyse 

(9)

 

9

Exercise

 

1:

 

Pairwise

 

alignments

 

using

 

EMBOSS

 

1) Retrieve sequences from NCBI: U14680 and NM_007294.2 and save the sequences in FASTA  format in notepad. Call the filenames something sensible! (Note: files usually containing a  FASTA sequence are usually given the prefix .fas or .fasta)  2) Go to the EMBOSS align website (http://www.ebi.ac.uk/Tools/emboss/align/index.html)  3) Paste one sequence into the top box and the other in the second box.  Check the  parameters: Molecule = DNA; and Method=EMBOSS:needle(global), and run.  4) The output file (.output) in the Needle results, click on and save the page.  5) Run the program again, but this time choose the parameter: Method=EMBOSS::smith(local).  6) Compare the results.   

(10)

A

 

use

 

of

 

BLAST:

 

primer

 

design

 

Software

 

for

 

primer

 

design

 

eprimer3 (primer3) is the standard software used to design primers.  Its function: picks PCR primers and 

hybridization oligos (EMBOSS). eprimer3 is an interface to the 'primer3' program from the Whitehead 

Institute. 

Primer3 picks primers for PCR reactions, considering as criteria:  

‐ oligonucleotide melting temperature, size, GC content, and primer‐dimer possibilities,   ‐ PCR product size,  

‐ positional constraints within the source sequence, and   ‐ miscellaneous other constraints.  

All of these criteria are user‐specifiable as constraints.  

eprimer3 can also pick hybridisation oligos that are internal to the product. 

BLAST would then check the specificity of the primers by using blastn for short exact matches. However, 

more recently, a new BLAST method has become available Primer‐BLAST.  This is a combination of the 

primer3 software and BLAST, thus allowing you to design primers and check specificity in one search!!  Primer Design Guidelines 

1.  primers should be 17‐28 bases in length;     2.  base composition should be 50‐60% (G+C);    

3.  primers should end (3') in a G or C, or CG or GC: this prevents "breathing" of ends and increases  efficiency of priming;    

4.  Tms between 55‐80oC are preferred;    

5.  3'‐ends of primers should not be complementary (ie. base pair), as otherwise primer dimers will be  synthesised preferentially to any other product;    

6.  primer self‐complementarity (ability to form 2o structures such as hairpins) should be avoided;    

7.  runs of three or more Cs or Gs at the 3'‐ends of primers may promote mispriming at G or C‐rich  sequences (because of stability of annealing), and should be avoided.   

(11)

 

11

Exercise

 

2

 : 

Designing

 

a

 

primer

 

using

 

Primer

BLAST

  

Scenario 

Based on your microarray results, a specific gene is upregulated under a cold stress condition. You 

decided to go for a qPCR to confirm the microarray data. So, you need good primers to amplify the gene.  You may decide to design the primers yourself, or you may use a program which will do it for you. Either 

way, we do advise you to check the resulting primers, see where they are in the sequence, and choose 

then carefully! Your experiment depends on the quality of the primers.   

To perform the following exercises, you will need the nucleotide sequence of H. sapiens fau 1 gene and 

the pGEM‐T vector.  I have provided them at: . 

The ID code for the gene sequence is P35544 (a Uniprot Identifier) and the vector sequence is at the  specified place, called pGEM.fasta.   1)  Go to the NCBI Entrez website and search for ‘FAU1 human’ against the Nucleotide database.  At  the top of the results, with a light blue background, click on the FAU link to view the entry.    2) As we want to design a set of primers to amplify this gene, we are going to use this sequence.  I have  already downloaded this sequence and stored in the hsfau1_dna.fasta file.  Open the file in notepad.   

3) Go to the Primer‐Blast website. Copy the file in the text box under the PCR template heading. 

  4) Keep all the parameters the same and click ‘Get primers’    5) What do your results suggest? Would you be okay with these?    Looking at the options (mentioned above), you can specify the region of gene where the program should  find a good primer.   There are different ways to calculate the melting temperature for the primers. Using the first formula on  the whiteboard, calculate the TM for the two first primers resulting from eprimer3. This is a really simple 

(12)

considered, as indicated in the second formula. Compare your result with the result obtained by  eprimer3.  

Exercise

 

3

 

:

 

primersearch

 

 

checking

 

vector

 

sequence

 

(optional)

 

There is another aspect that should be considered when you are chosen primers. Do the primers align to  your vector sequence?  

PrimerSearch 

Function: Searches DNA sequences for matches with primer pairs. 

Description : primersearch reads in primer pairs from an input file and searches them against sequence(s)  specified by the user. Each of the primers in a pair is searched against the sequence and potential 

amplimers are reported. The user can specify a maximum percent mismatch level; for example, 10% 

mismatch on a primer of length 20bp means that the program will classify a primer as matching a 

sequence if 18 of the 20 base pairs matches.  

It will only report matches if both primers in the pair have a match in opposite orientations.  

At the following website http://embossgui.sourceforge.net/demo/primersearch.html  

Follow the steps: 

1) Paste the fasta file from the pGEM.fasta file into the top text box and upload the primer file 

PGEMxprimers for the Primer file option.  Allow a 20 percentage mismatch. Click Run. 

(13)

 

13

Multiple

 

Sequence

 

Alignment

 

Background

 

on

 

Multiple

 

Sequence

 

Alignments

 

In the construction of a multiple sequence alignment (MSA), it is assumed that all sequences are  biologically or evolutionarily related.  An MSA allows the identification of highly conserved regions,  corresponding to important functional or structural features within families of related proteins, and  hence the study of evolutionary relationships between them. 

 

An MSA can be described as a tabular description of the relationships between proteins, where rows  represent individual sequences, and the columns the residue positions. Similar residues are brought  into vertical register by introducing gaps, so that the relative position of residues within the  alignment is preserved. The result is an expression of the similarities and dissimilarities between the  sequences.  

 

Why? 

There are many reasons why you might want to construct a multiple sequence alignment. These 

include:‐ 

• To highlight regions of similarity, divergence and mutations. 

• To provide more information than a single sequence. (e.g. for an even more sensitive search to 

find other, more distant, family members.)  • Creating a consensus will highlight functionally important domains or residues.  • It could reveal errors in protein sequence prediction (or even in sequencing)  • Secondary structure and other predictions improve with multiple alignments  • Evolutionary analysis (phylogeny).  • To find novel motifs (e.g. using Hidden Markov Model techniques).  • To select appropriate primers for a gene family.  • To be used as input to identify changes in functionality due to missense mutations (ALIGN‐GVD,  SIFT) 

 

 

(14)

MSA methods 

MSA process can either be carried out manually in an editor (e.g., JalView, GeneDoc or CINEMA; see 

table 1 below for a detailed explanation of these) or using automatic alignment programs.   The 

underlying process to construct an MSA is common to both manual and most automatic methods: 

groups of sequences that share a high percentage identity are grouped and aligned, and then these  sequence groups are alignment with each other. 

 

When the protein family is highly conserved, both types of method are likely to produce exactly the 

same alignment.   However, for more diverse families, automatic alignment methods tend to be 

error‐prone and result in biologically inaccurate alignments.   In this case, it is better to align 

sequences by hand.   However, depending on the size of the protein family, this may be a time 

consuming process.  

 

Almost everyone will want to start a MSA project using one of the automatic methods and then 

refining them by eye. 

 

There are several alignment programs, separated into a number of categories, depending on the 

(15)

 

15

 

Alignment Editor  Description 

CINEMA 5  CINEMA (Colour INteractive Editor for Multiple Alignments) is a tool for 

alignment construction, modification and visualisation. In addition to its 

advantage of allowing interactive alignment over the Web, CINEMA 

provides links to the primary data sources, thereby giving access to up‐

to‐date sequences and alignments. The program accepts any number of  sequences of any length, which may be loaded in various ways.  

By  default,  alignments  are  coloured  according  to  intuitive  residue 

property groups. Nevertheless, menu options allow user‐specification of 

residue  colours  (and  hence  residue  groups)  and  to  swap  between 

different  colouring  alternatives.  Flexible  colouring  facilitates  the 

identification of core conserved regions of alignments and especially of 

key motifs that may be associated with the structure or function of the 

protein.  

The program offers various "pluglets": e.g., dotplots, CLUSTALW, a 3D 

backbone viewer, BLAST, etc..  

 

JalView  JalView has the advantage of being available as both a downloadable 

application and an applet online. The application offers a CLUSTALW 

plug‐in, performs Smith Waterman pairwise alignment, and is able to 

calculate and draw UPGMA and NJ trees based on percent identity 

distances. 

SeaView  Executable binaries (and source code) are available for many platforms. 

It also offers a CLUSTALW plug‐in, calculates simple dotplots, and allows  motifs to be saved. 

BioEdit  Written  for Windows 95/98/NT/2000/XP.  It is  an intuitive multiple 

document interface with convenient features  makes alignment and 

manipulation  of sequences relatively easy on your desktop computer. 

There are additional features that allow connection to bioinformatics 

(16)

MSA

 

and

 

Primer

BLAST

 

For this example, we are going to use the Human Myglobin gene (geneid = 4151).  There are three  highly conserved variants of this gene: NM_203377.1, NM_005368.2 and NM_203378.1.  Our aim is  to design a primer that will amplify this gene.   

Exercise

 

4:

 

Multiple

 

Alignment

 

of

 

Variants

 

(optional)

 

1) Look at the Human Myglobin gene entry by searching at the NCBI with the search term  “4151[uid]”.  You should be able to view all the information about the gene.  2) Retrieve sequences at NCBI by typing the following in the search box “NM_203377.1  NM_005368.2 NM_203378.1” and search against the nucleotide database.  Click all tick boxes,  go to top of page and change the ‘Summary’ option in the Display drop‐down menu to FASTA.   Change the Send to drop‐down menu to Text and save page as “myglobin.seq” 

3) Go to the EBI ClustalW website (http://www.ebi.ac.uk/Tools/clustalw2/index.html) and Upload 

your myglobin.seq file in the interface.  You don’t need to change any other parameters. Click  Run. 

4) On the results page, click ‘Start Jalview’. You will be able to see the nucleotide alignment of the 3 

variants and see that there is a high level of conservation.   

Exercise

 

4.1:

  

Using

 

the

 

alignment

 

to

 

choose

 

some

 

primers

 

(optional)

 

1) Using the alignment can you pick a forward and reverse primer that will be able to amplify the 

myglobin gene.  Remember you can use the primer design guidelines specified earlier.   

I have chosen the following ones: 5’‐GATGAAGGCGTCTGAGGA‐3’ and 5’‐GATCTTGTGCTTGGTGGC‐3’.   You can either use these are the ones you have chosen for the following exercise. 

(17)

 

17

 

Exercise

 

4.2:

 

Using

 

Primer

Blast

 

(optional)

 

Blast is used to compare a query sequence against a sequence database in a pairwise manner.  This  time we are going to use it to see check the specificity of our primers to a DNA template.  Before the  Primer‐Blast, you could do the same by using blastn for short exact matches! 

1) Go to Primer‐Blast (http://www.ncbi.nlm.nih.gov/tools/primer‐blast/) and in under the ‘Primer 

Parameters’ heading put your forward primer in the ‘Use my own forward primer (5'‐>3' on plus  strand)’ box and the reverse primer in the ‘Use my own reverse primer (5'‐>3' on minus strand)’  box.  Leave all other parameters the same. Click ‘Get Primers’. 

Are your primers specific enough?    

(18)

Exploring

 

Sequence

 

Formats,

 

Sequence

 

Databases,

 

Genome

 

Browsers

 

and

 

Multiple

 

Sequence

 

Alignments

 

The basis of this exercise in identifying SNPs for BRCA1 has been taken from the paper: 

R. Rajasekaran, C. Sudandiradoss, C. George Priya Doss, Rao Sethumadhavan, Identification and in  silico analysis of functional SNPs of the BRCA1 gene, Genomics, Volume 90, Issue 4, October 2007,  Pages 447‐452. 

 

Exercise

 

5:

 

Investigating

 

genes

 

and

 

SNPs

 

using

 

the

 

UCSC

 

Browser

 

(with

 

a

 

quick

 

look

 

at

 

Uniprot

 

for

 

detailed

 

protein

 

function

 

information)

 

In this exercise we want to be able to position the gene on the genome and look at its SNPs. 

1) Go to the UCSC Genome Browser Gateway and go to the Human (Hs) Genome Browser Gateway 

by clicking on ‘Genomes’. 

2) In ‘position/search term’ text box type the accession number NP_009225 

3) Look at results. What do you notice about the position of this gene on the genome? 

4) Click on the 4th link for UCSC genes. 

We will now manipulate which tracks we can see using the selection boxes on the web‐page.  

5) Hide anything that you feel is hindering your view of the gene and its SNPs.  Hint: hide spliced 

ESTs, Repeat Masker, and make dense the conservation.  What can you say about the SNPs in the BRCA1 gene? 

6) Click on the track that is highlighted and you will a Description and Page Index.  This links out to 

other databases that contain important functional information.  

7) Explore the UniprotKB entry.   What can you tell me about the status of this entry? 

8) Go back to the Description and Page Index page in UCSC browser. Now go to the Entrez Gene 

entry at the NCBI.  Look at the entry and the all the possible links to other NCBI data resources.   What are these data resources? 

(19)

 

19

Exercise

 

6:

 

Viewing

 

SNPs

 

from

 

dbSNP

 

on

 

3D

 

structures

 

using

 

Cn3D

 

(optional/demo

 

 

shows

 

how

 

tools

 

don’t

 

always

 

work

 

due

 

to

 

inconsistencies

 

in

 

identifiers!!)

 

In particular, you might want to look at the SNPs in dbSNP from the GeneView. 

1) Link to the dbSNP database by clicking on the GeneView SNP Report Link under the Genotype 

heading.   

Can you answer the following questions from the dbSNP entry:  How many gene models are there? 

How many synonymous mutations and missense mutations are there?     2) To view your synonymous SNPs on a 3D structure you can use the NCBI viewer CN3D, but you  will need to install this locally on your computer in order for it to work.    In the table of all mutations, you will be able to detect which SNPs have been validated and are  mapped to 3D structures etc..  3) Choose a SNP that has a 3D structure (e.g., the one in exon 5). Click on the link Yes to go to the  SNP3D entry. You will notice that there are several isoforms of this protein; each represented in  this entry.  We will concentrate on the first (isoform 1).    4) Select both the SNPs to view in Cn3D by either ticking the boxes under the heading CN3D next to  the information of the SNPs and then the button ‘Selected’; or just select the button ‘All’  underneath.    5) From the structure summary page, you will be able to see how many mutations there are and  where they are mapped.  For the top structure, click on the pink bar to the right to see your  query aligned to the structure's protein sequence, with an option to open an interactive view of  the alignment and 3D structure in Cn3D.    6) View the alignment and 3D structure in Cn3D.  The SNPs are marked in a gold colour. It is easier  to view in the wire style (change this using the Style‐>Rendering shortcuts menu). 

(20)

Exercise

 

7:

 

Retrieval

 

of

 

Sequences

 

from

 

NCBI

 

1) We want to download the protein sequence for this gene.  Scroll down the entry until you mRNA 

and Proteins section.  Click on the NP_009225.1 link.  This should be the first entry and should be  on a line that looks something like:  

NM_007294.3→NP_009225.1 breast cancer type 1 susceptibility protein isoform 1

 

2) Now you should be looking at the NP_009225 entry.   Download the FASTA sequence for this 

entry.  At the top of the web‐page, underneath tabs, click on the ‘FASTA’ link. Your web‐browser  should now display the FASTA sequence. 

I have already downloaded this sequence for you in a file called ‘hs_brca1.fasta’.   You could have 

done this two ways: (1) cut and paste sequence into notepad; or (2) use download link at RHS of 

page. 

3) Open the ‘hs_brac1.fasta’ file in notepad to check it. 

 

Exercise

 

8:

 

Sequence

 

Format

 

Conversion

 

Ultimately the sequence downloaded in the previous exercise is to be added to other BRCA1 protein  sequences to create a Multiple Sequence Alignment (MSA), which then be used for further analysis  in ALIGN‐GVD. 

1) On your desktop, there should be a file called ‘allbrca1_unaligned.phy’. Open this file in notepad 

and look at the sequence format. Do you know or recognize this format?  Google it to see if it is a  regular format. 

This sequence  format is often used with a suite of programs  that concentrate on  inferring 

phylogenies.  This file format is not popular and is not often used as an input sequence file format.  

Also, remember that the sequence format is in FASTA format. YOU CANNOT MIX SEQUENCE 

FORMATS IN THE SAME FILE. 

In order to convert the file to the correct format, we can use Seqret. 

2) Go to Seqret. Upload the file ‘allbrca1_unaligned.phy’ and leave all other options as they are. 

(21)

 

21

3) The output can be seen in the web browser – you need to download it to the computer.  Do this 

by  right‐clicking  on  the  output  link  and  choose  ‘Save  Target  As’.  Call  the  file 

‘brca1_unaligned.fasta’. 

4) Open the file in notepad and now add you human sequence from your other file to the file you 

have just created (brca1_unaligned.fasta).  You can do this using simple copy and paste.  Save 

the  file,  which  now  includes  brca1  sequences  AND  the  human  sequence  as 

‘allbrca1_hs_unaligned.fasta’. 

 

Exercise

 

9:

 

Creating

 

a

 

MSA

 

using

 

CLUSTALW

 

ClustalW is one of many MSA tools. It can be used via a web‐browser or can be installed locally on a  server and used on the command line.  Today we are to use the web‐browser.  1) Go to the ClustalW web‐page. Upload you file ‘allbrca1_hs_unaligned.fasta’ and run ClustalW.  2) There are four output files: you are interested in the Alignment file.  Right click on the link and  save to computer.   

Exercise

 

10:

 

Viewing

 

alignment

 

in

 

BioEdit

 

Bioedit (and Jalview, which you may have heard of) are not only tools for visualizing MSAs, but also  allow you to edit them.  In this exercise we will be manipulating the alignment and the order of the 

sequences so that the MSA will be able to be used in future programs.   For example, ALIGN‐GVD 

sets out the requirement that the MSA must be in FASTA format and the Human sequence MUST 

be at the TOP of the alignment. 

1) Start Bioedit, by going to the Start Menu; All Programs; Bioedit.  There may also be a short cut  on the desktop.  2) From the file menu, upload your alignment file produced from ClustalW.   Make sure you choose  the file type ‘All files’ and you are looking in the directory where your file has been saved.  Have  a look at the alignment using the scroll bar at the bottom. Also explore other features that are  available in this editor. For example, shading the alignment according to conservation. 

(22)

3) First, we are going to place the human sequence at the top of the file.  The human sequence is  represented by the accession number: NP_009225. To do this: highlight the sequence, left click 

and hold down on the mouse whilst hovering over the selected sequence and move the 

accession number (and thus the sequence) to the top of the alignment. Let go of the mouse  button. Your human sequence should now be at the top of the alignment. 

4) Next, using the alignment printed out from the library of ALIGN_GVD alignments, see if you can 

spot any differences between your alignment and the standard.   Hint: look specifically at the  pufferfish and sea urchin sequences as these are more difficult to align as they are more diverse  than the other sequences.  Do you think you need to change anything? 

There will be a demo on how to do this. 

5) Once you are happy with your alignment, save it as a fasta file.  To do this: go to File; Save As. 

Save file as type FASTA and call it ‘allbrca_clustalw.fasta’.   

Exercise

 

11:

 

Using

 

ALIGN

GVD

 

to

 

predict

 

the

 

effect

 

of

 

missense

 

mutations

 

1) On the ALIGN‐GVD web‐site, click on the ‘Use Align GVGD’ on menu on LHS.  

2) Upload  your  file  ‘allbrca1_clustalw.fasta’  as  the  MSA  file  and  the  file  called 

‘brca1_mutations.txt’ for the substitutions list.  

3) Run ALIGN‐GVD. 

Are there any mutations that all likely to interfere with function?   As an alternative, try using the alignment supplied ALIGN‐GVD. 

Exercise

 

12:

 

Displaying

 

your

 

MSA

 

in

 

ESPript

 

2.2

 

(point

 

of

 

information/optional)

 

1) Go to: http://espript.ibcp.fr/ESPript/ESPript/ 

2) Click on: execute 

3) On Main alignment file::   get the correct alignment of all the BRCA1 sequences.   Then go to  Output layout:  

Font 7  Col 65 

(23)

 

23

URLS used (or mentioned in this practical  

Others are found in the Bioinformatics_links.txt file.  Exploring function using NCBI resources 

UCSC Genome Browser    http://genome.cse.ucsc.edu/ 

NCBI        http://www.ncbi.nlm.nih.gov/ 

 

Pairwise Alignment and Sequence Similarity 

NCBI BLAST submission page    http://www.ncbi.nlm.nih.gov/BLAST/ 

NCBI Sequence      http://www.ncbi.nlm.nih.gov/ 

EXPASY translate tool    http://au.expasy.org/tools/dna.html 

SRS      http://srs.ebi.ac.uk/ 

 

DNA Sequence Analysis (Primer searching) 

Uniprot     http://www.ebi.uniprot.org 

eprimer3 docs    http://bioweb.pasteur.fr/docs/EMBOSS/eprimer3.html 

online eprimer3   http://bioweb.pasteur.fr/seqanal/interfaces/eprimer3.html 

dna translator      http://www.expasy.ch/tools/dna.html 

Primer‐BLAST    http://www.ncbi.nlm.nih.gov/tools/primer‐blast/ 

Multiple Protein Sequence Alignment 

NCBI    http://www.ncbi.nlm.nih.gov/ 

ClustalW  http://www.ebi.ac.uk/clustalw/       

Muscle     http://phylogenomics.berkeley.edu/cgi‐bin/muscle/input_muscle.py 

(24)

Dialign     http://bibiserv.techfak.uni‐bielefeld.de/dialign/submission.html  Jalview    http://www.jalview.org  CDD    http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml.  ESPript2.2  http://espript.ibcp.fr/ESPript/ESPript/    ALIGN‐GVD  http://agvgd.iarc.fr/index.php         iAltschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller,  and David J. Lipman (1997) Nucleic Acids Res. 25:3389‐3402

References

Related documents

2. It shall be possible to test the safety functions of the Drilling Control System, including I/O cards without unacceptable degradation of the safety. This shall also include

A unique data set of over 1,000 borrower records is used to examine how factors such as economies of size, credit risk, characteristics of the lender/borrower relationship,

Specifically, research output improves teaching quality for small amounts of research, below the median performance in our sample, reaches a maximum and decays slowly for higher

California Evidence Code section 140 defines the term, evidence, as "testimony, writings, material objects, or other things presented to the senses that are offered to prove

FIGURE 2 | Top 15 variables in dimension reduction for post-stroke outcome prediction: (A) variables filtered by ranks of information gain for predicting functional independence at

Overall RIT initiatives have been well received by academic staff as the potential benefits to students, such as increased enthusiasm for learning and development of

Oracle Spatial 10g [2] also provides spatial data mining feature where they use spatial attributes as nearest neighbor aggregate and within- distance aggregate attributes in

In particular, provided that one works at optimality the AQUARIUS model suggested that (1) under the perspective of a new produc- tion policy the new monthly energy