Probabilistic methods for post-genomic data integration

(1)

Probabilistic methods for post-genomic

data integration

Dirk Husmeier

Biomathematics & Statistics Scotland (BioSS)

JCMB, The King’s Buildings, Edinburgh EH9 3JZ

United Kingdom

(2)

Integrated analysis

of

(3)

Integrated analysis

of

regulatory networks

• Expression data

alone are

not sufficient

.

• Combining

multiple sources

of information

yields

complementary constraints

.

(4)

Combining

promoter sequences

and

(5)

Combining

promoter sequences

and

gene expression

data

Conventional approach:

• Find

clusters

of

co-expressed

genes.

• Identify

regulatory

elements

by

searching

for common

over-represented motifs

in the

promoter regions of these genes.

(6)

(7)

Microarray

data

Model

Promoter

sequences

(8)

Microarray

data

Model

Promoter

sequences

(9)

Microarray

data

Model

Promoter

sequences

(10)

(11)

Microarray

data

Model

Promoter

sequences

(12)

Microarray

data

Model

Promoter

sequences

(13)

Microarray

data

Model

Promoter

sequences

(14)

Segal, Yelensky, Koller (2003)

Bioinformatics 19

(15)

Segal, Yelensky, Koller (2003)

Bioinformatics 19

Revision:

(16)

T

A

T

A

C

A

C

. . . .

G

C

T

A

T

A

G C C

Motif:

T

G

A A

T T

(17)

C

T

A

T

A

C

A

C

. . . .

G

C

T

A

T

A

G C C

Motif:

T

G

A A

T

(18)

T T

C

T

A

T

A

C

A

C

. . . .

G

C

G

T

A

T

A

G C C

Motif:

T

A A

(19)

T T

C

T

A

T

A

C

A

C

. . . .

G

C

G

T

A

T

A

G C C

Motif:

T

A A

(20)

T T

C

T

A

T

A

C

A

C

. . . .

G

C

G

T

A

T

A

G C C

Motif:

T

A A

(21)

T T

C

T

A

T

A

C

A

C

. . . .

C

G

T

A

T

A

G C C

Motif:

T

A A

(22)

T T

C

T

A

T

A

C

A

C

. . . .

C

G

T

A

T

A

G C C

Motif:

T

A A

(23)

Position Specific Scoring Matrix (PSSM)

(24)

Position Specific Scoring Matrix (PSSM)

Search for a

motif

of length

W

in

binding sequences

.

W

_×

4 matrix

ψ

_k

(

l

)

:

Probability that the nucleotide in the

k

th position,

(25)

Position Specific Scoring Matrix (PSSM)

Search for a

motif

of length

W

in

binding sequences

.

W

_×

4 matrix

ψ

_k

(

l

)

:

Probability that the nucleotide in the

k

th position,

k

_∈

[1

, . . . , W

]

, is an

l

_{∈ {}

A, C, G, T

_}

.

Background model

for

non-binding sequences

4 -dim vector

θ

₀

(

l

)

:

(26)

(27)

Sequence

S

₁

, S

₂

, . . . , S

_N

Non-binding sequence: R=0

P(S₁, S₂, . . . , S_N_|R = 0) = N Y t=1 θ₀(S_t)

(28)

Sequence

S

₁

, S

₂

, . . . , S

_N

Non-binding sequence: R=0

P(S₁, S₂, . . . , S_N_|R = 0) = N Y t=1 θ₀(S_t)

Binding sequence: R=1, motif starting at position m+1

P(S1, S2, . . . , SN|R = 1, start = m + 1) = m Y t=1 θ0(St) W Y k=1 ψk(Sm+k) N Y t=m+W+1 θ0(St) = N Y t=1 θ0(St) W Y k=1 ψk(Sm+k) θ0(Sm+k)

(29)

Binding sequence: R=1, motif starting at position m+1

P(S1, S2, . . . , SN|R = 1, start = m + 1) = N Y t=1 θ0(St) W Y k=1 ψk(Sm+k) θ0(Sm+k)

(30)

Binding sequence: R=1, motif starting at position m+1

Binding sequence: R=1, motif starting anywhere

P(S1, S2, . . . , SN|R = 1) = N₋W X m=0 P(start = m + 1)P(S1, S2, . . . , SN|R = 1, start = m + 1) = N Y t=1 θ0(St) 1 N ₋ W + 1 N₋W X m=0 W Y k=1 ψk(Sm+k) θ0(Sm+k)

(31)

Binding sequence: R=1, motif starting at position m+1

Binding sequence: R=1, motif starting anywhere

P(S1, S2, . . . , SN|R = 1) = N₋W X m=0 P(start = m + 1)P(S1, S2, . . . , SN|R = 1, start = m + 1) = N Y t=1 θ0(St) 1 N ₋ W + 1 N₋W X m=0 W Y k=1 ψk(Sm+k) θ0(Sm+k)

Objective:

Prediction

of

binding

activity from sequence:

(32)

Apply Bayes rule: P(R = 1_|S1, S2, . . . , SN) = P(S1, S2, . . . , SN|R = 1)P(R = 1) P(S₁, S₂, . . . , S_N_|R = 0)P(R = 0) + P(S₁, S₂, . . . , S_N_|R = 1)P(R = 1) = 1 + P(R = 0)P(S1, S2, . . . , SN|R = 0) P(R = 1)P(S₁, S₂, . . . , S_N_|R = 1) !−1 = 1 + " P(R = 1) P(R = 0) 1 (N ₋ W + 1) N₋W X m=0 W Y k=1 ψk(Sm+k) θ0(Sm+k) #−1!−1

(33)

Apply Bayes rule: P(R = 1_|S1, S2, . . . , SN) = P(S1, S2, . . . , SN|R = 1)P(R = 1) P(S₁, S₂, . . . , S_N_|R = 0)P(R = 0) + P(S₁, S₂, . . . , S_N_|R = 1)P(R = 1) = 1 + P(R = 0)P(S1, S2, . . . , SN|R = 0) P(R = 1)P(S₁, S₂, . . . , S_N_|R = 1) !−1 = 1 + " P(R = 1) P(R = 0) 1 (N ₋ W + 1) N₋W X m=0 W Y k=1 ψk(Sm+k) θ0(Sm+k) #−1!−1

Define:

w

_k

(

l

)

= log

ψk(l) θ₀(l)

,

w

0

= log

P(R=1) P(R=0)

,

logit(

z

) =

1 1+exp(₋z)

(34)

P(R = 1_|S1, S2, . . . , SN) = logit log " w0 N ₋ W + 1 N₋W X m=0 exp W X k=1 wk(St+k) !# !

4 _×

W

+ 1

parameters:

w

_k

(

l

)

,

w

₀

(35)

T

A

T

A

C

A

C

. . . .

G

C

T

A

T

A

G C C

Motif:

T

G

A A

T T

(36)

T T

C

T

A

T

A

C

A

C

. . . .

C

G

T

A

T

A

G C C

Motif:

Score

₁

T

A A

(37)

A

G

T T

C

T

A

T

A

C

A

C

. . . .

C

G

A

T

A

T

A

G C C

Motif:

Score

₁

Score

₂

T

(38)

T

C

G

A A

T T

C

T

A

T

A

C

A

C

. . . .

C

G

...

T

A

T

A

G C C

Motif:

(39)

T

C

G

A A

T T

C

T

A

T

A

C

A

C

. . . .

C

G

...

T

A

T

A

G C C

Motif:

(40)

T

G

A A

T T

C

T

A

...

G

C

. . . .

C

A

C

T

A

Score

1

Score

Motif:

T

A

CT

A

CG 2

+

N

Score

t

Score

(41)

C

T

G

A

T

...

G

C

. . . .

C

A

C

A

T

A

Score

1

Score

Motif:

T

A

CT

A

CG 2

Nonlinear transfer function

+

N

Score

t

(42)

T

C

T

G

A

T

A

P(R=1|sequence)

...

G

C

. . . .

C

A

C

T

A

2

Score

1

Score

Motif:

T

A

CT

A

CG

Nonlinear transfer function

+

N

Score

t

(43)

P(R = 1_|S1, S2, . . . , SN) = logit log " w0 N ₋ W + 1 N₋W X m=0 exp W X k=1 wk(St+k) !# !

4 _×

W

+ 1

parameters:

w

_k

(

l

)

,

w

₀

(44)

Wolfgang Lehrach

Biomathematics & Statistics Scotland

(45)

SH3 yeast two-hybrid interaction network

Tong et al. (2002), Science 295, 321-324

285 interactions

between

28 SH3 proteins

and

143 binding peptides

(46)

(47)

0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1

Final Test Set Performance

True positive rate (sensitivity)

False positive rate (1−specificity) 0.61 Reiss 0.62 None 0.64 Naive 0.69 Gaussian

0.71 Laplacian with pruning 0.73 Laplacian

(48)

The model

of

Segal, Yelensky and Koller

(49)

g.S₂ g.S₁

...

. . . . N P(g.R₂ |g.S) TAT A G C C g.R₂ 1 g.R g.S

(50)

Basics Evaluation MotifScanne Cases Conclusions JJ II J I Close

Transcriptional Regulation

(51)

g.S₂ g.S₁

...

. . . . N P(g.R₂ |g.S) TAT A G C C g.R₂ 1 g.R g.S

(52)

g.S g.S₂ g.S_N g.R₁ g.R₂ g.M 1 . . . .

...

1 g.R 2 g.R _g.M C _C G A T A T 2 |g.S) P(g.R 3 2 1

(53)

N g.S g.R₁ g.R₂ g.M 1 g.E g.E ₂ C _C G A T . . . .

...

1 g.S g.S₂ A 3 2 1 g.M 1 g.R 2 g.R 3 g.E P(g.E T 2 |g.S) P(g.R 0 g.M 3 2 1 |g.M) 3

(54)

...

. . . . g.M 1 g.R g.R₂ g.S₁ g.S₂ g.S_N g.E₃ P(g.R₂ |g.S) TAT A G C C g.E ₂ g.E₁

(55)

P(g.Ri = 1|g.S1, g.S2, . . . , g.SN) = logit log " w0 N ₋ W + 1 N₋W X m=0 exp W X k=1 wk(g.St+k) !# !

(56)

1 g.S ₂ 2 g.R g.R₁ g.M . . . .

...

g.S 1 g.R 2 g.R 3 g.E N g.S 1 g.E g.E ₂ 3 2 1 g.M

(57)

Softmax function

P

(

g.M

=

m

_|

g.R

₁

=

r

₁

, g.R

₂

=

r

₂

, . . . , g.R

_N

=

r

_N

)

=

exp

P

L i=1

u

mi

r

i

P

˜ m

exp

P

L i=1

u

mi˜

r

i

Parameter matrix

:

(58)

...

. 2 g.E g.E₃ 1 g.E g.R₁ g.R₂ g.M . . . 1 |g.M) 3 P(g.E 2 1 g.S g.S₂ g.S_N 0 g.M 3

(59)

Independent Gaussian distributions

P

(

g.E

₁

, g.E

₂

, . . . , g.E

_L

_|

g.M

=

m

) =

Y

j

P

(

g.E

_j

_|

g.M

=

m

)

P

(

g.E

_j

_|

g.M

=

m

) =

N

(

µ

_j,m

, σ

_j,m

)

For each module

m

and each condition

j

:

Mean

:

µ

_j,m

(60)

(61)

N g.S g.R₁ g.R₂ g.M 1 g.E g.E ₂ C _C G A T . . . .

...

1 g.S g.S₂ A 3 2 1 g.M 1 g.R 2 g.R 3 g.E P(g.E T 2 |g.S) P(g.R 0 g.M 3 2 1 |g.M) 3

(62)

1 g.S g.S₂ g.S_N 1 g.E g.E ₂ C _C G A T 2 g.R g.R₁ g.M . . . .

...

A 3 2 1 g.M 1 g.R 2 g.R 3 g.E P(g.E T 2 |g.S) P(g.R 0 g.M 3 2 1 |g.M) 3

(63)

Bayesian approach

P(parameters

_|

data)

=

P

(64)

Bayesian approach

P(parameters

_|

data)

=

P

P(parameters, latent variables

_|

data)

(65)

Bayesian approach

P(parameters

_|

data)

=

P

P(parameters, latent variables

_|

data)

Intractable!

Gibbs sampling

parameters

∼

P(parameters

|

latent variables, data)

latent variables

_∼

P(latent variables

_|

parameters

, data)

(66)

P(x,y)

y

(67)

P(x,y)

y

(68)

P(x,y)

y

x

(69)

P(x,y)

y

x

P(y|x)

(70)

P(x,y)

y

(71)

Still too expensive

Find one

“good” set of parameters

rather than a whole

sample from the posterior distribution.

Hard-assignment EM

algorithm.

Various

heuristic

simplifications.

(72)

...

. . . . g.M 1 g.R g.R₂ g.E₃ g.E ₂ g.E₁ g.S_N g.S₂ g.S₁

(73)

...

. . . .

g.M

1

g.R

₂

E-step

g.E₃ g.E ₂ g.E₁ g.S_N g.S₂ g.S₁

(74)

...

. . . . g.M 1 g.R g.R₂

M-step

g.E₃ g.E ₂ g.E₁ g.S_N g.S₂ g.S₁

(75)

...

(76)

...

(77)

Segal, Yelensky, Koller (2003)

Bioinformatics 19

(78)

(79)

Experiment 1

173 microarrays, measuring responses to various

stress conditions (Gasch et al. 2000)

• Conventional algorithms:

20%

of the predicted

motifs are known.

• Unified probabilistic model:

45%

of the

(80)

Experiment 2

77 microarrays, expression during the cell cycle

(Spellman et al. 1998)

• Conventional algorithms:

30%

of the predicted

motifs are known.

• Unified probabilistic model:

56%

of the

(81)

(82)