• No results found

Machine Learning of Morphological Rules by Generalization and Analogy

N/A
N/A
Protected

Academic year: 2020

Share "Machine Learning of Morphological Rules by Generalization and Analogy"

Copied!
5
0
0

Loading.... (view fulltext now)

Full text

(1)

MACHINE LEARNING OF MORPHOLOGICAL

R U L E S

BY

GENERALIZATION AND ANALOGY

K l a u s W o t h k e

A r b e i L s s L e ] l e L i n g u i s L i s c h e D a L e n v e r a r b e i L u n g

I N S T I [ U I FOR DEUTSCHE SPRAI;HE

M a n n h e i m ,

West.

G e r m a n y

ABSTRAI:T:

1 h i s

p a p e r

d e s c r i b e s an

e x p e r i -

m e n L a l p r o c e d u r e For Lhe i n d u c L i v e a u L o m a L e d

l e a r n i n g

of m o r p h o l o g i c a l

r u l e s From

exam-

ples.

At First an ouL].irle of Lhe p r o b l e m is

given.

Then

a F o r m a l i s m for Lhe

r e p r e s e n -

t.

a r i a n

o f m o r p h o l o g i c a l r u l e s i s d e f i n e d . T h i s F o r m a l i s m i s u s e d by Lhe a u L o m a L e d p r o c e d u r e , w h o s e anaLomy Js s u b s e q u e n t l y p r e s e n t , e d . F i n a l l y t. he p e r f o r m a n c e

of

t. he s y s L e m i s e v a l u a t , ed and Lhe mosL i m p o r t a n t . u n s o l v e d p r o b l e m s a r e d i s c u s s e d .

l . O u L l i n e o f Lhe P r o b l e m

L e a r n i n g

a l g o r i t h m s

for

Lhe

d o m a i n

of

n a L u r a i

l a n g u a g e s w e r e in Lhe

pasL

m a i n l y

d e v e l o p e d to model Lhe a c q u i s i t i o n of s y n L a x

and

Lo g e n e r a L e s y n L a c L J c d e s c r i p L i o n s

flrom

e x a m p l e s (eL. P i n k e r 1979~

C o h e n / F e i g e n b a u m

] 9 8 2 : 4 9 4 - 5 ] ] ) . T h e r e e x i s t a l s o some s y s -

Lems

w h i c h

l e a r n rules for

Lhe

a u L o m a L i e

p h o n e t i c L r a n s c r i p L i o n off o r L h o g r a p h i c LexL

(eL.

Oakey/Cawt:horn 1981,

W o l f 1977). Like

the s y s t e m p r e s e n L e d in L h i s p a p e r all L h e s e

s y s t e m s s L i l l are e x p o r i m e n L a l s y s L e m s ,

the

i n d u c t i v e

a u L o m a L i c l e a r n i n g of m o r p h o l o g i ~

c a l r u l e s has L i l l now b e e n i n v e s L i g a L e d o n l y Lo a s m a l l d e g r e e . R e s e a r c h on L h i s

p r o b l e m

was

c a r r i e d

out by

Ring

(1978),

3 s n s e n - W J n k e l n

(]985)

and Wofhl<e

(1985).

The t a s k of' Lhe s y s L e m d e s c r i b e d h e r e i s Lo l e a r n r u l e s f ' o r i n f l e c L i o n a ] and d e r i v a L i o n a l m o r p h o l o g y . The s y s t e m

is

naL d e s i g n e d as a s L a n d a r d p r o g r a m , b u t as an e x p e r i m e n L a l s y s t e m . I t ] s u s e d F o r Lhe e x - p e r i m e n L a ] d e v e l o p m e n t and t, he L e s l i n g o f f u n d a m e n L a l a ] g o r i L h m i c l e a r n i n g st. r a t . e g i e s . Lat. e r t h e s e s L r a t e g i e s c o u l d p e r h a p s become n e c e s s a r y c o m p o n e n t s o f a s t a n d a r d ] . e a r n i n g p r o g r a m d e v i s e d F o r Lhe i n t e r a c L i v e d e v e l o p - menL off ] i n g u i s L J c a l g o r i t h m s F o r Lhe d o m a i n o f m o r p h o l o g y .

I n p u t : Lo Lhe s y s L e m i s a seL o f e x a m - p l e s c a l l e d a l e a r n i n g c o r p u s . Each e x a m p l e i s an o r d e r e d p a i r o f w o r d s .

We

c a l l t h e f ' i r s L w o r d o f e a c h p a i r Lhe s o u r c e . [ h e s e c o n d w o r d i s c a l l e d Lhe t. a r g e L . BeLween t h e s o u r c e and Lhe L a r g e L o f e a c h g i v e n p a i r L h e r e musL e x i s t : an i n f l l e c t , i o n a l o r a d e r i v a t i o n a l m o r p h o l o g i c a l r e l a L i o n . By ap-. p l y i n g t. he p r o c e s s e s o f g e n e r a l l z a L i o n and d e L e c L i o n a n a l o g i e s Lhe s y s t . em has t o c o n - s L r u c L a seL o6 i n s L r u c L i o n s w h i c h d e s c r i b e

on

a p u r e l y g r a p h e m i c b a s i s how Lhe

L a r g e L

of

e a c h pair is g e n e r a L e d From the

s o u r c e .

( S e m a n L i c

f e a L u r e s o f m o r p h e m e s a r e aL p r e s e n L i g n o r e d by Lhe s y s L e m . ) Such a seL

of

i n s k r u c L i o n s

s h o u l d not

o n l y

g e n e r a L e

c o r r e c L L a r g e L s For the s o u r c e s g i v e n in the

l e a r n i n g

c o r p u s :

The

i n s L r u c L i o n s

s h o u l d

a l s o g e n e r a L e c o r r e c L t a r g e L s for Lhe m a j o r -

iLy

of

Lhe

s o u r c e s not in Lhe c o r p u s

w h i c h

p a r t . i c J p a L e i n Lhe same i n f l e c t i o n a l o r

d e r J v a L i o n a l

r e l a L i e n s h i p

as

Lhe

s o u r c e -

L a r g e L - p a i r s Jn Lhe l e a r n i n g c o r p u s . S u p p o s e

For e x a m p l e LhaL Lhe F o l l o w i n g l e a r n i n g cor-

pus is Fed JnLo Lhe s y s L e m :

" a s s e m b l y ' " b a L h " b o x " " b o y " " b u s " " b u s h " b u z z " c a l f " c o p y " c r y " " d o o r " F i e l d " ' h o u s e ' " k n i f e " " l a d y " " m o L h e r " " s w i L c h ' " u n i v e r s i L y "

" a s s e m b l i e s " " b a L h s " " b o x e s " " b o y s "

b u s e s " b u s h e s b u z z e s c a l v e s

c o p i e s

c r i e s " d o o r s " " f i e l d s " h o u s e s " k n i v e s " l a d l e s " m o L h e r s ' " s w i L c h e s ' " u n J v e r s i L J e s " F i g u r e ]

.

I n t. h i s c a s e kilo l e a r n i n g a l g o r i L h m has Lo c o n s L r u c l a set. off i n s t . r u e L i o n s w h i c h g e n e r - a l e s f i o r e a c h s i n g u l a r n o u n (= SOLirce~ i n Lhe l e F L c o l u m n ) of: L h i s c o r p u s a s L r i n g w h i c h i s i d e n L i c a l w.tLh t. he c o r r e s p o n d i n g p l u r a l Form (= L a r g e L , i n t h e r i g h L c o l u m n ) . F u r L h e r m o r e , Lhe i n s t . r u c L i o n s s h o u l d a l s o

generat, e

Lhe

c o r r e c L

p l u r a l

Form

For

Lbe

m a j o r i L y of E n g l i s h singu].ar n o u n s w h i c h are

not, m e m b e r s off Lhe l~arnirlg c o r p u s .

For in-

s e a n c e , Lhe i n s l r u c l , i o n s s h o u l d a l s o g e n e r - aLe " f l i e s " f'rom " f i [ y ' , " L a b l e s " f'rom

" L a b l e ", " f o x e s " f r o m " f o x ", " l a y s " f r o m "Lay ", " c l a s s e s " From " ( ; l a s s ' , and " t h i e v e s " From " L h i e f ' . Of c o u r s e L h e r e w i l l a l s o be s i n g u l a r n o u n s F o r w h i c h Lhe . t n s L r u c L i o n s w i l l noL be a d e q u a L e . T h e s e w i l l i n c l u d e a l l n o u n s w h o s e p a L L e r n off p l u r a l i z a L i o n i s n o t r e p r e s e n L e d by e x a m p l e s i n Lhe l e a r n i n g c o r - p u s . WiLh t. he g i v e n l e a r n i n g c o r p u s one

(2)

c o u l d n o t e x p e c t t h e i n f e r r e d i n s t r u c L J o n s

to be adequat, e e. g. For t h e p l u r a l i z a t i o n s

" o x "

- >

" o x e n ' ,

" L o o L h "

- >

" t e e L h ' ,

" i n d e x "

- > " i n d i c e s ' ,

" f o o t "

- > " f e e L " ~ a n d

" a d d e n d u m "

- >

" a d d e n d a ' .

As

L h i s

e x a m p l e

i l l u s t r a t e s ,

t h e l i n g u i s t i c

a d e q u a c y of" t h e

i n s L r u c L i o n s

d o e s

n o t o n l y

d e p e n d

on

t h e

q u a l l L y

o f t h e a u t o m a t e d

l e a r n i n g

s L r a t e g i e s

b u t

a l s o

on t h e r e p r e s e n t a t i v i t y

off a g i v e n

] e a r n i n g

c o r p u s

f o r

a m o r p h o l o g i c a l

p a t t e r n .

2, F o r m a l i s m for

t h e

R e E r e s e n t a t i o n of

Me

r ~ h o ~ i c

a l

R u l e s

] h e r e are two m a i n t y p e s of i n s t r u c t i o n t h e

l e a r n i n g a l g o r i t h m u s e s for the f o r m u l a t i o n

of m o r p h o l o g i c a l r u l e s :

P r e f i x a l s u b s t i t u t i o n i n s t r u c t i o n s c h a n g e

t h e b e g i n n i n g of a s o u r c e in o r d e r to

g e n e r a t e t h e c o r r e s p o n d i n g t a r g e t . ] h e y

h a v e Lhe g e n e r a ]

]'arm

X - > Y / # ( Z ( 1 ) l . . . I Z ( i ) f . . . ~ Z ( n ) ) .

Such

an i n s t r u c t i o n

m e a n s :

If

a

s o u r c e

b e g i n s

w i t h

L h e

s t r i n g

X

and

J fi

immedJ, a t e l y

on t h e r i g h t

of

X f o l l o w s

t h e

s t r i n g

Z ( ] . ) o r

. . .

o r Z ( i )

o r . . .

o r

Z ( n ) ~

t h e n

s u b s t i t u t e

X

by

Y.

( ' # "

s i g n i f i e s

t h e

w o r d - b o u n d a r y

a n d

m a r k s

t h e p o s i t i o n

w h e r e X m u s t o c c u r

i n

o r d e r

Lo be s u b s t i. L u t a b l e

by Y, n a m e l y a t

Lhe b e g i n n i n g

sl' a s o u r c e

( r i g h t

off

" #" )

a n d

i m m e d i a t e . } y

b e f o r e

Z ( 1 )

o r . . .

o r

Z ( ] . ) or

. . .

at" Z ( n ) ) .

~ u f f l i x a . l

s u b s t J , t u L i o n

] n s t r u c L J o n s

c h a n g e

t h e e n d o f a s o u r c e

i n o r d e r

t o

g e n e r a t e

t h e

c o r r e s p o n d i n g

t a r g e t .

I h e y h a v e t h e

f o r m

X -> Y / ( Z ( ] ) I ... IZ(J)I ... IZ(n)) #.

rhe m e a n i n g off s u c h an i n s t r u c t i o n .is:IF

a s o u r c e e n d s w i t h t h e s t r i n g X and if

i m m e ( l i a L e l y

on

L h e

l e f t :

o f

X

is

t h e

str.tng Z(1) or ... or Z(i) or . . . o r Z ( n ) , t h e n s u b s t i t u t e X by Y.

E a c h seE of" i n s t r u c t i o n s c o n s t r u c t e d by the

l e a r n i n g a l g o r i t h m Js o r d e r e d , i. e. the

l a t e r a p p l i c a t i o n of the i n s t r u c t i o n s to a

g i v e n s o u r c e m u s ~ be t r i e d

i n

a f i x e d

s e q u e n c e in o r d e r to g e n e r a t e a t a r g e t : The

f i r s t a p p l i c a b l e prefiixa]

i n s t r u c t i o n

in the

s e q u e n c e

of p r e f i x a l s u b s t i t u t i o n

i n s t r u c t i o n s m u s t be d e t e r m i n e d and the

f i r s t a p p l i c a b l e s u f f i x a l i n s t r u c t Jan in the

s e q u e n c e

of s u f f i x a l s u b s L i t u t i o n

i n s t r u c t i o n s m u s t be d e t e r m i n e d . T h e n , b o t h

m u s t be a p p l i e d to t h e s o u r c e c o n c u r r e n t l y ,

t h u s g e n e r a t i n g the t a r g e t .

the o r d e r a n d a p p l i c a t i o n of s e t s of

i n s t r u c t i o n s m a y be i l l u s t r a t e d by a s m a l l

e x a m p l e : S u p p o s e t h e l e a r n i n g a l g o r i t h m h a s

c o n s L r u c t e d L h e F o l l o w i n g set of

i n s t r u c t i o n s for t h e n e g a t i o n of E n g l i s h

a d j e c t i v e s (the

s e L i s

l i n g u i s t i c a l l y noL

F u l l y

a d e q u a t e ;

""

i s t h e n u l l s ] r i n g ,

i .

e.

t h e s t r i n g

w i L h t h e l e n g t h

0 ) :

] )

->

2)

->

~ )

_>

a )

- >

5) ->

F i g u r e 2.

i l ' / #

" l "

i r ' / #

- - ' r "

i n " / # - ~ ( "

m" I" p"

)

i n " / # . _ _

" /

#

Then

t h e n e g a t i o n

o f

" p e r f e c t '

is

F o r m e d by

F i r s t

d e t e r m i n i n g

t i l e

f J r s L

a p p l i c a b l e

p r e f l J x a ]

s u b s t i t u L i o n

i n s t r u c t

i. o n :

( l )

is

n o t a p p l i c a b l e ,

s i n c e

" p e r f e c t "

d o e s noL b e g i n

w i t h

" 1 " .

( 2 )

i s n o t a p p l i c a b l e ,

s i n c e

' p e r f e c t : "

d o e s n o t b e g i n

w i t h

" r ".

( 3 ) i s o p p ] . J e a b l e ,

s i n c e

" p e r f e c t "

b e g i n s

w i t h

"p ",

The

f i r s t

a p p l i c a b l e

s u f f l i x a l

s u b s t : i t : u t J o n

i n s t r u c t i o n

Js t h e o n l y

s u f f i x a l

: i n s t r u n L J o n

at. h a n d , n a m e l y ( 5 ) :

" p e r f e c t "

e n d s w i L h

" ' .

By t h e c o n c u r r e n L

a p p . I J c a t i o n

o f ( 3 ) a n d ( 5 )

t o

" p e r f e c t

"

t h e

t a r g e t

' i m p e r f e c t

"

Js

g e n e r a t e d ,

w h i c h

] s

t:he

n e g a L i o n

o f

" p e r f e c t

".

3, A n a t o m y

o f t h e S y s t e m f o r

t h e

A u f o m a l n d

L e a.£ni r£~_9 fi _M o ~_tip~11 p £ i c s l R u ]

e s

l h e

s y s L e m

Js w r i t t e n

J.n

t h e

p r o g r a m m i n g

l a n g u a g e

P L / I .

I t

h a s t h e name PRISM, w h i c h

is an a c r o n y m

f o r

" P R o g r a m For tile I n f e r e n n c

and S J m u l a L i o n of' M o r p h o l o g i c a l ru].es'.

P R I S M h a s

t h e

m a c r o s t r u c t u r e s h o w n Jn

F i g u r e 3. At an a c t J v a t ion of P R I S M , its

m a i n p r o c e d u r e M O N I T O R at f i r s t a c t i v a t e s

G E T O P T N ~lhJch r e a d s ]:he u s e r ' s o p t i o n s For

|111o c o n t r o l of P R I S M and c h e c k s t h e m for

s y n L a c t J c

we] ] . - F o r m e d n e s s

a n d

F o r

p l a u s : i h i l J t y o

[ h e n

MONIIOR

a c t i v a f e s

Lhe

c o m p o n e n t

i n d i c a L e d

by t h e

u s e r "S

C O l / i r e ]

o p t i o n s . ~ h e r e are t h r e e a l t e r n a t i v e

c o m p o n e n t s :

- A l e a r n i n g c o m p o n e n t w h i c h i n f e r s s e l s of

J n s t r u e l J o n s F r o m a ] e a r n i n g c o r p u s g J v e e

by

t h e

u s e r o f

P R I S M .

Th:is

c o m p o n e n t

c o m p r i s e s

t h e p r o c e d u r e s

I:ItKCRPS, DISCOV,

STMT[}UT, TODSE], a n d o t h e r s .

] h e l e a r n i n g

p r o c e s s

i s p e r f o r m e d

by DIS('OV.

The o t h e r

p r o c e d u r e s

p e r f o r m

p e r i p h e r a l

f u n c t i o n s .

A

c o m p o n e n L

F o r

t h e

a p p l : i c a t i o n

o f

i n s t r u c t i o n s

~ h i c h

w e r e i n f e r r e d

by

t h e

] . e a r n i n g

c o m p o n e n t ,

l h i s

c o m p o n e n t

c o m p r i s e s

t h e p r o c e d u r e s

F R O D S E ] ,

APPLY,

D E R I V E , a n d o t h e r s .

A

t h i r d ,

m a r g i n a l

c o m p o n e n t

w h i c h

p r e p a r e s

i n s t r a c t i o n s

F o r t h e i r

p r i n t o u t .

I L

c o n s i s t s of F R O D S E [ , S I M ] O U ] , a n d

o t h e r p r o c e d u r e s .

The aet:J v a t ] o n of the l e a r n i n g

a l g o r i t h m s t a r t s w i t h a c a l l of C H K C R P S by

M O N I T O R . CHK(}RPS c h e e k s a g i v e n l e a r n i n g

c o r p u s for f o r m a l e r r o r s . The p r o c e d u r e

a c t i v a t e d next. is D I S C O V ~ w h i c h p e r f o r m s the

l e a r n i n g p r o c e s s e s . DISI'OV f i r s t d e t e r m i n e s

L h e d i f f e r e n t t y p e s o f s u b s t i t u t i o n p a t t e r n s

(3)

"1 . . . 4 " -I ... I" ! M 0 N I I 0 R ! . . . > t GETOPTN 4 .. . . f I r + + . . . +

V V V

. . . < . . . + ! + . . . > . . . ~_

V V V

] . e a r n . i . n g of" a p p ] . i c a L i o n of" p r i n L e u t o f

L n s l : r u c L J o n e i net: r LIC t: J. o n e i r / s l : r u u L i o n a

! + . . . + ! -J .. . . + + . . . j. !

+ - > ! CIIt<CRPS ! + - > ! FRODSFT ! ! P R O D S E I ! < - +

! + ... + < = = = = / / ! + . . . . . . . . . . F < = = = = = / / = = > + ... + !

! / I.EARN1NG / ! / K N O W L E D G E / !

! -P . . . ,- / CORPUS / ! ~ . . . ~. / BASE / + . . . + !

+ - > [ D I S C O V ! < = / + - > ! APPLY ! < = = / / ! S I M I O U T ! < - - ,

! -P . . . i ~ + . . . F + . . . +

! + . . . + V

+ - > ! SIMTOUT ! / / + . . . + / /

! .i .. . . + / S O U R C E S / = > ! D E R I V E

!=>I

T A R G E r S /

! / / + . . . + / /

! "l . . . F

+ - > ! I OI)SET ! = > KNOWLEDGE / + . . . + / BASE /

/

/

F . i g u r e , 3 . M a c r o e L r u c L L i r e e l P R I S M . ( F o r r e a s e l l s oF l u e J d i L y some m a c r o F e a t L I r e s

o f P R I S M h a v e b e e n . i g n o r e d i n L h i s c h a r t . )

s u b s t , i L u L : i en p s i : b a r n s a c e E h e d i F f e r e n L ( X , Y ) - p a i r s w h i c h a r e i m l ) l i c i L l y p r e s e n L i n L h e l e a r n J , og c a r p u s . ( F o r L h e e L a b u s of` X a n d Y c e m p a r e L h e d e F : i n i L i o n oF t h e f o r m a l . J a m I ' o r L h e r e p r e e e n L a t i o n oF m e r p h o l a g J c:a.l r u J e s o ) [ t i e s e c o n d s t : e p o f [) I S(~(]V c e m p L i L e s L h e f r e q u e n c y ef` e a c h

s u b s t . . i L u L i o n p a t L e r n i n I:he e o r t J a s . D ] S I ~ E ] V ' s l e a r n i n g st. r a L e g y p r e s u r ) p o s e s L h a L L h e s u b s b J l L l t : . i e r l p a [ : ~ : e r n s o e e t l r r J n g m o r e I r e q u e n f ] . y Jn a ] a n g u a g e a l s o e e c u r m o r e F r e q u e n t l y J n L b e ] e a r n : i n g c o r p u s . I h e r e f ' o r e D1SCOV c r e a t e s m o r e g e n e r a l J. n s t . r u e L i o n a P e r L h e m a r e f ' r e q u e n t p o L L e r n a of" a l e a r r l i o g c o r p u s a n d m o r e s p e c i f i c ]liSP. s u r E : b O l l S f o p L h e ] . e n s f ' r e q u e n L p a t L e r n s oF o l e a r n i n g c o r p u e ~ J . o . t h e c o n L e x L u o ] s b r i n g e Z ( i ) of"

a n Jn,<;Lrue|:.i. or~ X --> Y / # ( Z ( ] ) ] ...

i Z ( : i ) ! . . . I Z ( n ) ) o r X - > Y ~ ( Z ( ] . ) I . . . t Z ( : i ) l . . . I Z ( n ) ) tt a r e l : h e m o r e g e n e r a l Lhe m o r e f r e q u e r l t , l y L h e e u b s L ~ t : u l : : i , o n p a t : L e F r ~ (X~ Y) a e e U r S o T h e y a r e b b e m o r e s p e e l f ' . i e [-.he m e r e r a r e l y t. he a u b s L J t. uL.i. on p a l : t , e r n o c c u r s . P r o v i d e d L h a L a l e a r n : i n g o o £ p u s JS r e p r e s e n l . a t : ] v e of" Lhe m o r p h o l a q i c a l S U b - a t J t . u L J o n p a l : t e r n s of` a ] . a n g u a g e a n d L h e c o n L e x L u a ] at. r i n g s Z ( J ) , t : h i e g e n e r a ] . s L r a t , e g y F a r L h e d e L e r m J e a L J o n o f ' t. he Z ( J ) 'a i n c r e a s e s t. he p r o b a b J l J L y t h a L t h e i n f e r r e d : i n s f . r ue I::i o n s g e n e r a t e c o r r e c t t a r g e L s F o r s u e h s o u r ( ' , e s a s a r e not. e l e m e n t s oF t, he g i v e r l ] . e a r r l i n g c o r p u s . D [ S C O V a r r a n g e s L h e s u b s L i l : u t J n n i n a L r u c t t o n , s i n s u c h a w a y t. bat. L h e m o r e n p e e i f ' J . e i n s t . r u e L J o n s p r e c e d e t:he m o r e g e n e r a l o d e s . r h i s o r d e r of` t h e i n - st. r u e L i o n s g u a r a n t , e e s d u r J . n g t, h e J r ] a l e r a p - p ] i c a L i o n L h a t : p o t , e r l L i a ] . l y e a c h t n s l . cL~et, i o l / c a n b e a p p l i e d . S I H T O U ] L r a n s f o r m s s u b s t : i t u - t. i o n i n s t r h l c L : i o n s i n f e r i t e d b y I ) I S ( : O V F r o m L h e i r i n L e r r l a l , r e l D r e s e n t , a L J e n ~ w h J c b a l i e n s

l h e i r e a s y a n d f a s L a u b o m a b i e b r e a L m e n L ,

i n t o a n e x t e r n a l r e p r e s e r l L a L l o n a n d p r i n L s t h e n l o u L . F o r L h . t s e x t , e r n a i r e p r e s e n L a L l o n L h e n o L a t , i o n i s u s e d w h i c h w a s : i n t : r a d u c e d a b o v e :in L h e d e f ' i n J l : i o n s off t h e l:wo t. y p e s oF s u b s t , i i u L i o n i n , s L r u c L i o n s . F . t n a ] ] y TOI)SE [ s l a t e s L h e ~ I] a [~ £ ill? ~, J o n e i n an e x b e r n s ] k n o w l e d g e b a s e , F r o m i ~ h i e h L h e y c a n I s l e t be

r e a d b y t. h e o L h e r |.wo c o m p o n e n L s off P R I S M

( I n L h e l < r l o l l / l e d q e b a s e L h e J. n s b r L i c L J , o n s a r e

s e a r e d J. rl t h e J . r i n L e t ' n a ] t ' e p r e s e n L a L i o n ) . T h e s p p ] l c a L l o n c o m p o n e n t , s L a r L s ~ / J t h E R O I ) S E I , ~ h J e h l o a d s a s e t . of" i n s b r u c L i o n s I-o b e n p p J i e d F r o m L h e k n o w l e d g e b a s e l o L h e e e n L r a l m e m o r y . T h e n l. h e Ewe p r o c e d u r e s A P P L Y a n d D E R I V E a p p l y L b e i n s t , I . ' u e t : i o n s Lo ~ / o r d e g i v e s b y L h e u s e r a n d L h e r e b y g e n e r a L e L a r g e l . s i~/hJch a r e ~ l J r i t : L e n t o a n o u L p u L d a t a s e t : . [ h e I< i. n d o f m o r p h o l o g i c a l r e l a L J , e n b e L w e e n b h e g e n e r a b e d L a r g e t - s a n d t. he g i v e n w a r d s d e p e n d s on l. he a p e e i f J , c s e e af` Jn-- s L [ ' u c l , J o n a w h i c h i s a p p l i e d .

4 . ~ _ L a L u ~ L L ~ n ~_r L±£_Sy,,~Lem

[ h e p e r f ` o r m a n e e of" P R I S M ~J/as e v a l u a L e d L l n d e r t h e Fo],J. u w i n g c o n d i t . : i o n s .

] . A s e e oF i n s L r u c l . J o n e s t l o u . ' [ d a l w a y s g e n e r a t , e c o r r e c t . L a i ~ g e f . s i f ' i L l a a p p l l e d Lo t. he s o u z ' c e s of" L h e l e a r n i n g c o r p u s F r o m u / b i c h i L w a s i n f e r r e d .

(4)

p a r t i c i p a t e

in the

g i v e n

m o r p h o l o g i c a l

r e l a t i o n ) .

3. A

set

of i n s t r u c t i o n s i n f e r r e d From

a

l i n g u i s t i c a l l y

r e p r e s e n t a t i v e

l e a r n i n g

c o r p u s

s h o u l d

g e n e r a t e c o r r e c t

t a r g e t s

for at ].east 90% of the s o u r c e s w h i c h are

not e l e m e n t s off the l e a r n i n g c o r p u s

(but

w h i c h

n e v e r t h e l e s s

p a r t i c i p a t e

in

the

m o r p h o l o g i c a l

r e l a t i o n s h i p u n d e r d i s c u s -

sion).

4. If

a

l i n g u i s t i c a l l y

r e p r e s e n t a t i v e

l e a r n i n g

c o r p u s is given,

the

l e a r n i n g

a l g o r i t h m

s h o u l d

c l a s s i f y

as

r e g u l a r

t h o s e

m o r p h o l o g i c a l

p a t t e r n s

w h i c h

l i n g u i s t s

a l s o

u s u a l l y

c l a s s i f y

as

r e g u l a r .

C o n d i t i o n i is f u l f i l l e d .

This c o u l d be

p r o v e d

d e d u c t i v e l y

w i t h r e f e r e n c e

to

the

s t r u c t u r e

of the l e a r n i n g

a l g o r i t h m .

(The

p r o o f is g i v e n in W o t h k e 1985, 1 4 4 - 1 5 4 . )

The

f u l f i l m e n t of c o n d i t i o n s 2-4 c o u l d

o n l y

be

t e s t e d

i n d u c t i v e l y

by

a p p l y i n g

P R I S M ' s

l e a r n i n g

a l g o r i t h m

to

d i f f e r e n t

l e a r n i n g c o r p o r a a n d e v a l u a t i n g the r e s u l t s .

C o n d i t i o n 2 was t e s t e d by a p p l y i n g

the

l e a r n i n g

c o m p o n e n t

t o

l e a r n i n g

c o r p o r a

of

d i f f e r e n t s i z e s c o m p i l e d For two m o r p h o l o g i -

cal r e l a t i o n s :

d e r i v a t i o n of n o m i n a a c t i o n i s

from

v e r b s in G e r m a n (e. g.:

" b e t r e u e n " ->

" 8 e t r e u u n g ' ) ,

d e r i v a t i o n

of

Female

n o u n s

from

m a l e

n o u n s

in

F r e n c h

(e. g.:

" s p e c t a t e u r " ->

" s p e c t a L r i c e ' ) .

W i t h

the

s e t s

of

i n s t r u c t i o n s i n f e r r e d

from

t h e s e

l e a r n i n g

c o r p o r a P R I S M ' s

a p p l i c a t i o n

com-

p o n e n t

g e n e r a t e d t a r g e t s for a set of w o r d s

not in the l e a r n i n g c o r p o r a . The s t a t i s t i c a l

r e s u l t s of t h e s e t e s t s s h o w e d that the

p e r -

c e n t a g e

of c o r r e c t l y g e n e r a t e d t a r g e t s

For

s u c h

s o u r c e s

as

are not e l e m e n t s

of

the

l e a r n i n g c o r p u s is,

on a v e r a g e ,

the h i g h e r

the l a r g e r the l e a r n i n g c o r p u s is. A F u r t h e r

i m p o r t a n t r e s u l t was that the p e r c e n t a g e

of

c o r r e c t l y

g e n e r a t e d

t a r g e t s is

t h e

h i g h e r

the m o r e r e g u l a r the m o r p h o l o g i c a l

r e l a t i o n

is: The t e s t s y i e l d e d b e t t e r r e s u l t s For the

m o r e r e g u i a r d e r i v a t i o n of F e m a l e n o u n s from

m a l e

n o u n s

in

F r e n c h than

For

the

less

r e g u l a r

d e r i v a t i o n of n o m i n a a c t i o n i s

Form

v e r b s in G e r m a n .

To

test

the F u l f i l m e n t of

the

t h i r d

c o n d i t i o n

r e p r e s e n t a t i v e

l e a r n i n g

c o r p o r a

w e r e m a n u a l l y c o m p i l e d For the d e r i v a t i o n of

n o m i n a

a c t i o n i s From v e r b s in G e r m a n (9.167

s o u r c e - t a r g e t - p a i r s )

and For the

d e r i v a t i o n

of

f e m a l e

n o u n s from m a l e n o u n s in

F r e n c h

(89

s o u r c e - t a r g e t - p a i r s ) .

The two s e t s

of

i n s t r u c t i o n s

a u t o m a k i e a l l y

i n f e r r e d

from

t h e s e two c o r p o r a w e r e a p p l i e d Lo l a r g e sets

of

s o u r c e s

w h i c h w e r e not m e m b e r s

of

the

l e a r n i n g

c o r p o r a ( 4 . 7 9 3 s o u r c e s for G e r m a n ,

211 s o u r c e s for F r e n c h ) .

In b o t h c a s e s

the

p e r c e n t a g e

of

c o r r e c t l y g e n e r a t e d

t a r g e t s

was iOO~.

C o n d i t i o n

4 was t e s t e d

w i t h

l e a r n i n g

c o r p o r a

for

the p l u r a l i z a t i o n

of

E n g l i s h

n o u n s and For the d e r i v a t i o n of f e m a l e n o u n s

from m a l e n o u n s in F r e n c h .

An e x a c t q u a n t i -

f i c a t i o n

of

the d e g r e e of a c c u r a c y is

not

p o s s i b l e , s i n c e this c o n d i t i o n c o n t a i n s s o m e

v a g u e e x p r e s s i o n s s u c h as

" r e g u l a r "

and

" u s u a l l y "

My s u b j e c t i v e j u d g e m e n t is

that

the i n s t r u c t i o n s c o n s t r u c t e d by the l e a r n i n g

a l g o r i t h m For ( a p p r o x i m a t e l y )

r e p r e s e n t a t i v e

c o r p o r a are q u i t e s i m i l a r to the m o r p h o l o g i -

cal

r e g u l a r i t i e s d e s c r i b e d

in

t r a d J t i o n a I

g r a m m a r s .

This may be i l l u s t r a t e d by an ex-

ample: The l e a r n i n g c o r p u s s h o w n in F i g u r e

is

a p p r o x i m a t e l y

r e p r e s e n t a t i v e

for

the

r e g u l a r

p l u r a l i z a t i o n p a t t e r n s

of

E n g l i s h

nouns.

F r o m

this c o r p u s P R I S M i n f e r r e d the

F o l l o w i n g

set

of

i n s t r u c t i o n s

w h i c h

r e p r e s e n t

the m o s t i m p o r t a n t

p l u r a l i z a t i o n

r u l e s :

( l ) " - > " / #

( 2 ) " f " -> ' y e s ' / # ( 3 ) " r e " -> " y e s . ' / #

( 4 ) " y "

->

" i e s ' / ( " d ' l

" l ' i

" p ' i ' r ' ~ " t ' ) # ( 5 ) ' ' --> " c a ' / ( "oh ' i " s h ' t " s ' l " x ' [ "z " ) #

(6)

" ' ->

" s ' /

__I

#

F i g u r e 4.

5.

U n s o l v e d

P r o b l e m s

- The

F o r m a l i s m

w h i c h P R I S M uses For

the

r e p r e s e n t a t i o n

of

the

i n s t r u c t i o n s

is

d e s i g n e d For the d e s c r i p t i o n of g r a p h e m i e

c h a n g e s

at: tile b e g i n n i n g a n d / o r

at

the

end

of

a word.

Thus this F o r m a l i s m

Js

i n a d e q u a t e For the d e s c r i p t i o n o£ c h a n g e s

in the i n t e r i o r of a

word.

These,

how-

e v e r , o c c u r m o r e r a r e l y t_han t~he c h a n g e s at: t h e b e g i n n i n g o r a t t h e e n d . A s o l u - t i o n t o t h i s p r o b l e m , w h i c h c o u l d c o n s i s t . i n t h e d e s i g n o f a new F o r m a l i s m w h o s e e x p r e s s i o n s c o u l d a l s o be ] . e a r n e d a u t o m a t i c a l l y , has n o t as yet: b e e n F o u n d .

P R I S M

c a n n o t

r e c o g n i z e e x c e p t i o n s in

a

l e a r n i n g

c o r p u s

and

t r e a t

them

a d e q u a t e l y .

I f ,

for

i n s t a n c e ,

the

l e a r n i n g

c o r p u s

in F i g u r e 1 w o u l d

also

c o n t a i n

the

p a i r

( ' g o o s e ' ,

" g e e s e ) ,

P R I S M w o u l d infer the p r e f i x a l

s u b s t i t u -

tion

i n s t r u c t i o n

"goo" -> "gee'/#

and

i n s e r t

it

in

the set

of

i n s t r u c t i o n s

s h o w n in F i g u r e 4 b e f o r e i n s t r u c t i o n

(1).

F u r t h e r m o r e

P R I S M w o u l d infer

the

suf-

Fixal

i n s t r u c t i o n

" ' -> ' " / ' o s e " # and

i n s e r t it b e f o r e i n s t r u c t i o n

(3). IF this

new set of i n s t r u c t i o n s is a p p l i e d to the

n o u n s "good',

"goodness" and "goon"

the

i n c o r r e c t p l u r a l s

"geeds',

" g e e d n e s s e s "

and

"gowns' are g e n e r a t e d .

- It w o u l d be

p r e f e r a b l e

for P R I S M to i d e n t i f y

e x c e p -

t i o n s as such and s t o r e them in a list of

e x c e p t i o n s

i n s t e a d

of

i n f e r r i n g

o v e r g e n e r a l i z i n g

i n s t r u c t i o n s from them.

If

a set of i n s t r u c t i o n s

is

l i n g u i s t i -

c a l l y i n a d e q u a t e ,

the user of P R I S M m u s t

First

m a k e

the

l e a r n i n g

c o r p u s

m o r e

r e p r e s e n t a t i v e

by a d d i n g s u i t a b l e

e x a m -

plea.

Then he m u s t a c t i v a t e the l e a r n i n g

c o m p o n e n t of P R I S M ~ h i c h i n f e r s a t o t a l l y

new s e t

of

i n s t r u c t i o n s .

P e r h a p s

it

(5)

L i o n s

w i L h

t h e

f i o r m e r l y

i n f e r r e d

and

l J n g u i s L i e a l l y

i n a d e q u a L e

J n s L r u e L i o n s

Lo g i v e

a n e w ,

m o r e a d e q u a L e s e L off i n -

s t r u c L i o n s .

R e f e r e n c e s

C o h e n ,

P.

R . / F e i g e n b a u m ,

E.

A.

( E d s , )

( ] 9 8 2 ) :

l h e

h a n d b o o k o f a c t i f l i e i a ]

J n -

L e l l i g e n c e .

V o l .

3. L o n d o n .

J a n s e n - W i n l < e l n ,

R.

M.

( 1 9 8 5 ) :

I n d u k L J v e s

k e z ' n e n v a n q['ammaL:i.l<iregeln a u s a u s g e w ~ i ~ . [ -

L e n B e i s p i e l e n .

I n :

S a v o r y ,

S. E.

( E d . )

( 1 9 8 5 ) :

K ~ n s t l i c h e

I n L e l J i g e n z

u n d

E x p e r -

L e n s y s t o m e .

[_in

P o r s c h u n g s b e r J

chL

d e r

NJ. x d o r F AG,

2nd e d ,

M[inchcn/WJ. e n ,

PP.

211 223.

O a k e y ,

S . / C a w l h o r n , R. [:. ( ] 9 8 1 ) : I n d u c t i v e

] e a r n i n g

o f

p r o n u n e i a f . / o n

r u l e s

by

h y p o t , h e s L s

I. e s L i n g

a n d

c o r r e c t , i o n .

In:

P r o c e e d i n g s

o f

Lhe

7Lh

I n L e z ' n a L i a n a l

g p i n t :

[ : o n F e r e n c e

on

A r L J f J c L a l

[ n -

L e l ] i g e n c e .

A u g u s L

1 9 8 1 .

V o l .

1.

PP. ] 0 9 - 1 1 4 ,

P i n k e z " 9 S. ( ] 9 7 9 ) :

F o r m a l

m o d e l s off ] a n g u a g e

[ e a r n i n c l .

I n :

( : o g n i L i o n

3. PP. 2 1 7 - 2 8 3 .

R i n g ~

II.

( 1 9 7 8 ) :

PEI. IKAN - e J n L e [ ' n s y s l e m

f d r

[ i n g u J s L i s c h e

l < l a s s i F t k a L i o n s

-

a ] g o r i L h m e n .

I n :

N a c h ] ' i e h t - e n

fldz" D o k u m e n -

Lat. i o n 6 . PP. 2 2 4 - 2 2 6 .

W o i f ~

E.

( ] 9 7 7 ) :

Vom B u c h s L a b e n zum L a u t . .

M a s c h i n e L ] e

E r z e u g u n g

und E r p t ' e b u n g

y o n

U m s e L z a u L o n l a L e n

am O e i s p i e l

Scht'J F L e n g -

l J s c h

P h o n o . l o g J s e h e s

t . ~ n g l i s c h .

B r a u n s e h l ~ e i g .

WoLhke~ K, ( 1 9 8 4 } :

PRISM U s e r ' s

G u : i d e . B o n n .

(= I K P - A ~ b e i t . s b e ] ~ i e l l L No.

5)

Wot. h k e , K. ( 1 9 8 5 ) :

M a s c h i n e l ] . e

£ r l e r n u n g

und

Simu.[ aL i(~n

m o r p h o . [ o g i s c h e r

Ab] e i L u n g . s r e -

g e l n .

B o n n .

( D o c L o r a ]

d i s s e l ~ t a L i o n ) .

A det. a J l e d

t : r e a L m e n L off Lhe [ h e m e d e a l L

~ J L b

i r l f i h i s papeL" i s g i v e n

i n Wot:hke ( 1 9 8 5 ) .

References

Related documents