MACHINE LEARNING OF MORPHOLOGICAL
R U L E S
BY
GENERALIZATION AND ANALOGYK l a u s W o t h k e
A r b e i L s s L e ] l e L i n g u i s L i s c h e D a L e n v e r a r b e i L u n g
I N S T I [ U I FOR DEUTSCHE SPRAI;HE
M a n n h e i m ,
West.G e r m a n y
ABSTRAI:T:
1 h i sp a p e r
d e s c r i b e s ane x p e r i -
m e n L a l p r o c e d u r e For Lhe i n d u c L i v e a u L o m a L e d
l e a r n i n g
of m o r p h o l o g i c a l
r u l e s From
exam-
ples.
At First an ouL].irle of Lhe p r o b l e m is
given.
Then
a F o r m a l i s m for Lhe
r e p r e s e n -
t.
a r i a n
o f m o r p h o l o g i c a l r u l e s i s d e f i n e d . T h i s F o r m a l i s m i s u s e d by Lhe a u L o m a L e d p r o c e d u r e , w h o s e anaLomy Js s u b s e q u e n t l y p r e s e n t , e d . F i n a l l y t. he p e r f o r m a n c eof
t. he s y s L e m i s e v a l u a t , ed and Lhe mosL i m p o r t a n t . u n s o l v e d p r o b l e m s a r e d i s c u s s e d .l . O u L l i n e o f Lhe P r o b l e m
L e a r n i n g
a l g o r i t h m s
for
Lhe
d o m a i n
of
n a L u r a i
l a n g u a g e s w e r e in Lhe
pasL
m a i n l y
d e v e l o p e d to model Lhe a c q u i s i t i o n of s y n L a x
and
Lo g e n e r a L e s y n L a c L J c d e s c r i p L i o n s
flrom
e x a m p l e s (eL. P i n k e r 1979~
C o h e n / F e i g e n b a u m
] 9 8 2 : 4 9 4 - 5 ] ] ) . T h e r e e x i s t a l s o some s y s -Lems
w h i c h
l e a r n rules for
Lhe
a u L o m a L i e
p h o n e t i c L r a n s c r i p L i o n off o r L h o g r a p h i c LexL
(eL.
Oakey/Cawt:horn 1981,
W o l f 1977). Like
the s y s t e m p r e s e n L e d in L h i s p a p e r all L h e s e
s y s t e m s s L i l l are e x p o r i m e n L a l s y s L e m s ,
the
i n d u c t i v e
a u L o m a L i c l e a r n i n g of m o r p h o l o g i ~
c a l r u l e s has L i l l now b e e n i n v e s L i g a L e d o n l y Lo a s m a l l d e g r e e . R e s e a r c h on L h i sp r o b l e m
was
c a r r i e d
out by
Ring
(1978),
3 s n s e n - W J n k e l n(]985)
and Wofhl<e(1985).
The t a s k of' Lhe s y s L e m d e s c r i b e d h e r e i s Lo l e a r n r u l e s f ' o r i n f l e c L i o n a ] and d e r i v a L i o n a l m o r p h o l o g y . The s y s t e m
is
naL d e s i g n e d as a s L a n d a r d p r o g r a m , b u t as an e x p e r i m e n L a l s y s t e m . I t ] s u s e d F o r Lhe e x - p e r i m e n L a ] d e v e l o p m e n t and t, he L e s l i n g o f f u n d a m e n L a l a ] g o r i L h m i c l e a r n i n g st. r a t . e g i e s . Lat. e r t h e s e s L r a t e g i e s c o u l d p e r h a p s become n e c e s s a r y c o m p o n e n t s o f a s t a n d a r d ] . e a r n i n g p r o g r a m d e v i s e d F o r Lhe i n t e r a c L i v e d e v e l o p - menL off ] i n g u i s L J c a l g o r i t h m s F o r Lhe d o m a i n o f m o r p h o l o g y .I n p u t : Lo Lhe s y s L e m i s a seL o f e x a m - p l e s c a l l e d a l e a r n i n g c o r p u s . Each e x a m p l e i s an o r d e r e d p a i r o f w o r d s .
We
c a l l t h e f ' i r s L w o r d o f e a c h p a i r Lhe s o u r c e . [ h e s e c o n d w o r d i s c a l l e d Lhe t. a r g e L . BeLween t h e s o u r c e and Lhe L a r g e L o f e a c h g i v e n p a i r L h e r e musL e x i s t : an i n f l l e c t , i o n a l o r a d e r i v a t i o n a l m o r p h o l o g i c a l r e l a L i o n . By ap-. p l y i n g t. he p r o c e s s e s o f g e n e r a l l z a L i o n and d e L e c L i o n a n a l o g i e s Lhe s y s t . em has t o c o n - s L r u c L a seL o6 i n s L r u c L i o n s w h i c h d e s c r i b eon
a p u r e l y g r a p h e m i c b a s i s how Lhe
L a r g e L
of
e a c h pair is g e n e r a L e d From the
s o u r c e .
( S e m a n L i c
f e a L u r e s o f m o r p h e m e s a r e aL p r e s e n L i g n o r e d by Lhe s y s L e m . ) Such a seLof
i n s k r u c L i o n s
s h o u l d not
o n l y
g e n e r a L e
c o r r e c L L a r g e L s For the s o u r c e s g i v e n in the
l e a r n i n g
c o r p u s :
The
i n s L r u c L i o n s
s h o u l d
a l s o g e n e r a L e c o r r e c L t a r g e L s for Lhe m a j o r -
iLy
of
Lhes o u r c e s not in Lhe c o r p u s
w h i c h
p a r t . i c J p a L e i n Lhe same i n f l e c t i o n a l o rd e r J v a L i o n a l
r e l a L i e n s h i p
as
Lhes o u r c e -
L a r g e L - p a i r s Jn Lhe l e a r n i n g c o r p u s . S u p p o s e
For e x a m p l e LhaL Lhe F o l l o w i n g l e a r n i n g cor-
pus is Fed JnLo Lhe s y s L e m :
" a s s e m b l y ' " b a L h " b o x " " b o y " " b u s " " b u s h " b u z z " c a l f " c o p y " c r y " " d o o r " F i e l d " ' h o u s e ' " k n i f e " " l a d y " " m o L h e r " " s w i L c h ' " u n i v e r s i L y "
" a s s e m b l i e s " " b a L h s " " b o x e s " " b o y s "
b u s e s " b u s h e s b u z z e s c a l v e s
c o p i e s
c r i e s " d o o r s " " f i e l d s " h o u s e s " k n i v e s " l a d l e s " m o L h e r s ' " s w i L c h e s ' " u n J v e r s i L J e s " F i g u r e ].
I n t. h i s c a s e kilo l e a r n i n g a l g o r i L h m has Lo c o n s L r u c l a set. off i n s t . r u e L i o n s w h i c h g e n e r - a l e s f i o r e a c h s i n g u l a r n o u n (= SOLirce~ i n Lhe l e F L c o l u m n ) of: L h i s c o r p u s a s L r i n g w h i c h i s i d e n L i c a l w.tLh t. he c o r r e s p o n d i n g p l u r a l Form (= L a r g e L , i n t h e r i g h L c o l u m n ) . F u r L h e r m o r e , Lhe i n s t . r u c L i o n s s h o u l d a l s o
generat, e
Lhe
c o r r e c L
p l u r a lForm
For
Lbe
m a j o r i L y of E n g l i s h singu].ar n o u n s w h i c h are
not, m e m b e r s off Lhe l~arnirlg c o r p u s .
For in-
s e a n c e , Lhe i n s l r u c l , i o n s s h o u l d a l s o g e n e r - aLe " f l i e s " f'rom " f i [ y ' , " L a b l e s " f'rom" L a b l e ", " f o x e s " f r o m " f o x ", " l a y s " f r o m "Lay ", " c l a s s e s " From " ( ; l a s s ' , and " t h i e v e s " From " L h i e f ' . Of c o u r s e L h e r e w i l l a l s o be s i n g u l a r n o u n s F o r w h i c h Lhe . t n s L r u c L i o n s w i l l noL be a d e q u a L e . T h e s e w i l l i n c l u d e a l l n o u n s w h o s e p a L L e r n off p l u r a l i z a L i o n i s n o t r e p r e s e n L e d by e x a m p l e s i n Lhe l e a r n i n g c o r - p u s . WiLh t. he g i v e n l e a r n i n g c o r p u s one
c o u l d n o t e x p e c t t h e i n f e r r e d i n s t r u c L J o n s
to be adequat, e e. g. For t h e p l u r a l i z a t i o n s
" o x "
- >
" o x e n ' ,
" L o o L h "
- >
" t e e L h ' ,
" i n d e x "
- > " i n d i c e s ' ,
" f o o t "
- > " f e e L " ~ a n d
" a d d e n d u m "
- >
" a d d e n d a ' .
As
L h i s
e x a m p l e
i l l u s t r a t e s ,
t h e l i n g u i s t i c
a d e q u a c y of" t h e
i n s L r u c L i o n s
d o e s
n o t o n l y
d e p e n d
on
t h e
q u a l l L y
o f t h e a u t o m a t e d
l e a r n i n g
s L r a t e g i e s
b u t
a l s o
on t h e r e p r e s e n t a t i v i t y
off a g i v e n
] e a r n i n g
c o r p u s
f o r
a m o r p h o l o g i c a l
p a t t e r n .
2, F o r m a l i s m for
t h e
R e E r e s e n t a t i o n ofMe
r ~ h o ~ i c
a l
R u l e s] h e r e are two m a i n t y p e s of i n s t r u c t i o n t h e
l e a r n i n g a l g o r i t h m u s e s for the f o r m u l a t i o n
of m o r p h o l o g i c a l r u l e s :
P r e f i x a l s u b s t i t u t i o n i n s t r u c t i o n s c h a n g e
t h e b e g i n n i n g of a s o u r c e in o r d e r to
g e n e r a t e t h e c o r r e s p o n d i n g t a r g e t . ] h e y
h a v e Lhe g e n e r a ]
]'arm
X - > Y / # ( Z ( 1 ) l . . . I Z ( i ) f . . . ~ Z ( n ) ) .
Such
an i n s t r u c t i o n
m e a n s :
Ifa
s o u r c e
b e g i n s
w i t h
L h e
s t r i n g
X
and
J fi
immedJ, a t e l y
on t h e r i g h t
ofX f o l l o w s
t h e
s t r i n g
Z ( ] . ) o r
. . .
o r Z ( i )
o r . . .
o r
Z ( n ) ~
t h e n
s u b s t i t u t e
X
by
Y.
( ' # "
s i g n i f i e s
t h e
w o r d - b o u n d a r y
a n d
m a r k s
t h e p o s i t i o n
w h e r e X m u s t o c c u r
i n
o r d e r
Lo be s u b s t i. L u t a b l e
by Y, n a m e l y a t
Lhe b e g i n n i n g
sl' a s o u r c e
( r i g h t
off
" #" )a n d
i m m e d i a t e . } y
b e f o r e
Z ( 1 )
o r . . .
o r
Z ( ] . ) or
. . .
at" Z ( n ) ) .~ u f f l i x a . l
s u b s t J , t u L i o n
] n s t r u c L J o n s
c h a n g e
t h e e n d o f a s o u r c e
i n o r d e r
t o
g e n e r a t e
t h e
c o r r e s p o n d i n g
t a r g e t .
I h e y h a v e t h e
f o r m
X -> Y / ( Z ( ] ) I ... IZ(J)I ... IZ(n)) #.
rhe m e a n i n g off s u c h an i n s t r u c t i o n .is:IF
a s o u r c e e n d s w i t h t h e s t r i n g X and if
i m m e ( l i a L e l y
on
L h e
l e f t :o f
X
ist h e
str.tng Z(1) or ... or Z(i) or . . . o r Z ( n ) , t h e n s u b s t i t u t e X by Y.
E a c h seE of" i n s t r u c t i o n s c o n s t r u c t e d by the
l e a r n i n g a l g o r i t h m Js o r d e r e d , i. e. the
l a t e r a p p l i c a t i o n of the i n s t r u c t i o n s to a
g i v e n s o u r c e m u s ~ be t r i e d
i n
a f i x e ds e q u e n c e in o r d e r to g e n e r a t e a t a r g e t : The
f i r s t a p p l i c a b l e prefiixa]
i n s t r u c t i o n
in thes e q u e n c e
of p r e f i x a l s u b s t i t u t i o ni n s t r u c t i o n s m u s t be d e t e r m i n e d and the
f i r s t a p p l i c a b l e s u f f i x a l i n s t r u c t Jan in the
s e q u e n c e
of s u f f i x a l s u b s L i t u t i o ni n s t r u c t i o n s m u s t be d e t e r m i n e d . T h e n , b o t h
m u s t be a p p l i e d to t h e s o u r c e c o n c u r r e n t l y ,
t h u s g e n e r a t i n g the t a r g e t .
the o r d e r a n d a p p l i c a t i o n of s e t s of
i n s t r u c t i o n s m a y be i l l u s t r a t e d by a s m a l l
e x a m p l e : S u p p o s e t h e l e a r n i n g a l g o r i t h m h a s
c o n s L r u c t e d L h e F o l l o w i n g set of
i n s t r u c t i o n s for t h e n e g a t i o n of E n g l i s h
a d j e c t i v e s (the
s e L i s
l i n g u i s t i c a l l y noLF u l l y
a d e q u a t e ;
""
i s t h e n u l l s ] r i n g ,
i .
e.
t h e s t r i n g
w i L h t h e l e n g t h
0 ) :
] )
->
2)
->
~ )
_>
a )
- >
5) ->
F i g u r e 2.
i l ' / #
" l "
i r ' / #
- - ' r "
i n " / # - ~ ( "
m" I" p"
)i n " / # . _ _
" /
#
Then
t h e n e g a t i o n
o f
" p e r f e c t '
isF o r m e d by
F i r s t
d e t e r m i n i n g
t i l e
f J r s L
a p p l i c a b l e
p r e f l J x a ]
s u b s t i t u L i o n
i n s t r u c t
i. o n :
( l )
isn o t a p p l i c a b l e ,
s i n c e
" p e r f e c t "
d o e s noL b e g i n
w i t h
" 1 " .
( 2 )
i s n o t a p p l i c a b l e ,
s i n c e
' p e r f e c t : "
d o e s n o t b e g i n
w i t h
" r ".
( 3 ) i s o p p ] . J e a b l e ,
s i n c e
" p e r f e c t "
b e g i n s
w i t h
"p ",The
f i r s t
a p p l i c a b l e
s u f f l i x a l
s u b s t : i t : u t J o n
i n s t r u c t i o n
Js t h e o n l y
s u f f i x a l
: i n s t r u n L J o n
at. h a n d , n a m e l y ( 5 ) :
" p e r f e c t "
e n d s w i L h
" ' .
By t h e c o n c u r r e n L
a p p . I J c a t i o n
o f ( 3 ) a n d ( 5 )
t o
" p e r f e c t
"
t h e
t a r g e t
' i m p e r f e c t
"
Js
g e n e r a t e d ,
w h i c h
] s
t:he
n e g a L i o n
o f
" p e r f e c t
".
3, A n a t o m y
o f t h e S y s t e m f o r
t h e
A u f o m a l n d
L e a.£ni r£~_9 fi _M o ~_tip~11 p £ i c s l R u ]
e sl h e
s y s L e m
Js w r i t t e n
J.n
t h e
p r o g r a m m i n g
l a n g u a g e
P L / I .
I t
h a s t h e name PRISM, w h i c h
is an a c r o n y m
f o r
" P R o g r a m For tile I n f e r e n n cand S J m u l a L i o n of' M o r p h o l o g i c a l ru].es'.
P R I S M h a s
t h e
m a c r o s t r u c t u r e s h o w n JnF i g u r e 3. At an a c t J v a t ion of P R I S M , its
m a i n p r o c e d u r e M O N I T O R at f i r s t a c t i v a t e s
G E T O P T N ~lhJch r e a d s ]:he u s e r ' s o p t i o n s For
|111o c o n t r o l of P R I S M and c h e c k s t h e m for
s y n L a c t J c
we] ] . - F o r m e d n e s s
a n d
F o r
p l a u s : i h i l J t y o
[ h e nMONIIOR
a c t i v a f e s
Lhec o m p o n e n t
i n d i c a L e d
by t h e
u s e r "S
C O l / i r e ]o p t i o n s . ~ h e r e are t h r e e a l t e r n a t i v e
c o m p o n e n t s :
- A l e a r n i n g c o m p o n e n t w h i c h i n f e r s s e l s of
J n s t r u e l J o n s F r o m a ] e a r n i n g c o r p u s g J v e e
by
t h e
u s e r o f
P R I S M .Th:is
c o m p o n e n t
c o m p r i s e s
t h e p r o c e d u r e s
I:ItKCRPS, DISCOV,
STMT[}UT, TODSE], a n d o t h e r s .
] h e l e a r n i n g
p r o c e s s
i s p e r f o r m e d
by DIS('OV.
The o t h e r
p r o c e d u r e s
p e r f o r m
p e r i p h e r a l
f u n c t i o n s .
A
c o m p o n e n L
F o r
t h e
a p p l : i c a t i o n
o f
i n s t r u c t i o n s
~ h i c h
w e r e i n f e r r e d
by
t h e
] . e a r n i n g
c o m p o n e n t ,
l h i s
c o m p o n e n t
c o m p r i s e s
t h e p r o c e d u r e s
F R O D S E ] ,
APPLY,
D E R I V E , a n d o t h e r s .
A
t h i r d ,
m a r g i n a l
c o m p o n e n t
w h i c h
p r e p a r e s
i n s t r a c t i o n s
F o r t h e i r
p r i n t o u t .
I L
c o n s i s t s of F R O D S E [ , S I M ] O U ] , a n do t h e r p r o c e d u r e s .
The aet:J v a t ] o n of the l e a r n i n g
a l g o r i t h m s t a r t s w i t h a c a l l of C H K C R P S by
M O N I T O R . CHK(}RPS c h e e k s a g i v e n l e a r n i n g
c o r p u s for f o r m a l e r r o r s . The p r o c e d u r e
a c t i v a t e d next. is D I S C O V ~ w h i c h p e r f o r m s the
l e a r n i n g p r o c e s s e s . DISI'OV f i r s t d e t e r m i n e s
L h e d i f f e r e n t t y p e s o f s u b s t i t u t i o n p a t t e r n s
"1 . . . 4 " -I ... I" ! M 0 N I I 0 R ! . . . > t GETOPTN 4 .. . . f I r + + . . . +
V V V
. . . < . . . + ! + . . . > . . . ~_
V V V
] . e a r n . i . n g of" a p p ] . i c a L i o n of" p r i n L e u t o f
L n s l : r u c L J o n e i net: r LIC t: J. o n e i r / s l : r u u L i o n a
! + . . . + ! -J .. . . + + . . . j. !
+ - > ! CIIt<CRPS ! + - > ! FRODSFT ! ! P R O D S E I ! < - +
! + ... + < = = = = / / ! + . . . . . . . . . . F < = = = = = / / = = > + ... + !
! / I.EARN1NG / ! / K N O W L E D G E / !
! -P . . . ,- / CORPUS / ! ~ . . . ~. / BASE / + . . . + !
+ - > [ D I S C O V ! < = / + - > ! APPLY ! < = = / / ! S I M I O U T ! < - - ,
! -P . . . i ~ + . . . F + . . . +
! + . . . + V
+ - > ! SIMTOUT ! / / + . . . + / /
! .i .. . . + / S O U R C E S / = > ! D E R I V E
!=>I
T A R G E r S /! / / + . . . + / /
! "l . . . F
+ - > ! I OI)SET ! = > KNOWLEDGE / + . . . + / BASE /
/
/
F . i g u r e , 3 . M a c r o e L r u c L L i r e e l P R I S M . ( F o r r e a s e l l s oF l u e J d i L y some m a c r o F e a t L I r e s
o f P R I S M h a v e b e e n . i g n o r e d i n L h i s c h a r t . )
s u b s t , i L u L : i en p s i : b a r n s a c e E h e d i F f e r e n L ( X , Y ) - p a i r s w h i c h a r e i m l ) l i c i L l y p r e s e n L i n L h e l e a r n J , og c a r p u s . ( F o r L h e e L a b u s of` X a n d Y c e m p a r e L h e d e F : i n i L i o n oF t h e f o r m a l . J a m I ' o r L h e r e p r e e e n L a t i o n oF m e r p h o l a g J c:a.l r u J e s o ) [ t i e s e c o n d s t : e p o f [) I S(~(]V c e m p L i L e s L h e f r e q u e n c y ef` e a c h
s u b s t . . i L u L i o n p a t L e r n i n I:he e o r t J a s . D ] S I ~ E ] V ' s l e a r n i n g st. r a L e g y p r e s u r ) p o s e s L h a L L h e s u b s b J l L l t : . i e r l p a [ : ~ : e r n s o e e t l r r J n g m o r e I r e q u e n f ] . y Jn a ] a n g u a g e a l s o e e c u r m o r e F r e q u e n t l y J n L b e ] e a r n : i n g c o r p u s . I h e r e f ' o r e D1SCOV c r e a t e s m o r e g e n e r a l J. n s t . r u e L i o n a P e r L h e m a r e f ' r e q u e n t p o L L e r n a of" a l e a r r l i o g c o r p u s a n d m o r e s p e c i f i c ]liSP. s u r E : b O l l S f o p L h e ] . e n s f ' r e q u e n L p a t L e r n s oF o l e a r n i n g c o r p u e ~ J . o . t h e c o n L e x L u o ] s b r i n g e Z ( i ) of"
a n Jn,<;Lrue|:.i. or~ X --> Y / # ( Z ( ] ) ] ...
i Z ( : i ) ! . . . I Z ( n ) ) o r X - > Y ~ ( Z ( ] . ) I . . . t Z ( : i ) l . . . I Z ( n ) ) tt a r e l : h e m o r e g e n e r a l Lhe m o r e f r e q u e r l t , l y L h e e u b s L ~ t : u l : : i , o n p a t : L e F r ~ (X~ Y) a e e U r S o T h e y a r e b b e m o r e s p e e l f ' . i e [-.he m e r e r a r e l y t. he a u b s L J t. uL.i. on p a l : t , e r n o c c u r s . P r o v i d e d L h a L a l e a r n : i n g o o £ p u s JS r e p r e s e n l . a t : ] v e of" Lhe m o r p h o l a q i c a l S U b - a t J t . u L J o n p a l : t e r n s of` a ] . a n g u a g e a n d L h e c o n L e x L u a ] at. r i n g s Z ( J ) , t : h i e g e n e r a ] . s L r a t , e g y F a r L h e d e L e r m J e a L J o n o f ' t. he Z ( J ) 'a i n c r e a s e s t. he p r o b a b J l J L y t h a L t h e i n f e r r e d : i n s f . r ue I::i o n s g e n e r a t e c o r r e c t t a r g e L s F o r s u e h s o u r ( ' , e s a s a r e not. e l e m e n t s oF t, he g i v e r l ] . e a r r l i n g c o r p u s . D [ S C O V a r r a n g e s L h e s u b s L i l : u t J n n i n a L r u c t t o n , s i n s u c h a w a y t. bat. L h e m o r e n p e e i f ' J . e i n s t . r u e L J o n s p r e c e d e t:he m o r e g e n e r a l o d e s . r h i s o r d e r of` t h e i n - st. r u e L i o n s g u a r a n t , e e s d u r J . n g t, h e J r ] a l e r a p - p ] i c a L i o n L h a t : p o t , e r l L i a ] . l y e a c h t n s l . cL~et, i o l / c a n b e a p p l i e d . S I H T O U ] L r a n s f o r m s s u b s t : i t u - t. i o n i n s t r h l c L : i o n s i n f e r i t e d b y I ) I S ( : O V F r o m L h e i r i n L e r r l a l , r e l D r e s e n t , a L J e n ~ w h J c b a l i e n s
l h e i r e a s y a n d f a s L a u b o m a b i e b r e a L m e n L ,
i n t o a n e x t e r n a l r e p r e s e r l L a L l o n a n d p r i n L s t h e n l o u L . F o r L h . t s e x t , e r n a i r e p r e s e n L a L l o n L h e n o L a t , i o n i s u s e d w h i c h w a s : i n t : r a d u c e d a b o v e :in L h e d e f ' i n J l : i o n s off t h e l:wo t. y p e s oF s u b s t , i i u L i o n i n , s L r u c L i o n s . F . t n a ] ] y TOI)SE [ s l a t e s L h e ~ I] a [~ £ ill? ~, J o n e i n an e x b e r n s ] k n o w l e d g e b a s e , F r o m i ~ h i e h L h e y c a n I s l e t be
r e a d b y t. h e o L h e r |.wo c o m p o n e n L s off P R I S M
( I n L h e l < r l o l l / l e d q e b a s e L h e J. n s b r L i c L J , o n s a r e
s e a r e d J. rl t h e J . r i n L e t ' n a ] t ' e p r e s e n L a L i o n ) . T h e s p p ] l c a L l o n c o m p o n e n t , s L a r L s ~ / J t h E R O I ) S E I , ~ h J e h l o a d s a s e t . of" i n s b r u c L i o n s I-o b e n p p J i e d F r o m L h e k n o w l e d g e b a s e l o L h e e e n L r a l m e m o r y . T h e n l. h e Ewe p r o c e d u r e s A P P L Y a n d D E R I V E a p p l y L b e i n s t , I . ' u e t : i o n s Lo ~ / o r d e g i v e s b y L h e u s e r a n d L h e r e b y g e n e r a L e L a r g e l . s i~/hJch a r e ~ l J r i t : L e n t o a n o u L p u L d a t a s e t : . [ h e I< i. n d o f m o r p h o l o g i c a l r e l a L J , e n b e L w e e n b h e g e n e r a b e d L a r g e t - s a n d t. he g i v e n w a r d s d e p e n d s on l. he a p e e i f J , c s e e af` Jn-- s L [ ' u c l , J o n a w h i c h i s a p p l i e d .
4 . ~ _ L a L u ~ L L ~ n ~_r L±£_Sy,,~Lem
[ h e p e r f ` o r m a n e e of" P R I S M ~J/as e v a l u a L e d L l n d e r t h e Fo],J. u w i n g c o n d i t . : i o n s .
] . A s e e oF i n s L r u c l . J o n e s t l o u . ' [ d a l w a y s g e n e r a t , e c o r r e c t . L a i ~ g e f . s i f ' i L l a a p p l l e d Lo t. he s o u z ' c e s of" L h e l e a r n i n g c o r p u s F r o m u / b i c h i L w a s i n f e r r e d .
p a r t i c i p a t e
in the
g i v e n
m o r p h o l o g i c a l
r e l a t i o n ) .
3. A
set
of i n s t r u c t i o n s i n f e r r e d From
a
l i n g u i s t i c a l l y
r e p r e s e n t a t i v e
l e a r n i n g
c o r p u s
s h o u l d
g e n e r a t e c o r r e c t
t a r g e t s
for at ].east 90% of the s o u r c e s w h i c h are
not e l e m e n t s off the l e a r n i n g c o r p u s
(but
w h i c h
n e v e r t h e l e s s
p a r t i c i p a t e
in
the
m o r p h o l o g i c a l
r e l a t i o n s h i p u n d e r d i s c u s -
sion).
4. If
al i n g u i s t i c a l l y
r e p r e s e n t a t i v e
l e a r n i n g
c o r p u s is given,
the
l e a r n i n g
a l g o r i t h m
s h o u l d
c l a s s i f y
as
r e g u l a r
t h o s e
m o r p h o l o g i c a l
p a t t e r n s
w h i c h
l i n g u i s t s
a l s o
u s u a l l y
c l a s s i f y
as
r e g u l a r .
C o n d i t i o n i is f u l f i l l e d .
This c o u l d be
p r o v e d
d e d u c t i v e l y
w i t h r e f e r e n c e
to
the
s t r u c t u r e
of the l e a r n i n g
a l g o r i t h m .
(The
p r o o f is g i v e n in W o t h k e 1985, 1 4 4 - 1 5 4 . )
The
f u l f i l m e n t of c o n d i t i o n s 2-4 c o u l d
o n l y
be
t e s t e d
i n d u c t i v e l y
by
a p p l y i n g
P R I S M ' s
l e a r n i n g
a l g o r i t h m
to
d i f f e r e n t
l e a r n i n g c o r p o r a a n d e v a l u a t i n g the r e s u l t s .
C o n d i t i o n 2 was t e s t e d by a p p l y i n g
the
l e a r n i n g
c o m p o n e n t
t ol e a r n i n g
c o r p o r a
of
d i f f e r e n t s i z e s c o m p i l e d For two m o r p h o l o g i -
cal r e l a t i o n s :
d e r i v a t i o n of n o m i n a a c t i o n i s
from
v e r b s in G e r m a n (e. g.:
" b e t r e u e n " ->
" 8 e t r e u u n g ' ) ,
d e r i v a t i o n
of
Female
n o u n s
from
m a l e
n o u n s
in
F r e n c h
(e. g.:
" s p e c t a t e u r " ->
" s p e c t a L r i c e ' ) .
W i t h
the
s e t sof
i n s t r u c t i o n s i n f e r r e d
from
t h e s el e a r n i n g
c o r p o r a P R I S M ' s
a p p l i c a t i o n
com-
p o n e n t
g e n e r a t e d t a r g e t s for a set of w o r d s
not in the l e a r n i n g c o r p o r a . The s t a t i s t i c a l
r e s u l t s of t h e s e t e s t s s h o w e d that the
p e r -
c e n t a g e
of c o r r e c t l y g e n e r a t e d t a r g e t s
For
s u c h
s o u r c e s
as
are not e l e m e n t s
of
the
l e a r n i n g c o r p u s is,
on a v e r a g e ,
the h i g h e r
the l a r g e r the l e a r n i n g c o r p u s is. A F u r t h e r
i m p o r t a n t r e s u l t was that the p e r c e n t a g e
of
c o r r e c t l y
g e n e r a t e d
t a r g e t s is
t h eh i g h e r
the m o r e r e g u l a r the m o r p h o l o g i c a l
r e l a t i o n
is: The t e s t s y i e l d e d b e t t e r r e s u l t s For the
m o r e r e g u i a r d e r i v a t i o n of F e m a l e n o u n s from
m a l e
n o u n s
in
F r e n c h than
For
the
less
r e g u l a r
d e r i v a t i o n of n o m i n a a c t i o n i s
Form
v e r b s in G e r m a n .
To
test
the F u l f i l m e n t of
the
t h i r d
c o n d i t i o n
r e p r e s e n t a t i v e
l e a r n i n g
c o r p o r a
w e r e m a n u a l l y c o m p i l e d For the d e r i v a t i o n of
n o m i n a
a c t i o n i s From v e r b s in G e r m a n (9.167
s o u r c e - t a r g e t - p a i r s )
and For the
d e r i v a t i o n
of
f e m a l e
n o u n s from m a l e n o u n s in
F r e n c h
(89
s o u r c e - t a r g e t - p a i r s ) .
The two s e t s
of
i n s t r u c t i o n s
a u t o m a k i e a l l y
i n f e r r e d
from
t h e s e two c o r p o r a w e r e a p p l i e d Lo l a r g e sets
of
s o u r c e s
w h i c h w e r e not m e m b e r s
of
the
l e a r n i n g
c o r p o r a ( 4 . 7 9 3 s o u r c e s for G e r m a n ,
211 s o u r c e s for F r e n c h ) .
In b o t h c a s e s
the
p e r c e n t a g e
of
c o r r e c t l y g e n e r a t e d
t a r g e t s
was iOO~.
C o n d i t i o n
4 was t e s t e d
w i t h
l e a r n i n g
c o r p o r a
for
the p l u r a l i z a t i o n
of
E n g l i s h
n o u n s and For the d e r i v a t i o n of f e m a l e n o u n s
from m a l e n o u n s in F r e n c h .
An e x a c t q u a n t i -
f i c a t i o n
of
the d e g r e e of a c c u r a c y is
not
p o s s i b l e , s i n c e this c o n d i t i o n c o n t a i n s s o m e
v a g u e e x p r e s s i o n s s u c h as" r e g u l a r "
and" u s u a l l y "
My s u b j e c t i v e j u d g e m e n t is
that
the i n s t r u c t i o n s c o n s t r u c t e d by the l e a r n i n g
a l g o r i t h m For ( a p p r o x i m a t e l y )
r e p r e s e n t a t i v e
c o r p o r a are q u i t e s i m i l a r to the m o r p h o l o g i -
cal
r e g u l a r i t i e s d e s c r i b e d
in
t r a d J t i o n a Ig r a m m a r s .
This may be i l l u s t r a t e d by an ex-
ample: The l e a r n i n g c o r p u s s h o w n in F i g u r e
is
a p p r o x i m a t e l y
r e p r e s e n t a t i v e
for
the
r e g u l a r
p l u r a l i z a t i o n p a t t e r n s
of
E n g l i s h
nouns.
F r o m
this c o r p u s P R I S M i n f e r r e d the
F o l l o w i n g
set
of
i n s t r u c t i o n s
w h i c h
r e p r e s e n t
the m o s t i m p o r t a n t
p l u r a l i z a t i o n
r u l e s :( l ) " - > " / #
( 2 ) " f " -> ' y e s ' / # ( 3 ) " r e " -> " y e s . ' / #
( 4 ) " y "
->
" i e s ' / ( " d ' l" l ' i
" p ' i ' r ' ~ " t ' ) # ( 5 ) ' ' --> " c a ' / ( "oh ' i " s h ' t " s ' l " x ' [ "z " ) #(6)
" ' ->" s ' /
__I#
F i g u r e 4.
5.
U n s o l v e dP r o b l e m s
- The
F o r m a l i s m
w h i c h P R I S M uses For
the
r e p r e s e n t a t i o n
of
the
i n s t r u c t i o n s
is
d e s i g n e d For the d e s c r i p t i o n of g r a p h e m i e
c h a n g e s
at: tile b e g i n n i n g a n d / o r
at
the
end
of
a word.
Thus this F o r m a l i s m
Js
i n a d e q u a t e For the d e s c r i p t i o n o£ c h a n g e s
in the i n t e r i o r of a
word.
These,
how-
e v e r , o c c u r m o r e r a r e l y t_han t~he c h a n g e s at: t h e b e g i n n i n g o r a t t h e e n d . A s o l u - t i o n t o t h i s p r o b l e m , w h i c h c o u l d c o n s i s t . i n t h e d e s i g n o f a new F o r m a l i s m w h o s e e x p r e s s i o n s c o u l d a l s o be ] . e a r n e d a u t o m a t i c a l l y , has n o t as yet: b e e n F o u n d .P R I S M
c a n n o t
r e c o g n i z e e x c e p t i o n s in
a
l e a r n i n g
c o r p u s
and
t r e a t
them
a d e q u a t e l y .
I f ,for
i n s t a n c e ,
the
l e a r n i n g
c o r p u s
in F i g u r e 1 w o u l d
also
c o n t a i n
the
p a i r
( ' g o o s e ' ,
" g e e s e ) ,
P R I S M w o u l d infer the p r e f i x a l
s u b s t i t u -
tion
i n s t r u c t i o n
"goo" -> "gee'/#
and
i n s e r t
it
in
the set
of
i n s t r u c t i o n s
s h o w n in F i g u r e 4 b e f o r e i n s t r u c t i o n
(1).
F u r t h e r m o r e
P R I S M w o u l d infer
the
suf-
Fixal
i n s t r u c t i o n
" ' -> ' " / ' o s e " # andi n s e r t it b e f o r e i n s t r u c t i o n
(3). IF this
new set of i n s t r u c t i o n s is a p p l i e d to the
n o u n s "good',
"goodness" and "goon"
the
i n c o r r e c t p l u r a l s
"geeds',
" g e e d n e s s e s "
and
"gowns' are g e n e r a t e d .
- It w o u l d be
p r e f e r a b l e
for P R I S M to i d e n t i f y
e x c e p -
t i o n s as such and s t o r e them in a list of
e x c e p t i o n s
i n s t e a d
of
i n f e r r i n g
o v e r g e n e r a l i z i n g
i n s t r u c t i o n s from them.
If
a set of i n s t r u c t i o n s
is
l i n g u i s t i -
c a l l y i n a d e q u a t e ,
the user of P R I S M m u s t
First
m a k e
the
l e a r n i n g
c o r p u s
m o r e
r e p r e s e n t a t i v e
by a d d i n g s u i t a b l e
e x a m -
plea.
Then he m u s t a c t i v a t e the l e a r n i n g
c o m p o n e n t of P R I S M ~ h i c h i n f e r s a t o t a l l y
new s e t
of
i n s t r u c t i o n s .
P e r h a p sit
L i o n s
w i L h
t h e
f i o r m e r l y
i n f e r r e d
and
l J n g u i s L i e a l l y
i n a d e q u a L e
J n s L r u e L i o n s
Lo g i v e
a n e w ,
m o r e a d e q u a L e s e L off i n -
s t r u c L i o n s .
R e f e r e n c e s
C o h e n ,
P.
R . / F e i g e n b a u m ,
E.
A.
( E d s , )
( ] 9 8 2 ) :
l h e
h a n d b o o k o f a c t i f l i e i a ]
J n -
L e l l i g e n c e .
V o l .
3. L o n d o n .
J a n s e n - W i n l < e l n ,
R.
M.
( 1 9 8 5 ) :
I n d u k L J v e s
k e z ' n e n v a n q['ammaL:i.l<iregeln a u s a u s g e w ~ i ~ . [ -
L e n B e i s p i e l e n .
I n :
S a v o r y ,
S. E.
( E d . )
( 1 9 8 5 ) :
K ~ n s t l i c h e
I n L e l J i g e n z
u n d
E x p e r -
L e n s y s t o m e .
[_in
P o r s c h u n g s b e r J
chL
d e r
NJ. x d o r F AG,
2nd e d ,
M[inchcn/WJ. e n ,
PP.
211 223.
O a k e y ,
S . / C a w l h o r n , R. [:. ( ] 9 8 1 ) : I n d u c t i v e
] e a r n i n g
o f
p r o n u n e i a f . / o n
r u l e s
by
h y p o t , h e s L s
I. e s L i n g
a n d
c o r r e c t , i o n .
In:
P r o c e e d i n g s
o f
Lhe
7Lh
I n L e z ' n a L i a n a l
g p i n t :
[ : o n F e r e n c e
on
A r L J f J c L a l
[ n -
L e l ] i g e n c e .
A u g u s L
1 9 8 1 .
V o l .
1.
PP. ] 0 9 - 1 1 4 ,
P i n k e z " 9 S. ( ] 9 7 9 ) :
F o r m a l
m o d e l s off ] a n g u a g e
[ e a r n i n c l .
I n :
( : o g n i L i o n
3. PP. 2 1 7 - 2 8 3 .
R i n g ~
II.
( 1 9 7 8 ) :
PEI. IKAN - e J n L e [ ' n s y s l e m
f d r
[ i n g u J s L i s c h e
l < l a s s i F t k a L i o n s
-
a ] g o r i L h m e n .
I n :
N a c h ] ' i e h t - e n
fldz" D o k u m e n -
Lat. i o n 6 . PP. 2 2 4 - 2 2 6 .
W o i f ~
E.
( ] 9 7 7 ) :
Vom B u c h s L a b e n zum L a u t . .
M a s c h i n e L ] e
E r z e u g u n g
und E r p t ' e b u n g
y o n
U m s e L z a u L o n l a L e n
am O e i s p i e l
Scht'J F L e n g -
l J s c h
P h o n o . l o g J s e h e s
t . ~ n g l i s c h .
B r a u n s e h l ~ e i g .
WoLhke~ K, ( 1 9 8 4 } :
PRISM U s e r ' s
G u : i d e . B o n n .
(= I K P - A ~ b e i t . s b e ] ~ i e l l L No.
5)
Wot. h k e , K. ( 1 9 8 5 ) :
M a s c h i n e l ] . e
£ r l e r n u n g
und
Simu.[ aL i(~n
m o r p h o . [ o g i s c h e r
Ab] e i L u n g . s r e -
g e l n .
B o n n .
( D o c L o r a ]
d i s s e l ~ t a L i o n ) .
A det. a J l e d
t : r e a L m e n L off Lhe [ h e m e d e a l L
~ J L b
i r l f i h i s papeL" i s g i v e n
i n Wot:hke ( 1 9 8 5 ) .