Estudo de M ´etodos Autom ´aticos para Sumarizac¸ ˜ao de
Textos
Carlos N. Silla Jr.
[email protected]
Celso A. A. Kaestner
[email protected]
Pontif´ıcia Universidade Cat ´olica do Paran ´aRua Imaculada Conceic¸ ˜ao 1155 Curitiba, PR, 80215-901 - Brasil
ABSTRACT
This paper describes a text mining tool that summarize texts in English and Portuguese and exposes the problem related to the incorrect separation of sentences. The used extractive summarization algorithm is a derivation of the TF-ISF (Term Frequency - Inverse Sentence Frequency) al-gorithm, where the notion of words is replaced by quad-grams. The sentences selected to belong to the summary are those with the highest values of TF-ISF.
RESUMO
Este artigo descreve uma ferramenta para minera¸c˜ao de tex-tos cujo principal objetivo ´e sumarizar documentos em Inglˆes e Portuguˆes e exp˜oe o problema da separa¸c˜ao errˆonea de senten¸cas. O algoritmo de sumariza¸c˜ao extrativa utilizado utiliza como elemento principal a medida TF-ISF (Term Frequency - Inverse Sentence Frequency) onde a no¸c˜ao de palavras ´e substituida por quadri-grams. As senten¸cas se-lecionadas para fazer parte do sum´ario s˜ao aquelas com os maiores valores deTF-ISF.
Keywords
Tratamento Autom´atico de Textos, Sumariza¸c˜ao de Textos, Sumariza¸c˜ao Extrativa.
1.
INTRODUC
¸ ˜
AO
A sumariza¸c˜ao autom´atica de textos ´e uma das diversas aplica¸c˜oes da ´area de Minera¸c˜ao de Textos. A partir de um documento dividido em partes, tais como em se¸c˜oes, par´agrafos ou frases, deve-se selecionar algumas destas par-tes (sum´ario extrativo) que representem adequadamente o documento original para a realiza¸c˜ao de uma determinada tarefa [4].
Em geral, deseja-se que a informa¸c˜ao constante no docu-mento original seja preservada, ou constitua um meio de acesso resumido ao documento original. A cria¸c˜ao de su-m´arios diretamente a partir dos textos exige um tratamento profundo de linguagem natural que ainda est´a al´em da ca-pacidade atual dos Sistemas de Computa¸c˜ao [6]. Entretanto uma solu¸c˜ao mais simplista pode ser vislumbrada: a suma-riza¸c˜ao extrativa [1].
Este artigo descreve uma ferramenta de minera¸c˜ao de textos para sumarizar textos tanto em inglˆes quanto em portuguˆes
e tamb´em exp˜oe um s´erio problema na separa¸c˜ao de sen-ten¸cas que pode afetar significativamente a performance de v´arias abordagens conhecidas para sumariza¸c˜ao autom´atica de textos.
Este artigo est´a organizado da seguinte forma: Na se¸c˜ao 2 ´e apresentada uma vis˜ao geral do sistema e ´e feita uma an´alise de cada uma das etapas. Na se¸c˜ao 3 ´e apresentado o pro-blema da separa¸c˜ao de senten¸cas. Na se¸c˜ao 4 s˜ao mostrados os resultados computacionais obtidos nos experimentos rea-lizados. Na se¸c˜ao 5 s˜ao apresentadas as conclus˜oes deste trabalho e indicadas pesquisas futuras.
2.
DESCRIC
¸ ˜
AO DO SISTEMA
Para realizar a tarefa de sumariza¸c˜ao s˜ao normalmente ne-cess´arias trˆes etapas principais [9]:
• Pr´e-Processamento do Texto;
• Representa¸c˜ao do Documento;
• Gera¸c˜ao do Sum´ario.
A seguir descreve-se como estas etapas foram implementadas no sistema proposto.
2.1
Pr´e-Processamento do Texto
Nesta etapa os documentos s˜ao tratados para produzir uma representa¸c˜ao melhor (estruturada). No sistema proposto esta etapa ´e constitu´ıda de dois procedimentos conhecidos porCase Foldinge Representa¸c˜aoN-gramsque ´e um m´etodo alternativo aos procedimentos de pr´e-processamento conhe-cidos comoStemminge Remo¸c˜ao deStop Wordspor´em in-dependente de linguagem.
Case Folding ´e o processo de convers˜ao de todos os caracte-res de um mesmo documento para um formato comum. Esse formato comum pode ser todo o texto em letras mai´usculas ou em letras min´usculas. Por exemplo, as palavras “sol”, “Sol”, “sOl”, “soL”, “SOl”, “sOL”, e “SOL”seriam todas convertidas para o formato comum em letras min´usculas “sol”.
um grande conhecimento de ling¨u´ıstica, por essa raz˜ao, s˜ao dependentes de linguagem.
O processo de Remo¸c˜ao deStop Words consiste em remover termos que ocorrem com muita freq¨uˆencia. Pelo fato delas serem t˜ao comuns em muitos documentos, elas n˜ao carregam informa¸c˜ao sobre o conte´udo do documento em que apare-cem.
A representa¸c˜ao N-grams consiste na gera¸c˜ao de uma se-q¨uˆencia de caracteres de tamanho pr´e-definido. Com base na bibliografia[3] ´e conhecido que os melhores resultados s˜ao obtidos atrav´es da sele¸c˜ao do tamanhon= 4 ( Quadri-grams).
Por exemplo, para a palavra INFORMAC¸ ˜AO teremos os
quadri-grams: INF, INFO, NFOR, FORM, ORMA, RMAC¸ , MAC¸ ˜A, AC¸ ˜AO, C¸ ˜AO .
Contudo a representa¸c˜aon-grams ao inv´es de reduzir a di-mensionalidade do vetor como os processos deStemming e Remo¸c˜ao deStop Words aumenta significativamente a di-mensionalidade do vetor.
Para cada palavra de tamanhoxa representa¸c˜aon-gramsira gerar um n´umero dequadri-grams equivalente ao tamanho da palavra - 1. Por exemplo `a palavra INFORMAC¸ ˜AO tem tamanho 10 e gerou 9quadri-grams.
2.2
Representac¸˜ao do Documento
Ap´os o pr´e-processamento o texto pode ser considerado se-gundo a representa¸c˜ao vetorial de Salton [8] que consiste em representar documentos como vetores multidimensionais.
Em um caso simples cada coordenada do vetor corresponde a um radical, e o seu valor representa o n´umero de vezes que o radical ocorre no documento.
No sistema proposto ´e utilizada uma solu¸c˜ao mais sofisti-cada, cada coordenada do vetor correspondente aoTF-ISF
(Term Frequency -Inverse Sentence Frequency) [3] de cada
quadri-gram.
Para calcular o TF-ISF de cada quadri-gram o primeiro passo ´e separar as senten¸cas do documento. Em geral o final de uma senten¸ca ´e definido quando encontramos um “.”(ponto) seguido de um espa¸co em branco ou do caractere de uma nova linha.
Depois que todas as senten¸cas do documento foram identi-ficadas, cada senten¸ca ser´a representada como um vetor de
TF-ISF.
O c´alculo doTF-ISF de cadaquadri-gram´e obtido atrav´es da f´ormula:
TF-ISF(g, s) =T F(g, s)∗ISF(g)
onde T F(g, s) ´e o n´umero de vezes que o quadri-gram g
ocorre na senten¸cas.
OISF(g) ´e obtido pela f´ormula:
ISF(g) =log(|S|/SF(g))
ondeSF(g) ´e o n´umero de senten¸cas em que oquadri-gram g ocorre eS´e o n´umero de senten¸cas do documento.
Estas f´ormulas correspondem aoTF-IDF (Term-Frequency - Inverse Document Frequency) [2][8] amplamente utilizado em Recupera¸c˜ao de Informa¸c˜oes por´em substituindo a no¸c˜ao de documentos pela no¸c˜ao de senten¸cas.
2.3
Gerac¸˜ao do Sum´ario
No sistema proposto para cada senten¸ca s o peso m´edio doTF-ISF da senten¸ca, denotado porTF-ISF-M´edio(s) ´e computado calculando a m´edia aritm´etica do TF-ISF de todos osquadri-grams na senten¸ca e pode ser representado pela f´ormula:
TF-ISF-M´edio(s) = PW(s)
i=1 TF-ISF(i, s)
W(s)
ondeW(s) ´e o n´umero dequadri-grams na senten¸cas.
Com base noTF-ISF-M´ediode cada senten¸ca o sistema lo-caliza a senten¸ca com o maior valor deTF-ISF-M´edioe as-sume esse valor como sendo o valor deTF-ISF-M´aximo.
O sistema vai ent˜ao selecionar as senten¸cas mais impor-tantes, ordenando em ordem decrescente os valores de TF-ISF-M´edio de cada senten¸ca e escolhendo para fazer parte do sum´ario o equivalente a uma percentagem fixa, em geral de 10% do n´umero de senten¸cas do documento.
A ordem em que as senten¸cas v˜ao aparecer no sum´ario ´e a mesma em que aparecem no documento original.
3.
O PROBLEMA DA SEPARAC
¸ ˜
AO ERR ˆ
O-NEA DE SENTENC
¸ AS
Nos experimentos realizados foi poss´ıvel constatar que algu-mas senten¸cas possu´ıam desde o c´alculo doTerm Frequency (TF(g, s)), o valor zero em suas representa¸c˜oes.
Em v´arias situa¸c˜oes, o uso do crit´erio est´atico de separa¸c˜ao de senten¸cas pode levar a cria¸c˜ao de vetores sem conte´udo e tamb´em separar uma senten¸ca com informa¸c˜oes relevantes em duas ou mais senten¸cas.
Inicialmente um crit´erio de separa¸c˜ao de senten¸cas simples pode ser definido utilizando apenas um “.”(ponto), contudo casos como:
“Home Page: www.ppgia.pucpr.br”onde este crit´erio geraria quatro senten¸cas:
1. “Home Page: www.”
2. “ppgia.”
3. “pucpr.”
ao inv´es de uma ´unica senten¸ca que contˆem um endere¸co eletrˆonico.
Um crit´erio simples como apenas um “.”(ponto) n˜ao con-segue distinguir entre o final das senten¸cas e por isso s˜ao usados crit´erios um pouco mais elaborados como “. ”(ponto seguido de espa¸co ou seguido do caractere de uma nova linha). Mas mesmo estes crit´erios fazem a separa¸c˜ao de sen-ten¸cas de forma errada.
Existem estudos e projetos direcionados para essa ´area que tentam apenas classificar quais seriam os crit´erios corretos para realizar a separa¸c˜ao de senten¸cas, como o Projeto Flo-resta Sint´a(c)tica [7].
Contudo, nos experimentos realizados foi poss´ıvel perceber que mesmo com crit´erios bem definidos essa etapa de de-tec¸c˜ao de senten¸cas ainda ira cometer muitos erros.
Um dos maiores problemas ´e em rela¸c˜ao as abrevia¸c˜oes. Por exemplo:
“In his third State of the Union address last night, Mr. Bush cast the war in moral terms, saying it represented an effort to “confront evil for the sake of good in a land so far away”.”
Neste caso ´e claramente vis´ıvel que a partir da senten¸ca acima o m´etodo usual ira gerar duas senten¸cas:
1. In his third State of the Union address last night, Mr.
2. Bush cast the war in moral terms, saying it represented an effort to “confront evil for the sake of good in a land so far away”.
Esse mesmo problema ira acontecer com todas as abrevia¸c˜oes do documento. Uma solu¸c˜ao para este problema ´e utilizar uma t´ecnica um pouco mais refinada para identificar as sen-ten¸cas, no sistema proposto foi utilizada uma base contendo abrevia¸c˜oes tanto em inglˆes quanto em portuguˆes para sa-nar este problema. Utilizando o critˆerio est´atico “. ”(Ponto seguido de espa¸co ou caractere de uma nova linha) aliado a essa base, quando o sistema localiza um “. ”ele obtˆem a palavra que imediatamente antecede este “. ”e verifica na base se esta ´e uma abrevia¸c˜ao, se for o sistema continua analisando ate o pr´oximo crit´erio de separa¸c˜ao sem dividir a senten¸ca em duas, se n˜ao for o sistema interpreta como se fosse o final de uma senten¸ca.
Contudo mesmo utilizando este m´etodo, os resultados obti-dos foram os mesmos que utilizando somente “. ”. Isso se deve ao fato de existir ainda um outro problema, rela-cionado `as etapas de pr´e-processamento do texto como a representa¸c˜aon-grams.
Isso pode ser observado nos exemplos abaixo retirados de um documento da base de dados daTIPSTER[5]:
- “between queries and documents. 1. INTRODUCTION”
Neste caso como o 1 n˜ao tem tamanho suficiente para gerar umquadri-grammas o crit´erio de separa¸c˜ao de senten¸cas ´e
atingido. Na representa¸c˜ao emquadri-grams na mem´oria o documento esta representado por: “nts . . int ”oque vai gerar uma senten¸ca sem nenhum conte´udo.
Um outro exemplo seria:
- “ and Cameron-Jones, R. M. 1993. ”
No caso acima o M. n˜ao ´e o suficiente para gerar um quadri-gram, mas o crit´erio de separa¸c˜ao de senten¸cas ´e novamente atingido, sendo assim ao analisar a representa¸c˜ao do texto em mem´oria pode ser verificada a seguinte condi¸c˜ao: “nes , . . 199”
Utilizando o mesmo exemplo utilizado nas abrevia¸c˜oes:
“In his third State of the Union address last night, Mr. Bush cast the war in moral terms, saying it represented an effort to “confront evil for the sake of good in a land so far away”.”
Neste caso, em mem´oria na representa¸c˜ao do texto ao inv´es de termos “night, Mr. Bush”teremos “ght , . Bus”com isso ´
e poss´ıvel concluir que o “Mr”foi removido durante a gera¸c˜ao dos quadri-grams e mesmo tendo “Mr.”na base de abre-via¸c˜oes isso n˜ao ira alterar o sum´ario gerado pois “Mr.”n˜ao tem um tamanho m´ınimo para ser representado utilizado
quadri-grams e por isso foi removido. Isso pode acontecer tamb´em na etapa de Remo¸c˜ao de stop words, dependendo da lista de palavras sendo utilizada.
Contudo ao fazer uma altera¸c˜ao na estrutura do sistema proposto foi poss´ıvel constatar que embora o novo crit´erio n˜ao seja o ideal, ele auxilia consideravelmente o sumarizador a separar um n´umero bem menor de senten¸cas, como ser´a mostrado na se¸c˜ao 4.
A altera¸c˜ao que foi realizada na estrutura do sistema, foi fazer da detec¸c˜ao de senten¸cas uma etapa do pr´ e-processa-mento que deve acontecer antes da representa¸c˜aon-gramsou do processo destemming e remo¸c˜ao destop words e depois do case folding (Para facilitar a cria¸c˜ao da base de abre-via¸c˜oes).
4.
RESULTADOS COMPUTACIONAIS
Nesta se¸c˜ao s˜ao apresentados trˆes sum´arios, o primeiro ge-rado pelo sistema CGI/CMU que participou do TIPTER SUMMAC Text Summarization Evaluation Conference [5], o segundo gerado pelo sistema proposto com a separa¸c˜ao de senten¸cas realizada da forma correta, e o terceiro gerado pelo sistema proposto mas utilizando o crit´erio est´atico de separa¸c˜ao de senten¸cas “. ”(Ponto seguido de espa¸co ou caractere de uma nova linha).
Os sum´arios produzidos nos exemplos abaixo foram retira-dos da base da TIPSTER de uma compila¸c˜ao de not´ıcias do Wall Street Journal. (N´umero de Referˆencia da Base: WSJ-0130, N´umero de Referˆencia do documento original: WSJ910130-0156)
ma-nualmente para que o sistema proposto tivesse as mesmas condi¸c˜oes do experimento realizado durante aSUMMAC.
O sum´ario abaixo ´e o gerado pelo sistema CGI/CMU e pos-sui 15 senten¸cas:
WASHINGTON -- Calling the war against Iraq part of the ‘‘hard work of freedom’’ Americans are obliged to do, President Bush promised the nation victory in the Persian Gulf.
But he also used it to emphasize an often-repeated appeal that the nation’s other business go on.
To that end he devoted more than half the speech to a discussion of domestic concerns and said he will propose a handful of new programs, including an overhaul of the banking system and a National Energy Strategy to promote energy efficiency, development, and conservation.
However, the president did revive proposals to foster long-term growth, such as lower capital-gains tax rates and tax incentives for personal savings and research and development.
He said he will send Congress a list of $20 billion in specific federal grants to states from which the administration and Congress would jointly select the grant programs to be killed.
Saying that if the nation can "selflessly"confront Iraq for the "sake of good....
If anyone tells you America’s best days are behind her, they’re looking the wrong way,"Mr. Bush said.
‘‘They are the birthright of every American.’’
Instead, he promised new programs for preventive health care, which aides said include money to reduce infant mortality in big cities and a new program to detect breast and cervical cancer.
‘‘We can find meaning and reward by serving some purpose higher than ourselves -- a shining purpose, the illumination of a thousand points of light.’’
The president also addressed the credit crunch by calling for lower interest rates and urging banks to make more loans.
Delivering the Democratic response, Senate
Majority Leader George Mitchell of Maine sought to put aside past differences over U.S. policy in the Gulf, but his remarks were implicitly critical of the administration for not doing more to address wrongs elsewhere in the world as well as at home.
Mr. Bush devoted much of his speech to a general, almost philosophical, explanation to Americans of
why he thinks U.S. armed forces should be leading the fight to evict Iraqi troops from Kuwait.
Mr. Bush argued that the U.S. has a special responsibility to accomplish such lofty goals because of America’s powerful position in the world.
‘‘But the fact that all voices have the right to speak out is one of the reasons we’ve been united in purpose and principle for 200 years.’’
O sum´ario abaixo ´e o gerado pelo sistema proposto uti-lizando senten¸cas separadas manualmente e possui 7 sen-ten¸cas:
In his third state of the union address last night, Mr. bush cast the war in moral terms, saying it represented an effort to "confront evil for the sake of good in a land so far away."
In an attempt to capitalize on the spectacular success U.S. missile defenses have had in the war, he announced that he is altering the strategic defense initiative to focus on the kind of "limited ballistic missile strikes"iraq has been launching on Saudi Arabia and Israel.
Mr. bush also defended his continued close ties with Soviet leaders despite their crackdown in the baltics, asserting that the U.S. has received indications that the kremlin plans to pull some troops out of the area and to resume talks with baltic leaders.
Other officials said those signals came from the Soviet foreign minister in talks here this week.
But he also used it to emphasize an often-repeated appeal that the nation’s other business go on.
To that end he devoted more than half the speech to a discussion of domestic concerns and said he will propose a handful of new programs, including an overhaul of the banking system and a national energy strategy to promote energy efficiency, development, and conservation.
The president acknowledged the recession, but made clear that he isn’t suggesting any specific response to it.
O documento original possui 73 senten¸cas; Contudo, ao ser utilizado um crit´erio est´atico de separa¸c˜ao de senten¸cas, o sistema encontrou 98 senten¸cas. Das 98 senten¸cas o sis-tema selecionou aproximadamente 10% ou seja 9 senten¸cas para constituir o sum´ario. O sum´ario gerado pode ser visto abaixo:
Mr.
If anyone tells you America’s best days are behind her, they’re looking the wrong way,"Mr.
Bush said the fiscal 1992 budget he will announce next week will call for new incentives to create jobs in inner cities, so-called enterprise zones, a program to encourage tenant ownership and control of public housing, and a plan to give parents more leeway in choosing their children’s public schools.
Bush also promised to send congress his own version of a new civil rights act, a variation of which he vetoed last year, saying it would impose hiring quotas in the workplace.
Bush declared.
Bush also referred to the turmoil in the Soviet union and the recent violent crackdown on independence movements there.
And Mr.
Bush also said that in his recent talks with Soviet leadership -- he met with new Soviet foreign minister Alexander Bessmertnykh on monday -- he has been given "representations"that, if acted upon, could lead to the withdrawal of some Soviet forces from the baltics and "a reopening of dialogue"between the Soviet government and the baltic states.
Estes resultados mostram como a separa¸c˜ao errˆonea de sen-ten¸cas afetam drasticamente a qualidade do sum´ario final produzido. Isso se deve ao fato do sistema proposto utilizar um m´etodo extrativo. E como em qualquer outro m´etodo extrativo delimitar mal os segmentos a serem extra´ıdos re-sulta em rere-sultados ruins. Por´em ao ser utilizado o novo crit´erio proposto (crit´erio est´atico + base de abrevia¸c˜oes) o sistema encontrou 75 senten¸cas e produziu o mesmo sum´ario produzido pela separa¸c˜ao de senten¸cas manual.
A avalia¸c˜ao realizada entre os sum´arios produzidos pelo sis-tema proposto e o sissis-tema CGI/CMU foi de que ambos os sum´arios apresentam a id´eia principal do texto, mas o sis-tema proposto possui uma maior taxa de compress˜ao por usar uma porcentagem fixa, neste caso, de 10% do n´umero de senten¸cas do documento.
5.
CONCLUS ˜
OES E DIREC
¸ ˜
OES FUTURAS
Este artigo descreveu uma ferramenta para minera¸c˜ao de textos cujo principal objetivo era sumarizar documentos em Inglˆes e Portuguˆes e expˆos o problema da separa¸c˜ao errˆonea de senten¸cas.
Para realizar a sumariza¸c˜ao dos documentos foi utilizada a m´etrica TF-ISF em conjunto com a representa¸c˜aon-grams
que tem como vantagem ser independente de linguagem e como desvantagem aumentar a dimensionalidade do vetor ao inv´es de reduzir como os processos deStemminge Remo¸c˜ao deStop Words.
Como pode ser visto nos exemplos da se¸c˜ao 3 e tamb´em no sum´ario gerado pelo sistema proposto na se¸c˜ao 4 ´e clara a necessidade de serem estudados novos m´etodos para re-alizar a etapa de separa¸c˜ao/identifica¸c˜ao de senten¸cas e que a mesma deve ser realizada durante o pr´e-processamento do texto.
Uma das dire¸c˜oes futuras deste trabalho est´a em estudar um m´etodo baseado em express˜oes regulares para definir como podem ser identificados os crit´erios para detectar oque ´e e oque n˜ao ´e final de senten¸ca.
Tamb´em ´e poss´ıvel realizar um estudo detalhado da repre-senta¸c˜aon-grams juntamente com uma an´alise dos algorit-mos destemmingpara que possa ser utilizado um algoritmo destemmingem conjunto comn-gramsno intuito de manter a dimensionalidade dos vetores a menor poss´ıvel.
Outra alternativa relacionada a sumariza¸c˜ao autom´atica de textos est´a em utilizar crit´erios mais semˆanticos para atribuir valores para cada senten¸ca.
6.
REFER ˆ
ENCIAS
[1] Edmunson, H. P.New methods in automatic
extracting. Journal of the Association for Computing Machinery 16: 264 - 285, 1969.
[2] Joachims, T.A Probabilistic Analysis of Rocchio Algorithm with TFIDF for Text Categorization. Technical Report CMU-CS-96-118. Departament of Computer Science, Carnegie Melow University. 1996.
[3] Larocca, N. J.; Santos, A. D.; Kaestner, C. A.; Freitas, A. A.A Text Mining Tool for Document Clustering and Text Summarization. In Proccedings of The Fourth International Conference on The Practical Application of Knowledge Discovery and Data Mining: 41-56, 2000.
[4] Luhn, H.The automatic creation of literature abstracts. IBM Journal of Research and Development 2(92): 159 - 165, 1958.
[5] Mani, I.; House, D.; Klein, G.; Hirschman, L.; Obrsl, L.; Firmin, T.; Chrzanowski, M.; Sundheim, B.The TIPSTER SUMMAC Text Summarization Evaluation. MITRE Technical Report MTR 98W0000138. The MITRE Corporation, Oct. 1998.
[6] Mitra, M.; Singhal, A.; Buckley, C.Automatic text summarization by paragraph extraction. In
Proceedings of the ACL’97/EACL’97 Workshop on Intelligent Scalable Text Summarization, 1997.
[7] Projeto Floresta Sint´a(c)tica.
http://cgi.portugues.mct.pt/treebank/ Acessado em: 01/08/2002.
[8] Salton, G.; Buckley, C.Term-weighting approaches in automatic text retrieval. Information Processing and Management 24: 513 - 523, 1988.
[9] Sparck Jones, K.Automatic Summarizing: factors and directions. Advances in Automatic Text