2002-STD

(1)

Estudo de M étodos Autom áticos para Sumarizaç ão de

Textos

Carlos N. Silla Jr.

Celso A. A. Kaestner

[email protected]

Pontif´ıcia Universidade Cat ´olica do Paran ´a

Rua Imaculada Conceic¸ ˜ao 1155 Curitiba, PR, 80215-901 - Brasil

ABSTRACT

This paper describes a text mining tool that summarize texts in English and Portuguese and exposes the problem related to the incorrect separation of sentences. The used extractive summarization algorithm is a derivation of the TF-ISF (Term Frequency - Inverse Sentence Frequency) al-gorithm, where the notion of words is replaced by quad-grams. The sentences selected to belong to the summary are those with the highest values of TF-ISF.

RESUMO

Este artigo descreve uma ferramenta para minera¸cão de tex-tos cujo principal objetivo é sumarizar documentos em Inglês e Português e expõe o problema da separa¸cão errônea de senten¸cas. O algoritmo de sumariza¸cão extrativa utilizado utiliza como elemento principal a medida TF-ISF (Term Frequency - Inverse Sentence Frequency) onde a no¸cão de palavras é substituida por quadri-grams. As senten¸cas se-lecionadas para fazer parte do sumário são aquelas com os maiores valores deTF-ISF.

Keywords

Tratamento Automático de Textos, Sumariza¸cão de Textos, Sumariza¸cão Extrativa.

1. INTRODUC

¸ ˜

AO

A sumariza¸cão automática de textos é uma das diversas aplica¸cões da área de Minera¸cão de Textos. A partir de um documento dividido em partes, tais como em se¸cões, parágrafos ou frases, deve-se selecionar algumas destas par-tes (sumário extrativo) que representem adequadamente o documento original para a realiza¸cão de uma determinada tarefa [4].

Em geral, deseja-se que a informa¸cão constante no docu-mento original seja preservada, ou constitua um meio de acesso resumido ao documento original. A cria¸cão de su-mários diretamente a partir dos textos exige um tratamento profundo de linguagem natural que ainda está além da ca-pacidade atual dos Sistemas de Computa¸cão [6]. Entretanto uma solu¸cão mais simplista pode ser vislumbrada: a suma-riza¸cão extrativa [1].

Este artigo descreve uma ferramenta de minera¸cão de textos para sumarizar textos tanto em inglês quanto em português

e também expõe um sério problema na separa¸cão de sen-ten¸cas que pode afetar significativamente a performance de várias abordagens conhecidas para sumariza¸cão automática de textos.

Este artigo está organizado da seguinte forma: Na se¸cão 2 é apresentada uma visão geral do sistema e é feita uma análise de cada uma das etapas. Na se¸cão 3 é apresentado o pro-blema da separa¸cão de senten¸cas. Na se¸cão 4 são mostrados os resultados computacionais obtidos nos experimentos rea-lizados. Na se¸cão 5 são apresentadas as conclusões deste trabalho e indicadas pesquisas futuras.

2. DESCRIC

¸ ˜

AO DO SISTEMA

Para realizar a tarefa de sumariza¸cão são normalmente ne-cessárias três etapas principais [9]:

• Pr´e-Processamento do Texto;

• Representa¸c˜ao do Documento;

• Gera¸c˜ao do Sum´ario.

A seguir descreve-se como estas etapas foram implementadas no sistema proposto.

2.1 Pr´e-Processamento do Texto

Nesta etapa os documentos são tratados para produzir uma representa¸cão melhor (estruturada). No sistema proposto esta etapa é constitu´ıda de dois procedimentos conhecidos porCase Foldinge Representa¸cãoN-gramsque é um método alternativo aos procedimentos de pré-processamento conhe-cidos comoStemminge Remo¸cão deStop Wordsporém in-dependente de linguagem.

Case Folding é o processo de conversão de todos os caracte-res de um mesmo documento para um formato comum. Esse formato comum pode ser todo o texto em letras maiúsculas ou em letras minúsculas. Por exemplo, as palavras “sol”, “Sol”, “sOl”, “soL”, “SOl”, “sOL”, e “SOL”seriam todas convertidas para o formato comum em letras minúsculas “sol”.

(2)

um grande conhecimento de lingü´ıstica, por essa razão, são dependentes de linguagem.

O processo de Remo¸cão deStop Words consiste em remover termos que ocorrem com muita freqüência. Pelo fato delas serem tão comuns em muitos documentos, elas não carregam informa¸cão sobre o conteúdo do documento em que apare-cem.

A representa¸cão N-grams consiste na gera¸cão de uma se-qüência de caracteres de tamanho pré-definido. Com base na bibliografia[3] é conhecido que os melhores resultados são obtidos através da sele¸cão do tamanhon= 4 ( Quadri-grams).

Por exemplo, para a palavra INFORMAC¸ ˜AO teremos os

quadri-grams: INF, INFO, NFOR, FORM, ORMA, RMAÇ , MAÇ Ã, AÇ ÃO, Ç ÃO .

Contudo a representa¸cãon-grams ao invés de reduzir a di-mensionalidade do vetor como os processos deStemming e Remo¸cão deStop Words aumenta significativamente a di-mensionalidade do vetor.

Para cada palavra de tamanhoxa representa¸cãon-gramsira gerar um número dequadri-grams equivalente ao tamanho da palavra - 1. Por exemplo à palavra INFORMAÇ ÃO tem tamanho 10 e gerou 9quadri-grams.

2.2 Representac¸˜ao do Documento

Após o pré-processamento o texto pode ser considerado se-gundo a representa¸cão vetorial de Salton [8] que consiste em representar documentos como vetores multidimensionais.

Em um caso simples cada coordenada do vetor corresponde a um radical, e o seu valor representa o n´umero de vezes que o radical ocorre no documento.

No sistema proposto ´e utilizada uma solu¸c˜ao mais sofisti-cada, cada coordenada do vetor correspondente aoTF-ISF

(Term Frequency -Inverse Sentence Frequency) [3] de cada

quadri-gram.

Para calcular o TF-ISF de cada quadri-gram o primeiro passo ´e separar as senten¸cas do documento. Em geral o final de uma senten¸ca ´e definido quando encontramos um “.”(ponto) seguido de um espa¸co em branco ou do caractere de uma nova linha.

Depois que todas as senten¸cas do documento foram identi-ficadas, cada senten¸ca ser´a representada como um vetor de

TF-ISF.

O cálculo doTF-ISF de cadaquadri-gramé obtido através da fórmula:

TF-ISF(g, s) =T F(g, s)∗ISF(g)

onde T F(g, s) ´e o n´umero de vezes que o quadri-gram g

ocorre na senten¸cas.

OISF(g) ´e obtido pela f´ormula:

ISF(g) =log(|S|/SF(g))

ondeSF(g) é o número de senten¸cas em que oquadri-gram g ocorre eSé o número de senten¸cas do documento.

Estas fórmulas correspondem aoTF-IDF (Term-Frequency - Inverse Document Frequency) [2][8] amplamente utilizado em Recupera¸cão de Informa¸cões porém substituindo a no¸cão de documentos pela no¸cão de senten¸cas.

2.3 Geração do Sumário

No sistema proposto para cada senten¸ca s o peso médio doTF-ISF da senten¸ca, denotado porTF-ISF-Médio(s) é computado calculando a média aritmética do TF-ISF de todos osquadri-grams na senten¸ca e pode ser representado pela fórmula:

TF-ISF-M´edio(s) = PW(s)

i=1 TF-ISF(i, s)

W(s)

ondeW(s) ´e o n´umero dequadri-grams na senten¸cas.

Com base noTF-ISF-Médiode cada senten¸ca o sistema lo-caliza a senten¸ca com o maior valor deTF-ISF-Médioe as-sume esse valor como sendo o valor deTF-ISF-Máximo.

O sistema vai então selecionar as senten¸cas mais impor-tantes, ordenando em ordem decrescente os valores de TF-ISF-Médio de cada senten¸ca e escolhendo para fazer parte do sumário o equivalente a uma percentagem fixa, em geral de 10% do número de senten¸cas do documento.

A ordem em que as senten¸cas vão aparecer no sumário é a mesma em que aparecem no documento original.

3. O PROBLEMA DA SEPARAC

¸ ˜

AO ERR ˆ

O-NEA DE SENTENC

¸ AS

Nos experimentos realizados foi poss´ıvel constatar que algu-mas senten¸cas possu´ıam desde o c´alculo doTerm Frequency (TF(g, s)), o valor zero em suas representa¸c˜oes.

Em várias situa¸cões, o uso do critério estático de separa¸cão de senten¸cas pode levar a cria¸cão de vetores sem conteúdo e também separar uma senten¸ca com informa¸cões relevantes em duas ou mais senten¸cas.

Inicialmente um crit´erio de separa¸c˜ao de senten¸cas simples pode ser definido utilizando apenas um “.”(ponto), contudo casos como:

“Home Page: www.ppgia.pucpr.br”onde este crit´erio geraria quatro senten¸cas:

1. “Home Page: www.”

2. “ppgia.”

3. “pucpr.”

(3)

ao invés de uma única senten¸ca que contêm um endere¸co eletrônico.

Um critério simples como apenas um “.”(ponto) não con-segue distinguir entre o final das senten¸cas e por isso são usados critérios um pouco mais elaborados como “. ”(ponto seguido de espa¸co ou seguido do caractere de uma nova linha). Mas mesmo estes critérios fazem a separa¸cão de sen-ten¸cas de forma errada.

Existem estudos e projetos direcionados para essa área que tentam apenas classificar quais seriam os critérios corretos para realizar a separa¸cão de senten¸cas, como o Projeto Flo-resta Sintá(c)tica [7].

Contudo, nos experimentos realizados foi poss´ıvel perceber que mesmo com critérios bem definidos essa etapa de de-teçcão de senten¸cas ainda ira cometer muitos erros.

Um dos maiores problemas é em rela¸cão as abrevia¸cões. Por exemplo:

“In his third State of the Union address last night, Mr. Bush cast the war in moral terms, saying it represented an effort to “confront evil for the sake of good in a land so far away”.”

Neste caso ´e claramente vis´ıvel que a partir da senten¸ca acima o m´etodo usual ira gerar duas senten¸cas:

1. In his third State of the Union address last night, Mr.

2. Bush cast the war in moral terms, saying it represented an effort to “confront evil for the sake of good in a land so far away”.

Esse mesmo problema ira acontecer com todas as abrevia¸cões do documento. Uma solu¸cão para este problema é utilizar uma técnica um pouco mais refinada para identificar as sen-ten¸cas, no sistema proposto foi utilizada uma base contendo abrevia¸cões tanto em inglês quanto em português para sa-nar este problema. Utilizando o critêrio estático “. ”(Ponto seguido de espa¸co ou caractere de uma nova linha) aliado a essa base, quando o sistema localiza um “. ”ele obtêm a palavra que imediatamente antecede este “. ”e verifica na base se esta é uma abrevia¸cão, se for o sistema continua analisando ate o próximo critério de separa¸cão sem dividir a senten¸ca em duas, se não for o sistema interpreta como se fosse o final de uma senten¸ca.

Contudo mesmo utilizando este método, os resultados obti-dos foram os mesmos que utilizando somente “. ”. Isso se deve ao fato de existir ainda um outro problema, rela-cionado às etapas de pré-processamento do texto como a representa¸cãon-grams.

Isso pode ser observado nos exemplos abaixo retirados de um documento da base de dados daTIPSTER[5]:

- “between queries and documents. 1. INTRODUCTION”

Neste caso como o 1 não tem tamanho suficiente para gerar umquadri-grammas o critério de separa¸cão de senten¸cas é

atingido. Na representa¸cão emquadri-grams na memória o documento esta representado por: “nts . . int ”oque vai gerar uma senten¸ca sem nenhum conteúdo.

Um outro exemplo seria:

- “ and Cameron-Jones, R. M. 1993. ”

No caso acima o M. não é o suficiente para gerar um quadri-gram, mas o critério de separa¸cão de senten¸cas é novamente atingido, sendo assim ao analisar a representa¸cão do texto em memória pode ser verificada a seguinte condi¸cão: “nes , . . 199”

Utilizando o mesmo exemplo utilizado nas abrevia¸c˜oes:

“In his third State of the Union address last night, Mr. Bush cast the war in moral terms, saying it represented an effort to “confront evil for the sake of good in a land so far away”.”

Neste caso, em memória na representa¸cão do texto ao invés de termos “night, Mr. Bush”teremos “ght , . Bus”com isso ´

e poss´ıvel concluir que o “Mr”foi removido durante a gera¸cão dos quadri-grams e mesmo tendo “Mr.”na base de abre-via¸cões isso não ira alterar o sumário gerado pois “Mr.”não tem um tamanho m´ınimo para ser representado utilizado

quadri-grams e por isso foi removido. Isso pode acontecer tamb´em na etapa de Remo¸c˜ao de stop words, dependendo da lista de palavras sendo utilizada.

Contudo ao fazer uma altera¸cão na estrutura do sistema proposto foi poss´ıvel constatar que embora o novo critério não seja o ideal, ele auxilia consideravelmente o sumarizador a separar um número bem menor de senten¸cas, como será mostrado na se¸cão 4.

A altera¸cão que foi realizada na estrutura do sistema, foi fazer da deteçcão de senten¸cas uma etapa do pr´ e-processa-mento que deve acontecer antes da representa¸cãon-gramsou do processo destemming e remo¸cão destop words e depois do case folding (Para facilitar a cria¸cão da base de abre-via¸cões).

4. RESULTADOS COMPUTACIONAIS

Nesta se¸cão são apresentados três sumários, o primeiro ge-rado pelo sistema CGI/CMU que participou do TIPTER SUMMAC Text Summarization Evaluation Conference [5], o segundo gerado pelo sistema proposto com a separa¸cão de senten¸cas realizada da forma correta, e o terceiro gerado pelo sistema proposto mas utilizando o critério estático de separa¸cão de senten¸cas “. ”(Ponto seguido de espa¸co ou caractere de uma nova linha).

Os sumários produzidos nos exemplos abaixo foram retira-dos da base da TIPSTER de uma compila¸cão de not´ıcias do Wall Street Journal. (Número de Referência da Base: WSJ-0130, Número de Referência do documento original: WSJ910130-0156)

(4)

ma-nualmente para que o sistema proposto tivesse as mesmas condi¸c˜oes do experimento realizado durante aSUMMAC.

O sum´ario abaixo ´e o gerado pelo sistema CGI/CMU e pos-sui 15 senten¸cas:

WASHINGTON -- Calling the war against Iraq part of the ‘‘hard work of freedom’’ Americans are obliged to do, President Bush promised the nation victory in the Persian Gulf.

But he also used it to emphasize an often-repeated appeal that the nation’s other business go on.

To that end he devoted more than half the speech to a discussion of domestic concerns and said he will propose a handful of new programs, including an overhaul of the banking system and a National Energy Strategy to promote energy efficiency, development, and conservation.

However, the president did revive proposals to foster long-term growth, such as lower capital-gains tax rates and tax incentives for personal savings and research and development.

He said he will send Congress a list of $20 billion in specific federal grants to states from which the administration and Congress would jointly select the grant programs to be killed.

Saying that if the nation can "selflessly"confront Iraq for the "sake of good....

If anyone tells you America’s best days are behind her, they’re looking the wrong way,"Mr. Bush said.

‘‘They are the birthright of every American.’’

Instead, he promised new programs for preventive health care, which aides said include money to reduce infant mortality in big cities and a new program to detect breast and cervical cancer.

‘‘We can find meaning and reward by serving some purpose higher than ourselves -- a shining purpose, the illumination of a thousand points of light.’’

The president also addressed the credit crunch by calling for lower interest rates and urging banks to make more loans.

Delivering the Democratic response, Senate

Majority Leader George Mitchell of Maine sought to put aside past differences over U.S. policy in the Gulf, but his remarks were implicitly critical of the administration for not doing more to address wrongs elsewhere in the world as well as at home.

Mr. Bush devoted much of his speech to a general, almost philosophical, explanation to Americans of

why he thinks U.S. armed forces should be leading the fight to evict Iraqi troops from Kuwait.

Mr. Bush argued that the U.S. has a special responsibility to accomplish such lofty goals because of America’s powerful position in the world.

‘‘But the fact that all voices have the right to speak out is one of the reasons we’ve been united in purpose and principle for 200 years.’’

O sum´ario abaixo ´e o gerado pelo sistema proposto uti-lizando senten¸cas separadas manualmente e possui 7 sen-ten¸cas:

In his third state of the union address last night, Mr. bush cast the war in moral terms, saying it represented an effort to "confront evil for the sake of good in a land so far away."

In an attempt to capitalize on the spectacular success U.S. missile defenses have had in the war, he announced that he is altering the strategic defense initiative to focus on the kind of "limited ballistic missile strikes"iraq has been launching on Saudi Arabia and Israel.

Mr. bush also defended his continued close ties with Soviet leaders despite their crackdown in the baltics, asserting that the U.S. has received indications that the kremlin plans to pull some troops out of the area and to resume talks with baltic leaders.

Other officials said those signals came from the Soviet foreign minister in talks here this week.

But he also used it to emphasize an often-repeated appeal that the nation’s other business go on.

To that end he devoted more than half the speech to a discussion of domestic concerns and said he will propose a handful of new programs, including an overhaul of the banking system and a national energy strategy to promote energy efficiency, development, and conservation.

The president acknowledged the recession, but made clear that he isn’t suggesting any specific response to it.

O documento original possui 73 senten¸cas; Contudo, ao ser utilizado um critério estático de separa¸cão de senten¸cas, o sistema encontrou 98 senten¸cas. Das 98 senten¸cas o sis-tema selecionou aproximadamente 10% ou seja 9 senten¸cas para constituir o sumário. O sumário gerado pode ser visto abaixo:

Mr.

(5)

If anyone tells you America’s best days are behind her, they’re looking the wrong way,"Mr.

Bush said the fiscal 1992 budget he will announce next week will call for new incentives to create jobs in inner cities, so-called enterprise zones, a program to encourage tenant ownership and control of public housing, and a plan to give parents more leeway in choosing their children’s public schools.

Bush also promised to send congress his own version of a new civil rights act, a variation of which he vetoed last year, saying it would impose hiring quotas in the workplace.

Bush declared.

Bush also referred to the turmoil in the Soviet union and the recent violent crackdown on independence movements there.

And Mr.

Bush also said that in his recent talks with Soviet leadership -- he met with new Soviet foreign minister Alexander Bessmertnykh on monday -- he has been given "representations"that, if acted upon, could lead to the withdrawal of some Soviet forces from the baltics and "a reopening of dialogue"between the Soviet government and the baltic states.

Estes resultados mostram como a separa¸cão errônea de sen-ten¸cas afetam drasticamente a qualidade do sumário final produzido. Isso se deve ao fato do sistema proposto utilizar um método extrativo. E como em qualquer outro método extrativo delimitar mal os segmentos a serem extra´ıdos re-sulta em rere-sultados ruins. Porém ao ser utilizado o novo critério proposto (critério estático + base de abrevia¸cões) o sistema encontrou 75 senten¸cas e produziu o mesmo sumário produzido pela separa¸cão de senten¸cas manual.

A avalia¸cão realizada entre os sumários produzidos pelo sis-tema proposto e o sissis-tema CGI/CMU foi de que ambos os sumários apresentam a idéia principal do texto, mas o sis-tema proposto possui uma maior taxa de compressão por usar uma porcentagem fixa, neste caso, de 10% do número de senten¸cas do documento.

5. CONCLUS ˜

OES E DIREC

¸ ˜

OES FUTURAS

Este artigo descreveu uma ferramenta para minera¸cão de textos cujo principal objetivo era sumarizar documentos em Inglês e Português e expôs o problema da separa¸cão errônea de senten¸cas.

Para realizar a sumariza¸cão dos documentos foi utilizada a métrica TF-ISF em conjunto com a representa¸cãon-grams

que tem como vantagem ser independente de linguagem e como desvantagem aumentar a dimensionalidade do vetor ao inv´es de reduzir como os processos deStemminge Remo¸c˜ao deStop Words.

Como pode ser visto nos exemplos da se¸cão 3 e também no sumário gerado pelo sistema proposto na se¸cão 4 é clara a necessidade de serem estudados novos métodos para re-alizar a etapa de separa¸cão/identifica¸cão de senten¸cas e que a mesma deve ser realizada durante o pré-processamento do texto.

Uma das dire¸cões futuras deste trabalho está em estudar um método baseado em expressões regulares para definir como podem ser identificados os critérios para detectar oque é e oque não é final de senten¸ca.

Também é poss´ıvel realizar um estudo detalhado da repre-senta¸cãon-grams juntamente com uma análise dos algorit-mos destemmingpara que possa ser utilizado um algoritmo destemmingem conjunto comn-gramsno intuito de manter a dimensionalidade dos vetores a menor poss´ıvel.

Outra alternativa relacionada a sumariza¸cão automática de textos está em utilizar critérios mais semânticos para atribuir valores para cada senten¸ca.

6. REFER ˆ

ENCIAS

[1] Edmunson, H. P.New methods in automatic

extracting. Journal of the Association for Computing Machinery 16: 264 - 285, 1969.

[2] Joachims, T.A Probabilistic Analysis of Rocchio Algorithm with TFIDF for Text Categorization. Technical Report CMU-CS-96-118. Departament of Computer Science, Carnegie Melow University. 1996.

[3] Larocca, N. J.; Santos, A. D.; Kaestner, C. A.; Freitas, A. A.A Text Mining Tool for Document Clustering and Text Summarization. In Proccedings of The Fourth International Conference on The Practical Application of Knowledge Discovery and Data Mining: 41-56, 2000.

[4] Luhn, H.The automatic creation of literature abstracts. IBM Journal of Research and Development 2(92): 159 - 165, 1958.

[5] Mani, I.; House, D.; Klein, G.; Hirschman, L.; Obrsl, L.; Firmin, T.; Chrzanowski, M.; Sundheim, B.The TIPSTER SUMMAC Text Summarization Evaluation. MITRE Technical Report MTR 98W0000138. The MITRE Corporation, Oct. 1998.

[6] Mitra, M.; Singhal, A.; Buckley, C.Automatic text summarization by paragraph extraction. In

Proceedings of the ACL’97/EACL’97 Workshop on Intelligent Scalable Text Summarization, 1997.

[7] Projeto Floresta Sint´a(c)tica.

http://cgi.portugues.mct.pt/treebank/ Acessado em: 01/08/2002.

[8] Salton, G.; Buckley, C.Term-weighting approaches in automatic text retrieval. Information Processing and Management 24: 513 - 523, 1988.

[9] Sparck Jones, K.Automatic Summarizing: factors and directions. Advances in Automatic Text