Resumo:
Objetivo: Sintetizar e classificar critérios de seleção de sintagmas nominais utilizados em metodologias de indexação automática por sintagmas nominais para textos escritos em língua portuguesa.
Métodos: A metodologia da pesquisa tem natureza exploratória, de cunho bibliográfico, e tem como método procedimental a análise de conteúdo. As metodologias de seleção de sintagmas nominais baseiam-se em critérios como: frequência absoluta de ocorrência, frequência normalizada de ocorrência, frequência inversa nos documentos, não ocorrência em lista de sintagmas nominais pouco significativos, na estrutura gramatical e no nível dos sintagmas nominais.
Resultados: Quanto ao escopo dos critérios, predominam em número os baseados em características do sintagma nominal (estrutura gramatical, nível, conteúdo lexical) e quanto a adoção predominam os baseados no conteúdo do documento e no conteúdo do corpus.
Conclusões: A principal contribuição deste estudo consiste do panorama dos critérios de seleção de sintagmas nominais relevantes para textos em português.
Palavras-chave:Indexação automáticaIndexação automática,Sintagmas nominaisSintagmas nominais,Seleção de sintagmas nominaisSeleção de sintagmas nominais,Língua portuguesaLíngua portuguesa,Recuperação da informaçãoRecuperação da informação.
Abstract:
Objective: this study aims to synthetize and classify the noun phrases selection criteria present in methods for automatic indexing by noun phrases of texts written in Portuguese.
Methods: The research methodology has an exploratory nature and bibliographic character, and has the content analysis as procedural method. The bases of the noun phrases selection methodologies are criteria as absolute frequency of occurrence, normalized frequency of occurrence, inverse document frequency, non-occurrence in list of stopwords, and the grammatical structure and level of noun phrases.
Conclusions: As for the criteria scope, predominates in quantity those based on the noun phrases characteristics (grammatical structure, level, lexical content), in adoption predominates those based on the document content and the corpus content.
Results: The main contribution of this work is the panoramic overview of the noun phrases selection criteria for texts written in the Portuguese idiom.
Keywords: Automatic indexing, Noun phrases, Noun phrase selection, Portuguese language, Information retrieval.
Artigo
Seleção de sintagmas nominais na indexação automática
Noun phase selection in automatic indexing
Recepção: 28 Junho 2018
Aprovação: 07 Fevereiro 2019
Este estudo tem como propósito investigar métodos de indexação automática por sintagmas nominais quanto aos critérios utilizados para a seleção de sintagmas nominais relevantes como descritores documentais.
No presente trabalho, a indexação pode ser entendida como a forma de caracterizar os conceitos que estão presentes na escrita de certo tipo de documento de modo a permitir a sua recuperação posterior. O propósito da indexação é representar tematicamente os conteúdos dos documentos através de termos organizados em índices. Tais termos podem ser denominados: descritores, palavras-chave ou metadados de assunto.
Araújo e Oliveira (2011, p. 41), em relação à indexação, assinalam que essa “é uma das principais atividades desenvolvidas numa Biblioteca ou Unidade de Informação”.
No entanto, a indexação manual, realizada pelo profissional especializado, não consegue abarcar todo o volume de informação que vem sendo produzido em meio digital.
Como alternativa para dar conta do tratamento temático das informações produzidas no ambiente digital, ganha destaque a indexação automática. A indexação automática, além de ser rapidamente realizada, permitindo abarcar a massa documental em ambiente digital, minimiza o problema da subjetividade encontrado na indexação manual, uma vez que sendo desempenhada pelo ser humano está sujeita a influências externas que podem afetar o resultado do processo.
Vieira (1988, p. 48), de forma simples e sucinta, conceitua a indexação automática como sendo “uma operação que identifica, através de programas de computador, palavras ou expressões significativas dos documentos para descrever de forma condensada o seu conteúdo”.
A indexação automática baseia-se comumente na identificação de palavras significativas que ocorrem no texto dos documentos. Várias tentativas vêm sendo desenvolvidas com o intuito de se utilizar como pontos de acesso aos documentos outras unidades em Sistemas de Recuperação de Informação (SRIs). Nesse contexto, uma alternativa que vem se mostrando promissora é a utilização dos sintagmas nominais presentes nos textos como pontos de acesso à informação.
A indexação automática por sintagmas nominais tem como ponto norteador a extração de elementos textuais descritores de assuntos contidos nos documentos, elementos que façam referência a objetos e fatos do mundo real, ou seja, os sintagmas nominais.
Michel Le Guern (1991) traz contribuições pertinentes no que diz respeito à utilização dos sintagmas nominais como descritores documentais. Encontra-se em Brito (1992) um estudo que pode ser considerado um dos precursores, juntamente com Le Guern (1991), no que se refere ao uso dos sintagmas nominais em sistemas de indexação automática.
Kuramoto (1995) também possui contribuições nos primeiros estudos voltados para a utilização de sintagmas nominais em sistemas de indexação e recuperação de documentos em língua portuguesa.
Contudo, não é somente a extração dos sintagmas nominais que resultará na obtenção de descritores documentais para fins de indexação e recuperação de documentos. É preciso atentar-se para a seleção dos sintagmas nominais mais relevantes.
Nesse contexto, tem-se como objetivo geral sintetizar e classificar os critérios de seleção de sintagmas nominais utilizados em pesquisas sobre indexação automática por sintagmas nominais de documentos em língua portuguesa. Como objetivos específicos, têm-se:
identificar pesquisas sobre indexação automática por sintagmas nominais para textos em português;
levantar nas pesquisas identificadas critérios para a seleção de sintagmas nominais para fins de indexação automática;
sintetizar e classificar os critérios de seleção de sintagmas nominais utilizados para selecionar os sintagmas nominais com valor de descritor dos documentos.
As seções que se seguem estão assim estruturadas: na seção 2, contextualiza-se a indexação automática, define-se o processo de indexação automática por sintagmas nominais, discutem-se os trabalhos que tratam do tema para textos em português e define-se a seleção de sintagmas nominais como uma etapa deste processo; na seção 3 é apresentada a metodologia da pesquisa; a seção 4 apresenta e discute os resultados da síntese e categorização dos critérios de seleção de sintagmas nominais; e a seção 5 contempla as considerações finais.
A indexação automática muitas vezes é rotulada como indexação assistida por computador e indexação semiautomática. No entanto, essa variedade de expressões designa conceitos distintos, uma vez que a indexação assistida por computador refere-se a programas que auxiliam na representação temática de documentos realizada pelo homem, já a indexação semiautomática refere-se àquela que ocorre em sistemas que indexam automaticamente os documentos e posteriormente os termos são validados pelo profissional, e a indexação automática é realizada completamente pelo computador através de software desenvolvido para desempenhar tal atividade (CORRÊA; LAPA, 2013).
O surgimento da indexação automática está relacionado com o uso de programas computacionais para geração de índices pré-coordenados. Nesse contexto, verificam-se o desenvolvimento do Selective Listing Combination (SLIC), o PREserved Context Indexing System (PRECIS), entre outros. É a partir do sistema Key Word in Context (KWIC) que a indexação se baseia nas palavras significativas dos títulos dos documentos (BORGES; MACULAN; LIMA, 2008).
Vieira (1988) conclui que a indexação automática produz resultados na recuperação da informação no mínimo equivalentes aos obtidos pela indexação manual, quando são utilizadas as palavras isoladas como descritores documentais.
Apesar de ter sido a palavra isolada a primeira unidade base para a indexação automática, essa foi se mostrando aos poucos ineficiente para fins de representação e recuperação de informação, devido aos fenômenos linguísticos como a sinonímia e a polissemia que se encontram nas línguas naturais. Nesse contexto, as pesquisas em indexação automática buscam cada vez mais desenvolver metodologias que se preocupam com a sintaxe e com a semântica imbuídas nos textos, resultando no surgimento da indexação automática por sintagmas nominais.
Pode-se considerar Michel Le Guern (1991) como responsável pelo desenvolvimento conceitual acerca dos sintagmas nominais como unidade portadora de significado. Esse autor faz uma distinção relevante entre descritor e palavra. Para ele, o descritor utilizado para a recuperação da informação deveria ser uma unidade do discurso como os sintagmas nominais e não uma unidade da língua como as palavras (signo isolado sem significado definido). Complementando esse entendimento, Kuramoto (1995) afirma que as palavras passam a ter valor referencial a partir do momento que as mesmas se encontram dentro de um universo do discurso.
Outro estudo que se deteve ao uso dos sintagmas nominais como instrumentos de indexação e que pode ser considerado um dos primeiros estudos nessa vertente para a língua portuguesa foi o de Brito (1992). Tal autor apresentou uma visão diferente sobre a análise e descrição linguística, fundada sobre uma descrição mais rica dos fenômenos linguísticos e que está na origem das reflexões sobre o tratamento automático da informação com base nos sintagmas nominais.
Segundo Perini (2010).
[...] o sintagma nominal tem potencial referencial ao contrário de outros sintagmas da língua. O potencial referencial do sintagma nominal é sua propriedade semântica básica, e condiciona o modo como ele é construído internamente. Não é possível fazer referência a uma entidade do mundo usando a língua a não ser com um sintagma nominal. (PERINI, 2010, p. 252, grifo nosso).
Kuramoto (2002, p. 6), no tocante a conceituação do sintagma nominal, diz que “um sintagma nominal é a menor unidade do discurso portadora de informação”. Um sintagma nominal pode ser tanto uma palavra isolada como também um conjunto de palavras que possuem sintaxe e semântica.
Seguem alguns exemplos de sintagmas nominais e suas várias possibilidades de formação: “A Ciência da Informação”, onde se tem um determinante (A), um nome (Ciência) e um modificador (da Informação); “Um certo Bibliotecário”, onde se tem um determinante (Um), seguido de outro determinante (certo), seguido de um nome (Bibliotecário).
No âmbito da recuperação de informação (RI), os sintagmas nominais podem ser utilizados como termos de indexação e de busca em Sistemas de Recuperação de informação.
Vários autores se debruçaram em desenvolver métodos e instrumentos de extração de sintagmas nominais de forma automática. Já outros se voltaram mais para a questão da seleção de sintagmas nominais.
Kuramoto (1995; 2002) pode ser considerado um dos precursores nos estudos sobre extração automática de sintagmas nominais para textos em língua portuguesa.
Para que ocorra a indexação automática por sintagmas nominais, são necessárias ferramentas ou softwares que permitam a realização desta atividade. A seguir verificam-se, por meio do Quadro 1, as ferramentas necessárias à execução da indexação automática por sintagmas nominais: Etiquetadores; Identificadores de sintagmas nominais; Extratores de sintagmas nominais; e Selecionadores de sintagmas nominais.
Nesse contexto, a indexação automática inicia-se com a retirada das palavras que compõem o texto e em seguida a etiquetagem dos vocábulos extraídos com classes gramaticais, ou seja, essa primeira etapa consiste na categorização das palavras em substantivo, adjetivo, advérbio etc.
Feito isso, inicia-se a execução da segunda ferramenta que é a identificação dos SNs por meio das regras de formação de sintagmas nominais, baseando-se nas classes gramaticais das palavras atribuídas na etapa anterior. Essa segunda etapa confronta as palavras categorizadas com o conjunto de regras de formação de SNs. Os identificadores de SNs apresentam os SNS de forma destacada no próprio texto ou em uma representação arbórea da oração.
Após a identificação dos SNs, inicia-se a extração dos sintagmas identificados anteriormente. Os extratores de sintagmas nominais apresentam os SNS extraídos do texto em uma lista ou em arquivo separado.

Por fim, a quarta ferramenta, os selecionadores de sintagmas nominais, seleciona os SNs extraídos com base em determinados critérios. Essa seleção se faz necessária para ordenação dos SNs por relevância, tendo em vista que certos sintagmas nominais não são sintagmas representativos dos assuntos do documento. Assim, a seleção irá escolher os sintagmas que possam ser descritores do conteúdo do documento.
Com base no que foi visto até o momento, pode-se estruturar o processo de indexação por meio de sintagmas nominais em três etapas gerais, as quais são expostas no Quadro 2. Na primeira etapa é feita a identificação dos SNs, por meio da etiquetagem das palavras isoladas e em seguida do confronto dessas palavras com o conjunto de regras de formação de SNs. Após essa primeira etapa é efetuada a extração dos SNs, essa segunda etapa consiste em mostrar os SNs de forma destacada no texto ou como um arquivo separado. Finalizando, é efetuada a seleção dos SNs extraídos, identificando os que são mais descritivos do conteúdo do documento do qual foram extraídos.

Fazendo analogia com a indexação humana, do mesmo modo que o indexador identifica e seleciona os termos mais representativos de um determinado documento, a máquina também deve ser capaz de identificar, extrair e selecionar os sintagmas nominais mais apropriados para a descrição do conteúdo de um documento.
É importante salientar que existem ferramentas que desempenham uma ou todas as três etapas da indexação automática por sintagmas nominais. Como, por exemplo, o software OGMA de Maia (2008), que identifica, extrai e seleciona os sintagmas nominais. Outra ferramenta frequentemente utilizada para identificar os sintagmas nominais em textos em português é o parser PALAVRAS (SILVA; CORRÊA, 2015).
No contexto da indexação automática por sintagmas nominais, a seleção de sintagmas com valor de descritor documental é uma tarefa importante a ser automatizada, e se constitui o foco deste estudo.
Corrêa et al. (2011) afirmam que alguns dos sintagmas nominais extraídos pelos sistemas não apresentam relevância para o usuário no momento de busca, ou seja, embora sejam sintagmas nominais, não constituem descritores. Tais sintagmas nominais irrelevantes não correspondem à necessidade de informação do usuário bem como não são representativos do assunto daqueles documentos. Tal fato mostra que a extração de sintagmas nominais deve ser acompanhada de estratégias de ordenação por relevância dos sintagmas nominais. Os autores sugerem que seja levado em conta critérios como frequência e posicionamento, semelhante aos métodos de indexação automática para as palavras isoladas.
Complementando o que os autores acima mencionaram, Lopes (2012, p. 33) afirma que: “Um aspecto importante para a recuperação de informações textuais é o passo posterior à extração de termos, que consiste em escolher dentre os termos extraídos aqueles que são portadores de valor conceitual, e não apenas terminológico”. Em (LOPES, 2012) foi realizada a extração de conceitos relevantes a partir de sintagmas nominais extraídos de corpus de documentos de determinados domínios, com vistas à criação de recursos linguísticos e ontologias. Os critérios apontados pela autora na seleção dos sintagmas nominais contendo conceitos podem ser adaptados para a seleção de sintagmas nominais mais relevantes para cada documento.
Souza (2005) pode ser considerado pioneiro nos estudos de critérios de seleção de sintagmas nominais em textos em português. Na sua tese é proposta uma metodologia consolidada para seleção de sintagmas nominais relevantes em artigos científicos escritos em português da área de Ciência da Informação. A metodologia proposta é baseada nos critérios de frequência no documento, inverso da frequência no corpus, e numa classificação baseada no nível e estrutura gramatical do sintagma nominal.
Os trabalhos de Souza (2006), Souza, Alvarenga Neto e Mendes (2007), Maia (2008), Maia e Souza (2010), Souza e Raghavan (2006, 2014), e Martins (2014) se constituem em desdobramentos da pesquisa de Souza (2005) quanto à seleção de sintagmas nominais.
São apresentadas na seção 4 a síntese e classificação dos critérios de seleção de sintagmas nominais adotados nos trabalhos que investigaram a indexação automática por sintagmas nominais para textos em português. A seguir, pontua-se sobre os métodos e ferramentas que guiaram a presente pesquisa.
No que diz respeito aos objetivos, o presente estudo se caracteriza como uma pesquisa exploratória. Já em relação aos procedimentos utilizados para coleta dos dados a mesma se configura como uma pesquisa bibliográfica, visto que, se utiliza de materiais já publicados para a obtenção dos dados.
O método procedimental de síntese e classificação dos critérios de seleção dos sintagmas nominais tem como base a análise de conteúdo (BARDIN, 2011) dos trabalhos científicos coletados.
A análise de conteúdo constitui uma metodologia de pesquisa usada para descrever e interpretar o conteúdo de documentos e textos. Esta forma de análise, conduzindo a descrições sistemáticas, quantitativas ou qualitativas, contribui para a interpretação das mensagens, atingindo uma compreensão de seus significados num nível que vai além de uma leitura superficial. Para Bardin (2011) a análise de conteúdos e constitui de várias técnicas onde se busca descrever o conteúdo emitido no processo de comunicação, seja ele por meio de falas ou de textos. Desta forma, a técnica é composta por procedimentos sistemáticos que proporcionam o levantamento de indicadores (quantitativos ou não) permitindo a realização de inferência de conhecimentos.
A análise de conteúdo foi utilizada na categorização e filtragem dos trabalhos que realizavam a indexação automática por sintagmas nominais, depois para filtrar os que aplicavam a seleção de sintagmas nominais, e por último para identificar, categorizar e sintetizar os critérios de seleção aplicados por cada trabalho.
Foram coletados e analisados: artigos científicos, dissertações e teses. Os artigos científicos foram recuperados nas seguintes bases de dados: Base de dados referencial de artigos de periódicos em Ciência da Informação - BRAPCI[1], Scientific Eletronic Library Online - SciELO[2] e Google Acadêmico[3]. As dissertações e teses foram recuperadas por meio de Biblioteca Digital de Teses e Dissertações do Instituto Brasileiro de Informação em Ciência e Tecnologia – BDTD/IBICT[4]·. A expressão de busca submetida nas bases foi: “sintagmas nominais” AND “indexação”. Tal expressão de busca foi realizada em todos os campos sem delimitação de período temporal de publicação.
No Quadro 3 são sistematizadas as pesquisas que contribuíram com os estudos de indexação automática por sintagmas nominais, fazendo uso de critérios de seleção de sintagmas nominais.
Quanto ao foco, algumas pesquisas voltam-se para diferentes tarefas, como a classificação automática de documentos, a indexação automática, a extração de conceitos, e a criação de ontologias. Todavia essas tarefas estão relacionadas com a indexação automática por meio de sintagmas nominais.
Quanto aos critérios utilizados na seleção de sintagmas nominais, percebe-se a adoção mais frequente de determinados critérios em detrimento de outros. A maioria dos trabalhos é de coautoria de Souza e decorrem da pesquisa inicial da tese de doutorado do mesmo autor. Nas pesquisas realizadas por Souza e coautores, são adotados os seguintes critérios em ordem de frequência: os critérios de frequência de ocorrência no documento, classificação do sintagma nominal quanto ao nível e estrutura, inverso da frequência de ocorrência no corpus, e eliminação de sintagmas nominais presentes em lista de expressões pouco significativas.
Em contraste, no trabalho de Lopes (2012), com a finalidade de extração de conceitos de corpus de documentos, são utilizados critérios de seleção relacionados à estrutura gramatical dos sintagmas nominais. São adotados também critérios de frequência de ocorrência e inverso da frequência de ocorrência em corpus, esses dois critérios constituem o índice tf-dcf¸ criado pela própria autora.

No Quadro 4 foram organizados sistematicamente os critérios utilizados pelas pesquisas descritas no Quadro 3, classificando-os quanto ao escopo de aplicação de cada critério e apontando os trabalhos que fizeram uso desses critérios.

Quanto ao escopo de aplicação de cada critério de seleção de sintagmas nominais com valor de descritor, foram utilizadas as categorias: SN – quando o critério se aplica sobre o sintagma nominal de acordo com o nível, conteúdo léxico ou estrutura gramatical do mesmo; DOCUMENTO – quando o critério se aplica sobre a lista dos sintagmas nominais de um documento; CORPUS – quando o critério se aplica sobre a lista dos sintagmas nominais de um conjunto de documentos ou corpus; CORPUS CONTRASTANTE – quando o critério se aplica sobre listas de sintagmas nominais, cada lista advinda de corpus de domínio temático distinto.
Verificou-se que a frequência de ocorrência é um critério comumente utilizado para a classificação do sintagma nominal como descritor ou não, sendo considerado fundamental para a seleção de sintagmas nominais. Essa frequência de ocorrência demonstra em alguns casos o potencial informativo de um determinado sintagma nominal, bem como também demonstra o caráter genérico do mesmo ao ocorrer em vários documentos, daí a necessidade do uso também da frequência inversa de documentos como critério de seleção.
Ainda sobre a frequência de ocorrência, vale salientar a pertinência da frequência normalizada e não somente da frequência absoluta. Souza e Raghavan (2014) propõem o uso da frequência normalizada, pois a frequência absoluta de um sintagma nominal pode ser bem maior em um documento que seja mais extenso em comparação com outro menor. A medida normalizada é a divisão da frequência absoluta pelo número total de sintagmas nominais ocorridos no documento, sendo uma medida de importância relativa que independe do tamanho do documento.
Martins (2014), em sua tese, contabiliza a frequência de ocorrência dos sintagmas nominais extraídos, com vistas a demonstrar a importância dessa métrica para atividades de indexação e classificação de documentos. Nessa contabilização, o referido autor se utiliza dos sintagmas nominais que apareceram pelo menos sete vezes no documento. Esse limiar foi escolhido após a observação de que o número de repetições para o sintagma que mais aparecia no documento, em relação ao segundo, tinha uma queda abrupta. O mesmo acontecia até o sétimo sintagma mais frequente no documento. A partir desse ponto, o autor percebeu que existia uma tendência em diminuir minimamente o aparecimento do próximo sintagma, em relação aos anteriores (que apareciam mais vezes).
No tocante a estrutura dos sintagmas nominais, Souza (2005) demonstrou a importância de se levar em conta, paralelamente à frequência de ocorrência, o nível e a estrutura dos sintagmas nominais. O nível de um sintagma nominal corresponde ao número de substantivos que o compõem. Sintagmas de nível 1, 2 ou mais possuem potencialidades diferentes, como por exemplo, um sintagma nominal complexo pode muitas vezes não ser conciso, objetivo. Este autor propõe uma tabela com diferentes pontuações para os sintagmas nominais de acordo com o nível e estrutura dos mesmos, fazendo uso de uma classificação dos sintagmas nominais (CSN). Propõe também um método para cálculo da pontuação de cada sintagma nominal em função do CSN, onde sintagmas nominais relevantes recebem maiores valores de pontuação.
Lopes (2012) além de fazer uso de critério baseado em frequência no documento, já utilizado por outros autores, faz uso de critério que penaliza os sintagmas nominais que ocorrem com frequência em documentos de outros domínios, ou seja, corpus contrastante, julgando-os como sintagmas nominais que possuem pouco valor conceitual. Além disso, essa autora em sua pesquisa faz uso de um conjunto de heurísticas com o intuito de eliminar sintagmas que não funcionem como conceitos, e extrair sintagmas que funcionem como conceitos. Tais heurísticas podem ser adaptadas para critério de seleção de sintagmas nominais. Tais critérios levam em conta a estrutura gramatical dos sintagmas nominais, tendo em vista eliminar sintagmas nominais contendo números, iniciados com advérbio ou tendo pronome como núcleo, e detectar sintagmas nominais implícitos dentro de outros sintagmas nominais tratando os múltiplos adjetivos associados aos substantivos.
Embora não tenham utilizado critérios para selecionar sintagmas nominais, e por isto não componham os quadros anteriores, alguns trabalhos encontrados suscitam a aplicação de certos critérios de seleção.
Um desses foi o trabalho de Mesquita, Souza e Porto (2013), no qual indicam a potencialidade do uso do posicionamento dos sintagmas nominais no texto como um critério de seleção. Os autores realizaram um estudo, onde identificaram as características de teses de doutorado de oito áreas de conhecimento. As partes das teses analisadas foram a “introdução”, o “desenvolvimento” e a “conclusão”. Por meio da pesquisa desses autores, pôde-se perceber que as partes constitutivas das teses, de diferentes áreas do conhecimento, apresentam diferentes quantidades de sintagmas nominais e distintos comportamentos, como, por exemplo, as teses da área de Letras, as quais apresentaram maiores porcentagens de sintagmas nominais identificados, tendendo assim a possuir maior densidade de conceitos associados aos sintagmas nominais.
O trabalho descrito anteriormente corrobora com a indagação de Corrêa et al. (2011): “Será que não seria o caso de se levar em consideração o posicionamento dos sintagmas nominais do mesmo modo que se verifica nos sistemas de indexação baseados em palavras isoladas?”. Apesar desse critério ainda não ter sido utilizado na seleção de sintagmas nominais para textos em português, acredita-se que a utilização do elemento “posicionamento” contribuirá para a indexação automática por sintagmas nominais, do mesmo modo que ocorre na indexação manual, na qual são levadas em consideração as partes mais informativas dos documentos.
Em (CORRÊA; BAZÍLIO 2017) é apontado também um critério que pode ser adaptado para a seleção de sintagmas nominais. Neste trabalho foi traçado um perfil descritivo das sequências ou padrões de etiquetas gramaticais das palavras-chaves presentes no texto de documentos e que foram extraídas ou não como sintagmas nominais pelo software OGMA. Os padrões de etiquetas mais frequentes na estrutura das palavras-chaves podem ser utilizados para selecionar sintagmas nominais que contenha tais padrões como os provavelmente mais relevantes. Porém, este critério ainda não foi avaliado em pesquisas envolvendo a seleção de sintagmas nominais para textos escritos em língua portuguesa.
Quanto ao escopo dos critérios de seleção de sintagmas nominais, percebe-se que a maioria dos critérios se baseia em características inerentes aos sintagmas nominais, seja quanto ao nível do sintagma nominal, a estrutura gramatical do mesmo, ou o conteúdo léxico em termos de expressões presentes em stoplist. Levando em conta a frequência de adoção em metodologias de seleção de sintagmas nominas, ganham destaque os critérios baseados no conteúdo do documento e conteúdo do corpus, sendo tal conteúdo representado em termos de frequência de ocorrência de cada sintagma nominal em cada documento e no conjunto de documentos respectivamente.
Borges e Lima (2015) realizaram estudo voltado para a identificação de critérios utilizados na construção de softwares de indexação automática no período de 1950 a 2008. Como resultado da referida pesquisa, são apontados oito principais critérios para a extração de termos relevantes na indexação automática. Os critérios identificados como importantes foram: 1. Formatação de frases-termo (word phrase formation) através da união de palavras adjacentes; 2. Frequência absoluta de ocorrência de termos no texto como critério de ordenamento por importância; 3. Identificação de palavras por comparação com uso de dicionário, buscando corrigir erros ortográficos; 4. Identificação de radicais de palavras (word stemming) visando a conflação de termos; 5. Lista de palavras proibidas (stoplist / stopwords) a fim de descartar palavras irrelevantes; 6. Peso numérico (term weighting) através da razão entre a frequência no documento e a frequência na coleção; 7. Posição do termo no texto como critério de ordenamento por importância; 8. Vocabulário semântico/Vocabulário de cabeçalhos conceituais/Tesauro como fonte de termos relevantes a serem cotejados no texto dos documentos.
Embora os critérios apontados por Borges e Lima (2015) tenham como escopo majoritário a extração de palavras isoladas como termos de indexação, tais critérios ratificam a importância dos critérios encontrados por este trabalho, uma vez que se verificam semelhanças entre os critérios considerados relevantes por ambos os trabalhos, como: Formatação de frases-termo (semelhante à extração de sintagmas nominais); Frequência absoluta de ocorrência de termo no texto; Lista de palavras proibidas (semelhante à lista de sintagmas nominais não descritores); Peso numérico (que é proporcional à frequência inversa de ocorrência de termos nos documentos); e Posição do termo no texto.
As metodologias de seleção de sintagmas nominais em textos em língua portuguesa baseiam-se em critérios como frequência absoluta de ocorrência, na frequência normalizada de ocorrência, na frequência inversa de ocorrência nos documentos, na não ocorrência em lista de sintagmas pouco significativos, na estrutura gramatical e no nível do sintagma nominal.
Apesar da não aplicação do critério de posição do termo no texto nos trabalhos voltados para indexação automática por meio de sintagmas nominais, Corrêa et al. (2011) e Borges e Lima (2015) apontam para a relevância deste critério, ratificando o fato de que determinadas partes de um texto são potencialmente mais relevantes do que outras.
O escopo dos critérios de seleção de sintagmas nominais encontrados é em sua maioria baseados em características do sintagma nominal quanto à estrutura gramatical, nível e conteúdo lexical. Levando em conta a adoção de cada critério nas pesquisas, predominam os baseados no conteúdo do documento e no conteúdo do corpus.
Apesar da limitação quanto ao número reduzido de trabalhos encontrados que realizam a seleção de sintagmas nominais, este artigo se mostra como um trabalho pertinente e fundamental para o desenvolvimento de pesquisas voltadas para a indexação automática por meio de sintagmas nominais, uma vez que sintetiza e categoriza critérios de seleção de sintagmas nominais, etapa crucial para a obtenção de sintagmas nominais relevantes na descrição dos assuntos dos documentos.
Como sugestões de trabalhos futuros, aponta-se a necessidade de que mais estudos se voltem especificamente para a seleção de sintagmas nominais, propondo e avaliando critérios para seleção, analisando detidamente a eficácia de cada um dos critérios de seleção de sintagmas nominais, bem como também a aplicação combinada de múltiplos critérios de seleção no contexto de indexação automática por sintagmas nominais.
CONTRIBUIÇÃO DE AUTORIA: Concepção e elaboração do manuscrito: G. D. Nascimento, R. F. Correa Coleta de dados: G. D. Nascimento, R. F. Correa Análise de dados: G. D. Nascimento, R. F. Correa Discussão dos resultados: G. D. Nascimento, R. F. Correa Revisão e aprovação: G. D. Nascimento, R. F. Correa
CONJUNTO DE DADOS DE PESQUISA: Todo o conjunto de dados que dá suporte aos resultados deste estudo foi publicado no próprio artigo.
LICENÇA DE USO: Os autores cedem à Encontros Bibli os direitos exclusivos de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution (CC BY) 4.0 International. Estra licença permite que terceiros remixem, adaptem e criem a partir do trabalho publicado, atribuindo o devido crédito de autoria e publicação inicial neste periódico. Os autores têm autorização para assumir contratos adicionais separadamente, para distribuição não exclusiva da versão do trabalho publicada neste periódico (ex.: publicar em repositório institucional, em site pessoal, publicar uma tradução, ou como capítulo de livro), com reconhecimento de autoria e publicação inicial neste periódico.
PUBLISHER: Universidade Federal de Santa Catarina. Programa de Pós-graduação em Ciência da Informação. Publicação no Portal de Periódicos UFSC. As ideias expressadas neste artigo são de responsabilidade de seus autores, não representando, necessariamente, a opinião dos editores ou da universidade.
EDITORES: Enrique Muriel-Torrado, Edgar Bisset Alvarez, Camila Barros.



