03.6 Arquivo de Palavras Proibidas (Stopwords)

WinISIS

Se os campos forem indexados utilizando a técnica 4 (palavra por palavra) artigos e preposições são também indexadas. Para suprimi-las do dicionário, cria-se um único arquivo stopwords para cada base de dados. As palavras inseridas na lista não serão indexadas.

Constitui-se num arquivo texto (ASCII), criado em qualquer editor de texto (Edit do DOS; Bloco de Notas, Windows). Possui extensão stw, deve ter o mesmo nome da base, pois é utilizado juntamente com a FST e fica armazenado no mesmo diretório da base. As seguintes regras devem ser obedecidas:

  • usar uma palavra proibida por linha;

  • escrever em caixa alta;

  • alinhar a esquerda (iniciando na coluna 1);

  • ser rigorosa ordem alfabética ascendente;

  • usar no máximo 10 caracteres por palavra;

  • usar no máximo 799 linhas.

Exemplo:

A

AN

AND

AO

AOS

Sempre que o arquivo de stopwords for criado ou alterado é precisor Gerar Arquivo Invertido para que as alterações tenham efeito.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *