Una lista de exclusión, o lista de palabras excluidas, es una lista predefinida de palabras que se filtran del texto durante los procesos de recuperación e indexación de la información.
Uso
El propósito de una lista de exclusión es excluir palabras que son tan comunes y frecuentes en una lengua que ofrecen poco valor a la hora de distinguir un documento de otro.
Operadores
Las listas de exclusión suelen incluir palabras como “a”, “un”, “el”, “en”, “de” y otras preposiciones, conjunciones y artículos. Sin embargo, estas palabras no transmiten un significado significativo por sí solas, y su inclusión en una consulta o índice de búsqueda daría lugar a muchos resultados de búsqueda irrelevantes.
Procesamiento del lenguaje
En el procesamiento del lenguaje natural (PLN), las listas de exclusión se utilizan a menudo para preprocesar datos textuales antes de tareas como la clasificación de documentos, el análisis de sentimientos o el modelado de temas.
Al eliminar las palabras vacías de un documento o un corpus, las palabras restantes adquieren más información y revelan los temas y tópicos subyacentes.