5.1 Terminologia

Em um conjunto de dados textuais cada unidade de informação é denominada documento. O conjunto de todos os documentos em que estamos interessados é denominado corpus.

No tipo de análise que iremos considerar, cada documento é reduzido a um conjunto de palavras, sem levar-se em conta a posição relativa das palavras dentro do documento, ou as estruturas sintáticas. Tal representação é denominada sacola-de-palavras (bag-of-words).

De fato, cada documento fica representado por uma lista de termos e suas respectivas frequências de ocorrência no documento. Tais termos não são formados necessariamente por palavras individuais.

Na preparação de um conjunto de dados textuais, podemos identificar tokens (símbolos) que formam termos com mais de uma palavra. Por exemplo, a expressão “muito ruim” pode ser considerada um único token (um bigrama) formado pelas palavras “muito” e “ruim”, tendo um sentido diferente das palavras “muito” e “ruim” consideradas separadamente. Do mesmo modo, podemos tratar “Ministério da Justiça” como um único token (um trigrama). Um token formado por \(n\) palavras é denominado \(n\)-grama.

Esta possibilidade de definirmos \(n\)-gramas aumenta substancialmente o poder expressivo da representação via sacola-de-palavras. Por exemplo, considere dois documentos, o primeiro deles contendo a frase João foi à casa de Maria, e o segundo contendo a frase Maria foi à casa de João. Do ponto de vista dos unigramas João, Maria, foi, à, casa, de, os dois documentos são indistinguíveis, apesar da evidente distinção semântica. No entanto, a definição dos trigramas casa de João e casa de Maria permite distinguir adequadamente os dois documentos.