5.3 Modelo de tópicos

Suponha que você tenha em mãos um corpus cuja extensão torne a leitura de todos os documentos proibitiva.

Por exemplo, você tem acesso a milhares de decisões judiciais de ações trabalhistas relacionadas a um certo setor da indústria, ou centenas de milhares de e-mails de uma grande corporação envolvida em esquemas de corrupção.

Um modelo de tópicos probabilístico é uma técnica de aprendizagem não supervisionada que permite agrupar os documentos do corpus de acordo com os seus conteúdos. Ou seja, com o modelo de tópicos criamos clusters de documentos levando em conta suas similaridades e dissimilaridades.

A ideia é que há um certo número de tópicos, que são variáveis aleatórias latentes (não observadas), e que as palavras dos documentos têm uma distribuição de probabilidades que depende do tópico específico do documento ao qual elas pertencem.

O objetivo dessa modelagem é obter a probabilidade a posteriori dos tópicos de cada documento, dados os conteúdos de todos os documentos do corpus.

O modelo probabilístico dominante na área de modelagem de tópicos é a Latent Dirichlet Allocation, ou LDA (Blei et al. (2003)).

Ao final do treinamento do modelo LDA, temos as palavras mais prováveis de cada tópico, bem como o tópico mais provável de cada documento do corpus.