5 Dados textuais

Pedro J. Fernandez, Paulo C. Marques F. e Hedibert F. Lopes


Neste capítulo, iremos trabalhar com um tipo especial de dado, os dados em forma de texto, ou dados textuais (text data), que são uma fonte valiosa de informações relevantes para diversos aspectos da vida social.

Por exemplo, as opiniões de consumidores a respeito de produtos e serviços, expressas em redes sociais, afetam as chances de bons resultados de um negócio. De maneira análoga, opiniões sobre figuras políticas e personalidades midiáticas acabam por selar trajetórias de sucesso ou fracasso.

O crescimento das redes sociais deu proeminência a este tipo de dado e sua modelagem. De fato, a incorporação efetiva da informação de dados textuais em análises mais tradicionais ainda é um problema com muito espaço para desenvolvimento e inovação.

Entre as variantes de dados textuais, temos:

  1. Pequenas mensagens do Twitter (tweets), com no máximo duzentos e quarenta caracteres;

  2. Textos de tamanho intermediário, como avaliações de consumidores sobre livros, restaurantes, filmes etc;

  3. Textos mais longos, como críticas profissionais de livros e filmes, editoriais e notícias em jornais ou sites, comunicações para acionistas, registros médicos, discursos políticos e decisões judiciais.