Introdução



Este livro apresenta ao leitor uma série de problemas relacionados a dados mercadológicos. Para cada problema, começamos com uma discussão de natureza geral, que é subsequentemente formalizada. Cada questão discutida é exemplificada por um ou mais conjuntos de dados. O código computacional de todas as soluções é apresentado na íntegra.

Os processos de análise de dados vivem uma época de transformação e crise de identidade das disciplinas tradicionais. A demanda contemporânea é a integração total, sob o rótulo de Data Science, das técnicas e ferramentas originalmente desenvolvidas separadamente por disciplinas tais como Estatística, Machine Learning e Ciência da Computação. É um momento de renovação de currículos e integração de habilidades. O livro pretende traduzir o espírito da época, conjugando os aspectos matemáticos, inferenciais e computacionais envolvidos nas questões de marketing e negócios.

O ambiente de código aberto criado pela linguagem R ampara toda a nossa discussão. Fazemos um uso intenso de diversas bibliotecas específicas da linguagem, que formam um poderoso conjunto de ferramentas de Data Science. Não esperamos do leitor conhecimentos da linguagem maiores do que aqueles que podem ser adquiridos através de leituras preliminares dos livros de Cotton (2013) e Grolemund e Wickham (2016).

Segue uma breve descrição do conteúdo dos capítulos do livro. No capítulo 1, apresentamos ferramentas e exemplos relacionados às questões de estrutura de mercado, nas quais procuramos entender geometricamente as relações de concorrência entre marcas e produtos. No capítulo 2, abordamos novamente a concorrência entre marcas, porém de um outro ponto de vista, mais adequado às situações em que temos informações detalhadas sobre as marcas e produtos, que vão além de uma simples medida de similaridade. No capítulo 3, exploramos os modelos de escolha discreta, que permitem representar e analisar as escolhas de um agente diante de um leque finito de bens ou serviços, envolvendo atributos tais como marcas, preços etc. No capítulo 4, discutimos a análise de dados textuais, introduzindo os conceitos básicos através da mineração de dados do Twitter. Em seguida, analisamos o modelo de tópicos, uma técnica de aprendizagem não supervisionada que permite particionar um conjunto de documentos em clusters definidos por um modelo probabilístico que utiliza as frequências das ocorrências das palavras em cada documento.

Alguns conjuntos de dados utilizados no livro foram gentilmente disponibilizados pela Ipsos. São dados reais, ligeiramente transformados, por questões de confidencialidade. Agradecemos à Ipsos por essa contribuição vital ao projeto. Parcerias como essa, entre empresas e instituições de ensino e pesquisa, são sempre enriquecedoras e de grande valor social. Fica aqui o nosso agradecimento especial a Mariane Medina, diretora da Unidade Global de Modelagem da Ipsos, cujos esforços permitiram que os dados chegassem até nós em um formato adequado.

Este projeto não teria sido possível sem a infraestrutura e o apoio do Insper - Instituto de Ensino e Pesquisa. Nossos agradecimentos especiais a Marcos Lisboa, Carolina da Costa e Paulo Furquim de Azevedo.

Agradecemos ao artista plástico Kakati de Paiva pela criação da capa do livro, que constitui a visão do artista de uma hipersuperfície de classificação.

Finalmente, deixamos nosso agradecimento in memorian ao professor Elon Lages Lima do Instituto de Matemática Pura e Aplicada.