4.1 Utilidade latente

Suponha que um consumidor enfrente uma decisão de escolha entre um número finito de alternativas (daí o nome modelos de escolha “discreta”). Para o consumidor, tais escolhas apresentam características e custos distintos. Formalmente, para \(i=1,\dots,n\), o consumidor \(i\) é apresentado a um conjunto de \(k\) alternativas, atribuindo utilidades \(U_{ij}\in\mathbb{R}\) às alternativas \(j=1,\dots,k\), de maneira que essas utilidades ordenem suas preferências relativas dentro do conjunto das alternativas que lhe foram apresentadas (veja McFadden (1974) e Train (1998)). Isso define uma função de utilidade que é conhecida para o consumidor, mas não para o pesquisador. O consumidor \(i\) escolhe a alternativa \(j\) se e somente se \(U_{ij}>U_{j\ell}\), para todo \(\ell\neq j\).

Mesmo não podendo observar diretamente as utilidades \(U_{ij}\), o pesquisador possui informações sobre atributos das alternativas, conforme percebidos por cada consumidor. Denotamos essas informações por \(x_{ij}\in\mathbb{R}^p\), para \(i=1,\dots,n\) e \(j=1,\dots,k\), em que \(p\) é o número de atributos de cada alternativa. Por exemplo, em um contexto de escolha entre marcas de sabão em pó, podemos conhecer atributos tais como: nível de conhecimento do consumidor sobre o fabricante; percepção individual da eficiência do produto na limpeza; opinião do consumidor quanto à degradação de tecidos submetidos ao produto etc.

Além das informações relativas às alternativas, o pesquisador pode observar variáveis que dependam somente do consumidor, tais como classe social, idade, número de filhos, ou número de membros da família. Nos referimos a essas variáveis como “sociodemográficas”, denotando o vetor de suas componentes por \(z_i\in\mathbb{R}^q\), para o consumidor \(i\). Apesar desse termo, o conteúdo dessas variáveis pode ser genérico; basta que seja dado em função apenas do consumidor considerado.

Ademais, o pesquisador observa, para \(i=1,\dots,n\), as escolhas \(y_i\in\mathbb{R}^k\) feitas pelos consumidores entre as alternativas existentes, em que o vetor \(y_i\) é definido de maneira que sua \(j\)-ésima componente seja igual a um se o consumidor \(i\) fez a escolha \(j\), e as demais componentes sejam iguais a zero (convenção denominada one-hot encoding pelos praticantes de Machine Learning).

Suponha que definimos uma função \(V(x_{ij},z_i)\), de maneira que a utilidade \(U_{ij}\) (latente, não observada) possa ser escrita como \(U_{ij}=V(x_{ij},z_i)+\epsilon_{ij}\), em que \(\epsilon_{ij}\) é uma variável aleatória que representa todos os fatores não observados que afetam a utilidade \(U_{ij}\). Em um modelo de escolha, estamos interessados na probabilidade \(\pi_{ij}\) do indivíduo \(i\) fazer a escolha \(j\), dada por \[\begin{align*} \pi_{ij} &= \Pr\{U_{ij}>U_{i\ell}, \text{para todo } \ell\neq j\} \\ &= \Pr\{\epsilon_{i\ell}-\epsilon_{ij}<V_{ij}-V_{i\ell}, \text{para todo } \ell\neq j\}, \end{align*}\] na qual utilizamos a abreviação \(V_{ij}=V(x_{ij},z_i)\). Resta claro que tais probabilidades dependem da distribuição dos \(\epsilon_{ij}\). Em particular, McFadden (1974) demonstrou que, se os \(\epsilon_{ij}\) são independentes e possuem distribuição de valor extremo do tipo \(\mathrm{I}\), então essas probabilidades podem ser escritas na forma \[ \pi_{ij} = \frac{\exp(V_{ij})}{\sum_{\ell=1}^k \exp(V_{i\ell})}. \] Apresentamos essa demonstração no apêndice ao final deste capítulo.

Na próxima seção, para que possamos descrever um painel de consumidores que fazem escolhas sucessivas, generalizamos essa discussão do problema de escolha de alternativas de consumo, introduzindo o modelo bayesiano hierárquico que será utilizado em nossa aplicação.