1.1 Escalonamento multidimensional

Dado um conjunto de objetos tais que seus atributos individuais são coordenadas de pontos de um espaço de dimensão possivelmente elevada, as técnicas de escalonamento multidimensional permitem representar os objetos como pontos de um novo espaço de dimensão relativamente pequena, tornando visualizável as dissimilaridades entre os objetos dos problemas.

O aspecto notável do escalonamento dimensional consiste no fato de que é suficiente conhecermos apenas as distâncias entre os objetos no espaço original, sem que as coordenadas de cada ponto sejam especificadas. De fato, veremos que basta conhecermos uma ordenação entre tais distâncias. Essas técnicas foram desenvolvidas fundamentalmente por Shepard (1962) e Kruskal (1964). Borg e Groenen (2005) é uma referência exaustiva sobre o tema.

Inicialmente, suponha que temos um conjunto de \(n\) objetos (marcas ou produtos), cujos atributos \(x_1,\dots,x_n\in\mathbb{R}^p\) são conhecidos. Há diversas maneiras de definirmos a distância entre dois objetos. Por exemplo, a distância euclidiana usual, definida por \[ d_{ij} = \sqrt{\sum_{m=1}^p (x_{im}-x_{jm})^2}. \]

Quando cada atributo assume apenas os valores \(0\) e \(1\), podemos definir a distância de Jaccard \[ d_{ij} = 1 - \frac{\sum_{m=1}^p x_{im}x_{jm}}{\sum_{m=1}^p x_{im} + \sum_{m=1}^p x_{jm} - \sum_{m=1}^p x_{im}x_{jm}}, \] que será utilizada e interpretada em nossa terceira aplicação.

Para cada problema considerado, há uma definição de distância apropriada, que deve ser interpretada adequadamente.

Matematicamente, qualquer distância \(d_{ij}\) considerada entre os objetos do problema deve satisfazer as seguintes propriedades:

  1. \(d_{ij} \geq 0\);
  2. \(d_{ij} = 0\) se e somente se \(i = j\);
  3. \(d_{ij} = d_{ji}\);
  4. \(d_{ij} \leq d_{ik} + d_{kj}\),

para \(i,j,k=1,\dots,n\).

Uma medida de dissimilaridade \(d_{ij}\) é uma “distância enfraquecida”, que não satisfaz a desigualdade triangular (propriedade 4 acima).

Um primeiro exemplo de construção de uma medida de dissimilaridade seria solicitarmos a um grupo de indivíduos “notas” em uma escala de \(0\) a \(10\) que meçam a dissimilaridade entre os objetos do problema. Neste caso, as dissimilaridades \(d_{ij}\) seriam definidas pela média das notas dadas por todos os indivíduos. Na Aplicação 1, as dissimilaridades são definidas dessa maneira.

Um segundo exemplo de medida de dissimilaridade consiste em solicitarmos a cada um de \(n\) indivíduos que agrupe os objetos do problema de maneira arbitrária, de modo que objetos de um mesmo grupo sejam considerados similares do ponto de vista individual. Neste caso, as dissimilaridades seriam definidas por \[ d_{ij} = \frac{n - (\text{quantas vezes } i \text{ e } j \text{ foram alocados no mesmo grupo})}{n}. \]

Conhecendo-se apenas as distâncias, ou apenas as dissimilaridades entre os objetos do problema, o escalonamento multidimensional determina pontos \(z_1,\dots,z_n\in\mathbb{R}^k\), em que \(k\) é menor do que \(p\), de maneira a minimizar a função objetivo \[ S(z_1,\dots,z_n) = \sum_{i,j=1}^n\left(d_{ij} - \sqrt{\sum_{m=1}^k (z_{im}-z_{jm})^2}\right)^2. \]

Assim, os objetos passam a ser representados em um espaço de dimensão reduzida, mantendo-se de maneira aproximada a informação original sobre as distâncias ou dissimilaridades entre os objetos do problema.

Nesse procedimento de redução dimensional, conforme veremos em nossas aplicações, a escolha da dimensão \(k\) envolve a análise dos autovalores da matriz \(D=(d_{ij})\). Detalhes matemáticos podem ser encontrados no capítulo 4 de Fernandez e Yohai (2014).