Cuando ya se ha realizado y seleccionado los factores se procede al análisis multivariado llamado clúster o de conglomerados. Este método estadístico permite formar grupos homogéneos de establecimientos y heterogéneos entre los mismos (Valerio Cabrera et al. 2004). A partir de una tabla de casos-variables, sitúa los casos- individuos en grupos homogéneos, no conocidos de antemano, de tal manera que individuos que puedan considerarse similares integren un mismo grupo y aquellos individuos diferentes en clúster distintos. Esto permite obtener grupos o categorías lo más homogéneos posible, ordenados, para facilitar el estudio posterior y su entendimiento (Pérez López 2001).
Hay dos grandes métodos de análisis de conglomerados: los llamados jerárquicos y los no jerárquicos. Los primeros forman los tipos en pasos sucesivos y pueden analizar en cada paso las distancias entre los grupos formados, constituyendo estos grupos con una estructura arborescente. Los no jerárquicos son aquellos que asignan los casos a grupos diferenciados que el propio análisis configura, sin que dependan unos de otros (Pérez López 2001).
Otra técnica de determinación de tipos o subsistemas productivos además del análisis de conglomerados es el análisis discriminante, pero a diferencia del anterior, esta técnica estadística permite asignar o clasificar nuevos individuos dentro de grupos previamente definidos. Esto hace que no sea utilizado, salvo a posteriori de la tipificación (Valerio Cabrera et al. 2004)
Para este trabajo se ha elegido el Análisis de Conglomerado Jerárquico. Antes de la realización de la clasificación en tipologías y la construcción del dendrograma, se debe definir los criterios de distancia y los de aglomeración. El primero de ellos, para decidir cuáles son los elementos de la muestra más próximos entre sí es necesario disponer de un criterio de distancia. La distancia mide la proximidad entre casos o grupos de casos. Sus valores crecen en función de la distancia, alcanzan valores mínimos para casos cercanos y valores grandes para casos lejanos. Hay varios métodos, pero los más usados son la distancia Euclídea y la distancia Euclídea al cuadrado. La primera, se corresponde con la distancia geométrica habitual en un espacio multidimensional. Se define como la raíz cuadrada de la suma de los cuadrados de las
diferencias en los valores de cada variable para los dos elementos considerados. La segunda, que es la suma de las diferencias al cuadrado sin tomar en cuenta la raíz cuadrada, tiene como efecto asignar un mayor peso a los objetos más alejados (Álvarez Cáceres 1995; González et al. 2013; Pedroza y Dicovskyi 2007). Se ha elegido la distancia Euclídea al cuadrado ya que tiene la ventaja de no tener que tomar la raíz cuadrada, lo que acelera notablemente los cálculos, y es la medida más recomendada para los métodos de análisis clúster del Centroide y Ward (Pedroza y Dicovskyi 2007)
Con respecto a los criterios de aglomeración, una vez definida la distancia que utilizar, se calcula la distancia de cada caso de un grupo con todos los casos del otro grupo y se calcula el promedio entre todas ellas, esta operación se realiza con todos los grupos, asociando en el paso siguiente a los dos grupos con un valor promedio menor (Álvarez Cáceres 1995). Hay diversos métodos, los más usados son la media de grupo, el método de centroide y el método de Ward (Peña 2002). Para este trabajo se eligió el método de Ward, ya que puede ser adecuado cuando se busca grupos de clases con poca variabilidad interna o sea, con elementos muy similares entre sí. En este método se unen los dos elementos que dan lugar a una menor pérdida de información. Considera la suma de cuadrados de distancias de cada objeto al centro de su clase (mínima varianza o inercia) (González et al. 2013).
Si bien el proceso jerárquico de aglomeración puede expresarse gráficamente de diversas formas, la más aceptada es el dendrograma, que representa la aglomeración en forma de árbol. En este gráfico se ven todas las clasificaciones obtenidas y su relación jerárquica. Así, la altura de las ramas representa la distancia promedio de las unidades de observación al interior de los grupos y entre los grupos. El principal aporte del dendrograma es que da una representación visual de cómo varían los datos y sirve como una útil herramienta para justificar la selección de clúster (Pedroza y Dicovskyi 2007; Álvarez et al. 2014). El número de tipos determinados depende de la altura de corte en el dendrograma. No hay un método único que determine exactamente el número de grupos a seleccionar, pero hay muchos criterios y métodos para lograrlo. Según Álvarez y otros (2014), los números de clúster seleccionados pueden hacerse por: la apariencia general del dendrograma, un número prefijado de clúster, la interpretación de los mismos y por el examen del delta de las alturas. Aun así, siempre hay subjetividad en la selección de las particiones.
En este trabajo se tomará en cuenta un nivel que aparezca como interesante y representativo desde el punto de vista del número de grupos que resulte (Escobar y Berdegué 1990), teniendo en cuenta que mientras más tipos, mayor será la heterogeneidad entre ellos, mayor la homogeneidad dentro de los tipos y más difícil utilizar la tipología (Valerio Cabrera et al. 2004).
Al observar el dendrograma resultante, se ha decidido seleccionar 5 tipos según se ve en la figura 3.1. El dendrograma nos muestra la distribución de los productores por tipo. El resultado arrojado indica que para el tipo 1 existen 13 productores, para el tipo 2, 15 productores, el tipo 3, el de mayor cantidad de fincas, comprende 31 productores, el tipo 4, solo 4 productores y en el tipo 5 se encuentran 24 productores. Esto hace a la suma de los 87 establecimientos censados.
Figura 3.1; Dendrograma del análisis clúster.
Fuente: Elaboración propia utilizando programa estadístico InfoStat.