Comparing XQuery and PSM Queries

3.2 Validation Tools

3.2.7 Comparing XQuery and PSM Queries

Aunque de momento no habíamos recabado en ello, la incorporación de las variables tipo nominal u ordinal en los modelos de regresión no es tan directa como en el caso de las variables numéricas.

Si usted incluye como variable explicativa la superficie en un modelo de regresión, sabe cómo interpretar el coeficiente obtenido: incremento en el precio por un incremento de un metro cuadrado en la superficie, ceteris pari-

bus. Si ahora la variable fuera de tipo ordinal, como el número de dormito-

rios, la interpretación sería análoga: incremento en el precio por un incremen- to de una habitación, ceteris paribus.

Para la superficie es lógico pensar que pasar de 80 a 81 metros cuadrados se pueda valorar, aproximadamente, en la misma cantidad que pasar de 81 a 82 metros cuadrados. Pero en el caso del número de dormitorios esto ya no es tan evidente. ¿Pagaría usted lo mismo por pasar de una habitación a dos? ¿Y de dos a tres? Parece claro que los incrementos marginales en este caso no tienen por qué ser constantes. De no considerar esta posibilidad estamos res- tringiendo nuestro modelo, pues le imponemos que valore esos incrementos en la variable independiente de la misma forma, con exactamente la misma cantidad. Y restringir un modelo, como ya examinamos anteriormente, significa empeorar la solución en la mayoría de los casos. Demos entonces la posibilidad de que sea nuestro modelo el que valore si el precio a pagar por cada dormitorio adicional sea el mismo, con independencia del número de dormitorios.

Para incluir esta opción en nuestros modelos debemos transformar las variables nominales u ordinales en variables binarias. La transformación se debe hacer de la siguiente forma: por cada variable nominal u ordinal con niveles diferentes, se deben construir variables binarias.

Las variables binarias sólo pueden tomar dos valores, por lo general 0 y 1, para indicar la ausencia o la presencia de una propiedad.

Veamos un ejemplo con la variable número de dormitorios. En nuestra muestra esta variable fluctuaba entre los valores 1 y 4, según se muestra en el siguiente gráfico:

Figura 24. Gráfico de barras del número de dormitorios

Puesto que son 4 los niveles de esta variable, tendremos que crear 3 variables binarias. Por ejemplo:

NumDormitorios2: Tomará valor 1 (se activará) cuando el número de dormitorios sea 2, y cero (se desactivará) en caso contrario. Es decir, que si el número de dormitorios es 1, 3 o 4, entonces la variable tomará valor cero.

NumDormitorios3: Tomará valor 1 cuando el número de dormitorios sea 3, y cero en caso contrario.

NumDormitorios4: Tomará el valor 1 cuando el número de dormitorios sea 4, y cero en caso contrario.

De esta forma, sólo necesitamos 3 variables para poder representar el número de dormitorios de cualquier vivienda en nuestra muestra, dejando como nivel de referencia el de 1 dormitorio. Por ejemplo, si una vivienda tiene 3 habitaciones, las variables binarias tomarán los siguientes valores:

Se estará preguntando, ¿qué ocurre cuando una vivienda tenga 1 dormitorio? Este caso vendrá representado por la combinación:

En la siguiente tabla aparecen algunos ejemplos de representación del número de dormitorios con estas 3 nuevas variables binarias:

0 10 20 30 40 50 60 70 80 1 dormitorio 2 dormitorios 3 dormitorios 4 dormitorios

NumDormitorios NumDormitorios2 NumDormitorios3 NumDormitorios4 4 0 0 1 4 0 0 1 3 0 1 0 2 1 0 0 1 0 0 0 3 0 1 0 3 0 1 0 2 1 0 0 1 0 0 0 3 0 1 0

De esta forma, en la nueva regresión sustituiríamos la variable original NumDormitorios por las 3 variables binarias recién definidas. El resultado de la regresión múltiple sería el siguiente:

En primer lugar, vemos que hemos mejorado ligeramente el ajuste, pasando de un ajustado de 60,41% a un valor de 62,07%. Tanto el modelo en su conjunto, como cada uno de los 6 coeficientes estimados han resultado ser estadísticamente significativos para un nivel de confianza del 95%. Los signos de los coeficientes asociados a la superficie y a la antigüedad tienen el signo esperado: positivo. Antes de analizar los signos de los coeficientes de las variables binarias es necesario conocer su interpretación:

El coeficiente de NumDormitorios2 se interpreta como la diferencia de precio entre una vivienda con dos dormitorios respecto del caso base o nivel de referencia de una vivienda con un dormitorio. En este caso, la habitación adicional supone un menor precio de 88.262,03€. El coeficiente de NumDormitorios3 se interpreta como la diferencia de precio entre una vivienda con tres dormitorios respecto del caso base o nivel de referencia de una vivienda con un dormitorio. En este caso, tener 3 habitaciones supone un menor precio de 120.792,35€ respecto de tener una sola habitación. Vemos cómo el descenso en el precio continúa, pero así como tener dos dormitorios suponía un me- nor valor de 88.262,03€, pasar a un tercer dormitorio no significa minorar el precio en otros 88.262,03€. La diferencia respecto de dos dormitorios es de 120.792,35-88.262,03 = 32.530,32€. Si hubiéramos utilizado la variable original del número de dormitorios, cada uno de ellos hubiera disminuido el precio en la misma cantidad. Y vemos que, para las viviendas de nuestra muestra, el descenso en el precio es diferente según el número de dormitorios.

El coeficiente de NumDormitorios4 se interpreta como la diferencia de precio entre una vivienda con cuatro dormitorios respecto del caso base o nivel de referencia de una vivienda con un dormitorio. En este caso, tener 4 habitaciones supone un menor precio de 122.766,14€ respecto de tener una sola habitación. ¿Qué diferencia tenemos respecto del caso de 3 habitaciones? Restando los coeficientes 122.766,14-120.792,35 vemos como la habitación adicional reduce el precio en sólo 1.973,79€.

Aunque estos coeficientes puedan parecer llamativos, debemos tener presen- tes que las interpretaciones son suponiendo constantes el resto de variables. Es decir, la diferencia de precios se entiende para viviendas con la misma superficie y antigüedad.

Pongamos un ejemplo para entender esta afirmación. Puede pensar que pasar de 3 a 4 dormitorios hace que el precio baje en 1.973,79€. ¿Cómo es posible que una vivienda con más habitaciones tenga un menor precio? La respuesta es que no necesariamente el precio será más bajo. Si una habitación adicional supone, por ejemplo, una superficie de 10 metros cuadrados más, entonces el

precio se verá incrementado por esa partida en 10x2.540,13 = 25.401,30€. Es decir, que el precio habría subido en 25.401,30-1.973,79 = 23.427,51€. El mismo tratamiento debemos dar a las variables de tipo nominal, como por ejemplo la orientación de las viviendas. Supongamos que tenemos definida esta variable con 4 posibles niveles: Este, Oeste, Norte y Sur. Podríamos considerar la orientación Este como el nivel de referencia, y crear entonces tres variables binarias: BinariaOeste, BinariaNorte y BinariaSur. Por ejemplo.

In document τbench: Extending XBench with Time (Page 31-47)