Estadística Descriptiva De Dos Variables

   EMBED

Share

Preview only show first 6 pages with water mark for full document please download

Transcript

ESTAD´ISTICA DESCRIPTIVA: DOS VARIABLES Juli´an de la Horra Departamento de Matem´aticas U.A.M. 1 Introducci´ on En muchos casos estaremos interesados en hacer un estudio conjunto de varias caracter´ısticas de una poblaci´on. Para fijar ideas y para no complicar la notaci´on supongamos que deseamos estudiar dos caracter´ısticas cuantitativas X e Y de una poblaci´on (consideramos variables cuantitativas porque los conceptos que se van a definir, s´olo tienen sentido para ellas). X e Y pueden ser la longitud y la anchura de una especie de insectos, la tasa de inflaci´on y la tasa de desempleo de un pa´ıs a lo largo de una serie de a˜ nos, etc. El objetivo fundamental en este cap´ıtulo ser´a encontrar una funci´on lo m´as sencilla posible que exprese (de manera resumida) la relaci´on que se observe entre X e Y a partir de los datos obtenidos. Nos centraremos en el caso en que esta relaci´on sea de tipo lineal y pueda expresarse razonablemente bien mediante la recta de regresi´on de Y sobre X. Esta recta de regresi´on es muy u ´til porque puede ser utilizada para muchas relaciones no lineales, mediante sencillos cambios de las variables originales. 2 Conceptos b´ asicos y planteamiento Para hacer el estudio conjunto de las variables cuantitativas X e Y , supondremos que disponemos de una muestra de n pares de observaciones de X e Y: (x1 , y1 ), . . . , (xn , yn ) Es decir, para el elemento i-´esimo de la muestra observamos lo que valen las variables X e Y . Esto es fundamental para poder decir algo sensato sobre la posible relaci´on entre las variables. Igual que en el cap´ıtulo dedicado a la Estad´ıstica Descriptiva de una variable, no se har´a ninguna menci´on sobre c´omo se ha obtenido la muestra. Tenemos en mente la idea de que representa a la poblaci´on total (de alguna forma), pero esta idea ni se precisar´a ni se necesitar´a (de momento). Por supuesto, se puede hacer un estudio de cada variable por separado y calcular, en particular, medidas de centralizaci´on y de dispersi´on como x¯, vx , y¯, vy . Adem´as, estos valores los necesitaremos m´as adelante. Pero, como ya hemos indicado, no es ´este el objetivo fundamental. 1 Antes de hacer cualquier c´alculo, conviene representar en el plano los pares de valores obtenidos. Con esto obtenemos un diagrama de dispersi´on con una nube de puntos, que nos puede dar una idea visual de las posibles relaciones existentes. Adem´as de los conceptos ya estudiados de media y varianza, vamos a necesitar en nuestro estudio el concepto de covarianza; este concepto utiliza las dos variables a la vez. Definici´ on.- La covarianza muestral entre las observaciones de X e Y se define como covx,y = n 1X (xi − x¯)(yi − y¯) n i=1 • La manera m´as sencilla de calcular la covarianza es haciendo un desarrollo similar al de la varianza: n n n n X X 1 X 1X xy¯ yi − y¯ xi + n¯ (xi − x¯)(yi − y¯) = xi yi − x¯ = n i=1 n i=1 i=1 i=1 ! covx,y n 1 X = xi yi − n¯ xy¯ n i=1 ! La covarianza va a aparecer de manera natural al obtener rectas de regresi´on (un poco m´as adelante). De momento, es f´acil ver que existe una relaci´on entre el signo de la covarianza y el tipo de asociaci´on que hay entre X e Y: 1. Cuando los valores de Y tienden a crecer al crecer los valores de X, decimos que hay una asociaci´ on positiva entre X e Y . Es f´acil razonar gr´aficamente a partir de la definici´on de covarianza para ver que, en este caso, la covarianza ser´ a positiva. 2. Cuando los valores de Y tienden a disminuir al crecer los valores de X, decimos que hay una asociaci´ on negativa entre X e Y . Es f´acil razonar gr´aficamente a partir de la definici´on de covarianza para ver que, en este caso, la covarianza ser´ a negativa. 3. Finalmente, cuando no parece haber una influencia clara de X sobre Y (es decir, cuando los valares de X aumentan, no se aprecia ni aumento ni disminuci´on de los valores de Y ), tambi´en es f´acil ver que, en este caso, el valor de la covarianza ser´ a pr´ oximo a cero. 2 3 Modelo de regresi´ on lineal Supongamos que la nube de puntos obtenida en el diagrama de dispersi´on de Y sobre X sugiere una relaci´on lineal entre las variables, bien con una asociaci´on positiva, bien con una asociaci´on negativa entre ellas. En estos casos, parece bastante razonable intentar resumir toda la nube de puntos mediante una recta; con esta recta se tratar´ıa de formalizar la idea de que existe una cierta relaci´on lineal entre los valores de X e Y . Una de las variables jugar´a el papel de variable independiente (X) y la otra desempe˜ nar´a el papel de variable respuesta (Y ) o variable dependiente de la primera . Esta secci´on est´a dedicada a obtener la recta de regresi´on de Y sobre X. Definici´ on.- La recta de regresi´ on de Y sobre X es la recta y = a+bx que minimiza el error cuadr´atico medio (E.C.M.): E.C.M. = n 1X (yi − a − bxi )2 n i=1 • La idea de la recta de regresi´on es sencilla: intentamos encontrar la recta que mejor representa a la nube de puntos, en el sentido de minimizar la media de los cuadrados de las distancias verticales de los diferentes puntos de la nube a la recta. El problema de hallar esta recta de regresi´on se reduce al problema t´ecnico de minimizar una funci´on (E.C.M.) de dos variables (a y b). Eso es lo que hacemos a continuaci´on: E.C.M. = n 1X (yi − a − bxi )2 n i=1 n n n n n X X X X 1 X = yi2 + na2 + b2 x2i − 2a yi − 2b xi yi + 2ab xi n i=1 i=1 i=1 i=1 i=1 ! Derivando con respecto a cada variable e igualando a cero, obtenemos el siguiente sistema de ecuaciones: n n X X 1 ∂(E.C.M.) = 2na − 2 yi + 2b xi = 0 ∂a n i=1 i=1 ! n n n X X X ∂(E.C.M.) 1 2 = 2b xi − 2 xi yi + 2a xi = 0 ∂b n i=1 i=1 i=1 ! La soluci´on del sistema anterior se obtiene de manera inmediata: covx,y covx,y a = y¯ − x¯ ; b= vx vx 3 Se puede comprobar (pero no lo haremos) que esta soluci´on corresponde a un m´ınimo de la funci´on. Por tanto, la recta de regresi´on de Y sobre X es: y = a + bx = y¯ − covx,y covx,y x¯ + x vx vx En definitiva, la recta de regresi´ on de Y sobre X se puede escribir de la siguiente forma: covx,y (x − x¯) y − y¯ = vx 4 Evaluaci´ on del ajuste La recta de regresi´on de Y sobre X que acabamos de estudiar se puede obtener para cualquier conjunto de datos pero, obviamente, en unos casos, esta recta resumir´a muy bien la nube de puntos (buen ajuste), y en otros casos, la resumir´a peor (mal ajuste). La herramienta num´erica que se suele utilizar para evaluar la bondad de este ajuste es el coeficiente de correlaci´on lineal, que se define a continuaci´on. Definici´ on.- El coeficiente de correlaci´ on lineal entre X e Y se define como: covx,y • r=√ vx vy El problema inicial del coeficiente de correlaci´on es que, a partir de la definici´on, no se sabe cu´al es su significado. Este significado quedar´a muy claro en cuanto veamos que el error cuadr´atico medio cometido con la recta de regresi´on de Y sobre X se puede expresar en funci´on del coeficiente de correlaci´on lineal: “Error cuadr´atico medio cometido con la recta de regresi´on” 2 n  1X covx,y covx,y = yi − y¯ + x¯ − xi n i=1 vx vx  n  n n 1 X covx,y 2 X covx,y X 2 = (yi − y¯) + (xi − x¯)2 − 2 (xi − x¯)(yi − y¯) n i=1 vx vx i=1 i=1 ! (covx,y )2 (covx,y )2 = vy − = vy 1 − = vy (1 − r2 ) vx vx vy " # Ahora es f´acil decir varias cosas sobre el significado de r, y sobre sus posibles valores: 4 1. El coeficiente de correlacion lineal toma siempre un valor entre -1 y +1 (ya que el E.C.M., al ser una suma de cuadrados, no puede ser negativo). 2. Cuando el valor de r es pr´ oximo a +1, el error cuadr´atico medio cometido con la recta de regresi´on es pr´oximo a cero y, por tanto, el ajuste es bueno. Adem´as, tendremos una asociaci´ on positiva entre X e Y , ya que la covarianza es positiva (por ser r positivo). 3. Cuando el valor de r es pr´ oximo a -1, el error cuadr´atico medio cometido con la recta de regresi´on es nuevamente pr´oximo a cero y, por tanto, el ajuste es bueno. Adem´as, tendremos una asociaci´ on negativa entre X e Y , ya que la covarianza es negativa (por ser r negativo). 4. Cuando el valor de r es pr´ oximo a cero, el error cuadr´atico medio cometido con la recta de regresi´on se hace mayor y, por tanto, el ajuste es malo. Adem´as, observemos que, en este caso, no habr´a una clara influencia de X sobre Y , ya que el valor de la covarianza es pr´oximo a cero (por ser r pr´oximo a cero). 5. Finalmente, se˜ nalemos que el valor de r siempre hay que tomarlo con precauci´on ya que resume en un s´olo n´ umero toda la riqueza de la nube de puntos. 5