Oggi è 22/12/2024, 16:55


Interpolazione, regressione e correlazione

In questo spazio vengono discussi argomenti semplici che riguardano soprattutto chi è alle prime armi
  • Autore
  • Messaggio
Non connesso

Mauro

  • Messaggi: 628
  • Iscritto il: 22/10/2011, 1:32
  • Località: Roma

Re: Interpolazione, regressione e correlazione

Messaggio28/02/2012, 19:34

Considerazioni sulla variabilità attorno alla retta di regressione/2

Consideriamo la prima delle due equazioni,

\sum_{i=1}^{n}y_i=na+b\[\sum_{i=1}^{n}x_i

e dividiamo sia il primo che il secondo membro per n, la numerosità del campione (o della popolazione); si ottiene:

{1 \over n}\sum_{i=1}^{n}y_i=a+b{1 \over n}\[\sum_{i=1}^{n}x_i

Ma, dalle definizioni di media aritmetica:

\bar{x}={1 \over n}\sum_{i=1}^{n}x_i

e

\bar{y}={1 \over n}\sum_{i=1}^{n}y_i

sostituendo nella precedente, segue la tesi:

\bar{y}=a+b\bar{x}
Non connesso

Mauro

  • Messaggi: 628
  • Iscritto il: 22/10/2011, 1:32
  • Località: Roma

Re: Interpolazione, regressione e correlazione

Messaggio28/02/2012, 19:56

Considerazioni sulla variabilità attorno alla retta di regressione/3

Nel post del 20/02/2012 18:50, a questo link: viewtopic.php?f=2&t=118&start=20

avevamo fatto vedere che il coefficiente della retta di regressione può anche essere scritto come:

b={\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}

Ora, ricordando le definizioni di varianza e covarianza, la precedente espressione può essere riscritta nella forma:

b={cov(x,y) \over \sigma_x ^2}

Infine, dalla formula prima dimostrata:

\bar{y}=a+b\bar{x}

possiamo osservare che, noto b, l'intercetta a può anche calcolarsi come:

a=\bar{y}-b\bar{x}=\bar{y}-{cov(x,y) \over \sigma_x^2 }\bar{x}

e ciò conduce, in definitiva, ad una possibile riscrittura per l'equazione della retta di regressione:

y=a+bx=\bar{y}-{cov(x,y) \over \sigma_x ^2}\bar{x}+{cov(x,y) \over \sigma_x^2 }x=\bar{y}+{cov(x,y) \over \sigma_x^2 }(x-\bar{x})
Non connesso

Mauro

  • Messaggi: 628
  • Iscritto il: 22/10/2011, 1:32
  • Località: Roma

Re: Interpolazione, regressione e correlazione

Messaggio28/02/2012, 20:09

Considerazioni sulla variabilità attorno alla retta di regressione/4

Riprendiamo ora la formula con la quale abbiamo indicato la varianza della stima:

S^2_{y/x}={\sum_{i=1}^n (y-y_i)^2\over n}

per mezzo della quale siamo poi giunti ad una definizione dell'errore standard.

Procediamo ad un piccolo sviluppo teorico di questa relazione per poter giungere, in conclusione, alla definizione del coefficiente di determinazione. Abbiamo appena fatto vedere che l'equazione della retta di regressione è possibile scriverla nella forma:

y=\bar{y}+{cov(x,y) \over \sigma_x^2 }(x-\bar{x})

che, sostituita nella relazione che esprime la varianza della stima, fornisce:


S^2_{y/x}={1 \over n}\sum_{i=1}^n (\bar{y}+{cov(x,y) \over \sigma_x^2 }(x_i-\bar{x})-y_i)^2
Non connesso

Mauro

  • Messaggi: 628
  • Iscritto il: 22/10/2011, 1:32
  • Località: Roma

Re: Interpolazione, regressione e correlazione

Messaggio28/02/2012, 20:19

Considerazioni sulla variabilità attorno alla retta di regressione/5

Ordiniamo:

S^2_{y/x}={1 \over n}\sum_{i=1}^n \Big [(\bar{y}-y_i)+{cov(x,y) \over \sigma_x^2 }(x_i-\bar{x})\Big ]^2

e sviluppiamo il quadrato.

S^2_{y/x}={1 \over n}\sum_{i=1}^n (\bar{y}-y_i)^2+

+{1 \over n}\sum_{i=1}^n{cov(x,y)^2 \over \sigma_x^4 }(x_i-\bar{x})^2-

-{1 \over n}\sum_{i=1}^n2{cov(x,y) \over \sigma_x^2 }(x_i-\bar{x})(y_i-\bar{y})
Non connesso

Mauro

  • Messaggi: 628
  • Iscritto il: 22/10/2011, 1:32
  • Località: Roma

Re: Interpolazione, regressione e correlazione

Messaggio28/02/2012, 21:29

Considerazioni sulla variabilità attorno alla retta di regressione/6

Il primo termine corrisponde alla varianza delle y. Infatti:

\sigma_y^2={1 \over n}\sum_{i=1}^n (\bar{y}-y_i)^2+

Il secondo lo possiamo riscrivere anche nel seguente modo:

{1 \over n}\sum_{i=1}^n{cov(x,y)^2 \over \sigma_x^4 }(x_i-\bar{x})^2={cov(x,y)^2 \over \sigma_x^4 }{1 \over n}\sum_{i=1}^n (x_i-\bar{x})^2

dove, nel termine sotto sommatoria, riconosciamo la varianza delle x; e quindi:

{cov(x,y)^2 \over \sigma_x^4 }{1 \over n}\sum_{i=1}^n (x_i-\bar{x})^2={cov(x,y)^2 \over \sigma_x^4 }\sigma_x^2={cov(x,y)^2 \over \sigma_x^2 }

E infine il terzo termine, che analogamente agli altri può essere scritto in questo modo:

{1 \over n}\sum_{i=1}^n2{cov(x,y) \over \sigma_x^2} (x_i-\bar{x})(y_i-\bar{y})=2{cov(x,y) \over \sigma_x^2}{1 \over n}\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})=

=2{cov(x,y) \over \sigma_x^2}cov(x,y)=2{cov(x,y)^2 \over \sigma_x^2}
Non connesso

Mauro

  • Messaggi: 628
  • Iscritto il: 22/10/2011, 1:32
  • Località: Roma

Re: Interpolazione, regressione e correlazione

Messaggio28/02/2012, 21:57

Considerazioni sulla variabilità attorno alla retta di regressione/7

Riscriviamo il tutto:

S^2_{y/x}=\sigma_y^2+{cov(x,y)^2 \over \sigma_x^2 }-2{cov(x,y)^2 \over \sigma_x^2}

semplificando:

S^2_{y/x}=\sigma_y^2-{cov(x,y)^2 \over \sigma_x^2}

Ed ora, ricordiamo la definizione di coefficiente di correlazione:

\rho_{xy}={cov(x,y) \over \sigma_x\sigma_y}

in forza della quale possiamo scrivere:

cov(x,y)=\rho_{xy} \sigma_x\sigma_y

e sostituendo quest'ultima:

S^2_{y/x}=\sigma_y^2-{\rho_{xy}^2 \sigma_x^2\sigma_y^2 \over \sigma_x^2}=\sigma_y^2-\rho_{xy}^2 \sigma_y^2=\sigma_y^2(1-\rho_{xy}^2)
Non connesso

Mauro

  • Messaggi: 628
  • Iscritto il: 22/10/2011, 1:32
  • Località: Roma

Re: Interpolazione, regressione e correlazione

Messaggio28/02/2012, 22:21

Considerazioni sulla variabilità attorno alla retta di regressione/8

Ed ora possiamo fare le considerazioni finali. Discutiamo l'ultima relazione che ci indica la varianza intorno alla retta di regressione:

S^2_{y/x}=\sigma_y^2(1-\rho_{xy}^2)

Analizziamo i due casi limite:

a) il modulo del coefficiente di correlazione è unitario, ovvero:

\rho_{xy}=\pm 1

b) il coefficiente di correlazione è nullo:

Nel primo caso tutti i punti della retta di regressione sono allineati (giacciono esattamente sulla retta di regressione) e la varianza intorno alla retta di regressione è nulla. E' un risultato che era lecito attendersi: se tutti i punti sono allineati sulla retta, e non intorno a questa (qualcuno su e qualcuno giù), non vi è variabilità e la retta di regressione descrive perfettamente la dipendenza lineare tra i due fenomeni in esame.

Nel secondo caso la varianza della retta di regressione è esattamente eguale alla varianza della y:

S^2_{y/x}=\sigma_y^2

e la retta di regressione non effettua alcuna interpolazione. In questo caso la sua equazione:

y= \bar{y}

è quella di una retta parallela all'asse delle ascisse.
Non connesso

Mauro

  • Messaggi: 628
  • Iscritto il: 22/10/2011, 1:32
  • Località: Roma

Re: Interpolazione, regressione e correlazione

Messaggio01/03/2012, 16:06

Il coefficiente di determinazione, o R2, o R squared

Il coefficiente di determinazione, che gli anglosassoni chiamano R squared o, più sinteticamente, R2, è il quadrato del coefficiente di correlazione.
Dalla:

S^2_{y/x}=\sigma_y^2(1-\rho_{xy}^2)

che abbiamo appena visto, possiamo ricavarlo.

\rho_{xy}^2 =1-{S^2_{y/x} \over \sigma_y^2}={\sigma_y^2-S^2_{y/x} \over \sigma_y^2}

Ora, essendo il coefficiente di determinazione una quantità non negativa (è elevato al quadrato!) ed essendo la varianza delle y anch'essa non negativa, ne discende che dovrà necessariamente essere:

\sigma_y^2-S^2_{y/x}\ge0

ovvero:

\sigma_y^2 \ge S^2_{y/x}

dunque, la varianza intorno alla retta di regressione è sempre inferiore (al massimo eguale) alla varianza generale delle osservazioni y.

Ma l'interpretazione del coefficiente di determinazione che io maggiormente preferisco è la seguente:

esso rappresenta il rapporto tra la varianza spiegata dal processo interpolatorio e la varianza totale.

Infatti, il numeratore della:

\rho_{xy}^2 ={\sigma_y^2-S^2_{y/x} \over \sigma_y^2}

rappresenta la differenza tra la varianza totale e quella attorno alla retta di regressione; ed il denominatore, che come in ogni frazione rappresenta il nostro termine di confronto, è proprio la varianza totale.
Non connesso

Mauro

  • Messaggi: 628
  • Iscritto il: 22/10/2011, 1:32
  • Località: Roma

Re: Interpolazione, regressione e correlazione

Messaggio01/03/2012, 16:21

Il coefficiente di determinazione, esempio 1

Ed ora proviamo a calcolare questo coefficiente con excel partendo da uno degli esempi che abbiamo già visto. Il lettore certamente ricorderà l'analisi condotta da quell'insegnante di letteratura che voleva studiare la correlazione tra il profitto conseguito dai suoi allievi nella composizione scritta ed il numero di libri posseduti in famiglia.

Vediamo il foglio excel.

Generale1.png


Nella cella C21 è stato riportato il calcolo del coefficiente di determinazione facendo riferimento alla funzione che excel mette a disposizione per il calcolo di questo parametro: RQ. Si tratta di un numero che, in percentuale, è circa eguale al 61%. Il lettore provi, per esercizio, a verificare che il coefficiente di determinazione è effettivamente il quadrato del coefficiente di correlazione (qui riportato in C19).

In questo caso, quindi, la riduzione relativa della variabilità delle y, ascrivibile al processo interpolatorio, è del 61% circa.
Non hai i permessi necessari per visualizzare i file allegati in questo messaggio.
Non connesso

Mauro

  • Messaggi: 628
  • Iscritto il: 22/10/2011, 1:32
  • Località: Roma

Re: Interpolazione, regressione e correlazione

Messaggio01/03/2012, 16:28

Il coefficiente di determinazione, esempio 2

Nell'esempio peso dei padri / peso dei figli, invece, le cose vanno in maniera un po' diversa.

Vediamo il foglio di calcolo inerente questo esempio.

Generale2.png


Come il lettore potrà agevolmente osservare si nota che, in questo caso, la variabilità ascrivibile al processo interpolatorio è più bassa: 54% circa.
Non hai i permessi necessari per visualizzare i file allegati in questo messaggio.
PrecedenteProssimo

Torna a Concetti di base



Chi c’è in linea

Visitano il forum: Nessuno e 9 ospiti

cron