www.optionclub.it

25/02/2012, 19:39

Verso il coefficiente di correlazione (esempio 2)

Riporto ora un secondo esempio. Si tratta di un'indagine condotta da un insegnante di letteratura italiana che intendeva mettere in relazione il voto di profitto conseguito dai suoi studenti nella sua materia con il numero di libri posseduti dalle rispettive famiglie (libri che, pertanto, i ragazzi avevano in caso e, volendo, vi avrebbero potuto accedere).

Ecco i dati (contenuti nelle colonne B e C).

ProfittoLibri.png

Le colonne D, E ed F hanno lo stesso significato che avevano nell'esempio 1. Una covarianza di 44,68, oltre a dirci che c'è dipendenza positiva tra le due variabili, ovvero che il profitto di un allievo tende ad aumentare all'aumentare del numero dei libri presenti in casa propria, cosa ci dice sull'intensità di tale relazione?

Sembrerebbe che sia meno intensa, rispetto a quella dell'esempio 1. Eppure, come saremo in grado di verificarlo tra breve, non è così! La verità è che tali valori non sono confrontabili.

25/02/2012, 22:28

Il coefficiente di correlazione di Bravais-Pearson

Karl Pearson (1857-1936), nel 1901, pubblicò un articolo sulla rivista Philosophical Magazine, dal titolo On lines and planes of closest fit to systems of points in space divenuto poi un caposaldo della correlazione. Pearson, nell'articolo, fa riferimento al metodo per il calcolo del best fit mediante varie formule ed esempi. E' bene precisare, comunque, che qualche tempo prima, Auguste Bravais (1811-1863), aveva gia' evidenziato matematicamente la correlazione partendo da lavori precedenti di Francis Galton.

Cominciamo col definirlo, quest'indice, da un punto di vista analitico:

$\rho_{xy}={cov(x,y) \over \sigma_x\sigma_y}$

Al numeratore abbiamo la covarianza e, al denominatore, vi è il prodotto tra le varianze della variabile x e della variabile y. Osserviamo subito che:
a. il segno algebrico di questo coefficiente coincide col segno algebrico della covarianza: la deviazione standard, infatti, può solo essere positiva (in realtà potrebbe anche essere nulla, ma ciò significherebbe che tutte le variabili sono eguali tra loro! Un caso degenere!
b. Così definito, inoltre, questo coefficiente è un numero puro: le dimensioni del numeratore, infatti, coincidono con quelle del denominatore.

Ora, queste due osservazioni sono ovvie, si tratta solo di pensarci un momento. Ve ne è però una terza:
c. il coefficiente di correlazione è un numero sempre compreso tra -1 e +1

che deve invece essere dimostrata.

Prima di passare alla dimostrazione dell'asserto c vorrei spendere altre due parole sull'utilità di questo coefficiente. Prima cosa: averlo definito in questo modo, significa averlo normalizzato. Senza addentrarci molto nei meandri di questo concetto - lo faremo, magari, quando avremo l'occasione di discutere delle variabili standardizzate - possiamo dire che, con la normalizzazione, limitiamo l'escursione dei valori entro un certo intervallo definito (in questo caso tra -1 e +1).
Seconda cosa (ed è, a mio avviso, la più importante): con questa definizione possiamo eseguire i confronti tra gradi di associazione lineare di fenomeni diversi e con unità di misura differenti. Cosa che, come il lettore ricorderà, non era possibile fare con la covarianza.

26/02/2012, 0:45

Il calcolo del coefficiente di correlazione - Esempio 1

Riprendiamo i dati dell'esempio 1.

ReddTemLib2.png

In cella D19 è stato eseguito il calcolo dell'indice di correlazione applicando la definizione appena data: rapporto tra la covarianza ed il prodotto delle due deviazioni standard. Nella cella C19, invece, è riportato il valore della correlazione avendo impiegato, per lo stesso, la funzione che excel mette a disposizione per il calcolo di questo indice:

CORRELAZIONE(B2:B12;C2:C12)

26/02/2012, 0:54

Il calcolo del coefficiente di correlazione - Esempio 2

Riprendiamo ora l'esempio 2. Calcoliamo la correlazione e troviamo che, in questo caso ...

ReddTemLib2.png

... l'indice di correlazione vale: 0,78 circa. Possiamo concludere, pertanto, che il grado di associazione tra le variabili dell'esempio 2 è più intenso del grado di associazione tra le variabili dell'esempio 1.

26/02/2012, 16:51

$-1\le\rho_{xy}\le1$ : dimostrazione /1

Quel che è promesso è debito. Cerchiamo ora di dimostrare che il coefficiente di correlazione, come già anticipato, è compreso tra -1 e +1, estremi inclusi. Naturalmente, come per altre parti del discorso che stiamo portando avanti, chi volesse può saltare questa parte.

Per prima cosa dobbiamo dimostrare che, date n coppie di osservazioni:

$(x_1, y_1), (x_2, y_2), ... (x_n, y_n)$

la varianza della nuova variabile statistica:

$(x+y)$

è pari a:

$var(x+y)=var(x)+var(y)+2cov(x,y)$

Sappiamo, infatti, che il valore atteso della nuova variabile (x+y) vale:

$E(x+y)={1 \over n}\sum_{i=1}^N (x_i+y_i)={1 \over n}(\sum_{i=1}^N x_i+\sum_{i=1}^N y_i)=$

$={1 \over n}\sum_{i=1}^N x_i + {1 \over n}\sum_{i=1}^N y_i = E(x)+E(y)$

scriviamo, ora, la varianza di (x+y):

$var(x+y)={1 \over n}\sum_{i=1}^N \Bigg ( x_i+y_i-E[x+y]\Bigg )^2$

che possiamo anche riscrivere, per quanto dimostrato prima:

$var(x+y)={1 \over n}\sum_{i=1}^N \Bigg ( x_i+y_i-E[x]-E[y]\Bigg )^2=$

$={1 \over n}\sum_{i=1}^N \Bigg ( x_i-E[x]+y_i-E[y]\Bigg )^2=$

$={1 \over n}\sum_{i=1}^N \Bigg ( (x_i-E[x])^2+(y_i-E[y])^2+2(x_i-E[x])(y_i-E[y])\Bigg )=$

$={1 \over n}\sum_{i=1}^N (x_i-E[x])^2+{1 \over n}\sum_{i=1}^N (y_i-E[y])^2+$

$+2{1 \over n}\sum_{i=1}^N (x_i-E[x])(y_i-E[y])=$

$=var(x)+var(y)+2cov(x,y)$

26/02/2012, 17:13

$-1\le\rho_{xy}\le1$ : dimostrazione /2

Analogamente a quanto appena fatto, ma lo sviluppo dell'intera dimostrazione è lasciato al lettore, si può dimostrare che:

$var(x-y)=var(x)+var(y)-2cov(x,y)$

Introduciamo, ora, le due variabili standardizzate:

$x^{\star}={x-E[x] \over\sigma_x}$

$y^{\star}={y-E[y] \over\sigma_y}$

Per quanto appena dimostrato, possiamo scrivere:

$var(x^{\star}+y^{\star})=var(x^{\star})+var(y^{\star})+2cov(x^{\star},y^{\star})$

Ora, si può agevolmente dimostrare che il valore atteso di una variabile standardizzata è nullo e che la varianza, invece, è unitaria (Tali dimostrazioni si lasciano, per esercizio, al lettore).
Pertanto, avendo definito l'indice di correlazione:

$\rho_{xy}={cov(x,y) \over \sigma_x\sigma_y}$

questo, può essere riscritto come:

$\rho_{xy}={cov(x,y) \over \sigma_x\sigma_y}=cov(x^{\star},y^{\star})$

Infatti:

$cov(x^{\star},y^{\star})={1\over n}\sum_{i=1}^N (x^{\star}-E[x^{\star}])(y^{\star}-E[y^{\star}])=$

$=\sum_{i=1}^N x^{\star}y^{\star}$

essendo nulli, come appena affermato, i valori attesi delle variabili standardizzate.
Sostituendo, nell'ultima espressione, le espressioni delle due variabili standardizzate, si ottiene:

$=\sum_{i=1}^N x^{\star}y^{\star}={1\over n} \sum_{i=1}^N {x_i-E[x] \over \sigma_x}{y_i-E[y] \over \sigma_y}=$

$={1\over n} {1\over (\sigma_x \sigma_y)}\sum_{i=1}^N x_i-E[x]y_i-E[y]=$

$= {cov(x,y)\over \sigma_x \sigma_y}$

26/02/2012, 20:03

$-1\le\rho_{xy}\le1$ : dimostrazione /3

Dal momento che la varianza di una variabile standardizzata è unitaria e, avendo fatto vedere che:

$\rho_{xy}={cov(x,y) \over \sigma_x\sigma_y}=cov(x^{\star},y^{\star})$

possiamo scrivere:

$var(x^{\star}+y^{\star})=var(x^{\star})+var(y^{\star})+2cov(x^{\star},y^{\star})=$

$=1+1+2\rho_{xy}=2(1+\rho_{xy})$

Ora, come abbiamo già avuto modo di osservare, una varianza è sempre positiva o, al massimo, è nulla (quando tutti i suoi elementi sono nulli). Quindi, scriviamo:

$=2(1+\rho_{xy})\ge0$

da cui:

$=1+\rho_{xy}\ge0$

ovvero:

$=\rho_{xy}\ge -1$

che corrisponde ad una delle due disugluglianze che si volevano dimostrare.

26/02/2012, 20:13

$-1\le\rho_{xy}\le1$ : dimostrazione /4

Per la dimostrazione dell'altra diseguaglianza è sufficiente partire dalla:

$var(x^{\star}-y^{\star})=var(x^{\star})+var(y^{\star})-2cov(x^{\star},y^{\star})=$

(la cui dimostrazione era stata lasciata al lettore) e, operando come nel caso precedente, possiamo scrivere:

$=1+1-2\rho_{xy}=2(1-\rho_{xy})$

Ma, essendo sempre una varianza non negativa:

$=2(1-\rho_{xy})\ge0$

da cui:

$=1-\rho_{xy}\ge0$

ovvero:

$=-\rho_{xy}\ge -1$

moltiplicando per -1 entrambi i membri di questa diseguaglianza, ed invertendo il verso della medesima (come è noto), si ottiene:

$=\rho_{xy}\le 1$

che è, appunto, la dimostrazione della seconda diseguaglianza.

Unendo i risultati delle due dimostrazioni, infine, possiamo concludere riaffermando la tesi:

$-1\le\rho_{xy}\le1$

28/02/2012, 17:42

ReMida ha scritto:Complimenti Mauro, si vede che sei padrone della materia per cui rendi questi concetti abbastanza semplici.

Ti chiedo una cortesia se è possibile: puoi condividere il foglio in maniera tale che possiamo seguire più la vicino la tua trattazione?
Grazie!

Salve ReMida, scusa se ti rispondo solo ora ma, evidentemente, non avevo notato la tua richiesta: semplicemente mi era sfuggita.

I fogli che ho utilizzato sono molto semplici, per la verità; e lo scopo, comunque, era anche quello di stimolare il lettore nel provare a replicarli ed acquisire, così, dimistichezza con questo potente strumento di calcolo.

Comunque, per tua e di altri comodità, eccoli qui (in ognuno dei fogli, contenuti nella cartella di lavoro, sono riportati i dati inerenti gli esempi trattati fino a questo momento).
Buon lavoro.

Generale.xls

28/02/2012, 19:22

Considerazioni sulla variabilità attorno alla retta di regressione/1

Prima di affrontare la questione del coefficiente di determinazione - in merito al quale, poi, riferirò su interessanti applicazioni che sono state proposte per l'analisi delle serie storiche finanziarie - vorrei dimostrare questo asserto:

la retta di regressione passa sempre per il punto di coordinate:

$(\bar{x},\bar{y})$

in sostanza, per il punto le cui coordinate corrispondono, rispettivamente, ai valori attesi della x e della y.

La dimostrazione non è difficile e, pertanto, invito anche il lettore che in genere salta tali passaggi, a darle un'occhiata.

Facciamo riferimento alle equazioni normali della retta dei minimi quadrati, già discusse in un precedente intervento:

$\left\{ \begin{array}{l l} \[\sum_{i=1}^{n}y_i=na+b\[\sum_{i=1}^{n}x_i \\ \\ \[\sum_{i=1}^{n}x_iy_i=\[\sum_{i=1}^{n}ax_i+\[\sum_{i=1}^{n}bx_i^2 \\ \end{array} \right.$

www.optionclub.it

Interpolazione, regressione e correlazione

Re: Interpolazione, regressione e correlazione

Re: Interpolazione, regressione e correlazione

Re: Interpolazione, regressione e correlazione

Re: Interpolazione, regressione e correlazione

Re: Interpolazione, regressione e correlazione

Re: Interpolazione, regressione e correlazione

Re: Interpolazione, regressione e correlazione

Re: Interpolazione, regressione e correlazione

Re: Interpolazione, regressione e correlazione

Re: Interpolazione, regressione e correlazione

Chi c’è in linea