Oggi è 22/12/2024, 12:10


Interpolazione, regressione e correlazione

In questo spazio vengono discussi argomenti semplici che riguardano soprattutto chi è alle prime armi
  • Autore
  • Messaggio
Non connesso

Mauro

  • Messaggi: 628
  • Iscritto il: 22/10/2011, 1:32
  • Località: Roma

Re: Interpolazione, regressione e correlazione

Messaggio22/02/2012, 19:51

La correlazione

Affrontiamo ora lo studio di un argomento che è ritenuto uno dei capidaldi della statistica moderna: la correlazione. Si tratta di una misura di associazione, fra le tante poste in luce dalla letteratura del settore, tra due fenomeni suscettibili di essere misurati quantitativamente.

Vi è associazione, tra due fenomeni, se al manifestarsi dell'uno le determinazioni dell'altro si dispongono in modo particolare e specifico.

I fenomeni che possono essere oggetto di indagine statistica al fine di determinare se, tra gli stessi, vi possa essere associazione o indipendenza, riguardano moltissimi ambiti dello scibile umano: biologia, fisica, ingegneria, economia, demografia, pedagogia e linguistica (solo per fare pochi sporadici esempi).

E' qui opportuno mettere in guardia il lettore, una volta accertato il grado di associazione tra due fenomeni, circa il rischio di una deduzione di causalità tra i fenomeni medesimi. Si tratta delle cosiddette correlazioni spurie o, come dicono gli anglosassoni in modo probabilmente più incisivo, nonsense correlation.

La cautela interpretativa è d'obbligo e, per essere sicuro di aver indotto il lettore ad esercitare il proprio senso critico con ancor più forza, vorrei fare solo alcuni esempi di, appunto, deduzioni totalmente errate.
Non connesso

Mauro

  • Messaggi: 628
  • Iscritto il: 22/10/2011, 1:32
  • Località: Roma

Re: Interpolazione, regressione e correlazione

Messaggio22/02/2012, 20:13

Don't confuse correlation with causation

Verso la fine degli anni '30 del secolo scorso, Fischer propose un grafico in cui si mostra l'associazione esistente tra lo sviluppo della popolazione della città di Oldenburg ed il numero di cicogne osservato nell'intervallo di tempo 1930-1936 e che in tale città avevano nidificato.

correlazione1.png


Come si può vedere all'aumentare dell'una vi è un aumento dell'altra.

Nonostante tutti si conosca il meccanismo di generazione di un individuo della specie umana, affermare che vi sia un nesso di causalità tra una variabile e l'altra è, appunto, una correlazione spuria: una relazione di causalità priva di senso.

Molto più probabilmente è vero che, aumentando la popolazione e, con essa, il numero delle case di abitazione, si sia avuto anche un corrispondente incremento dei tetti che hanno fornito più spazio alla nidificazione delle cicogne e, quindi, ad un loro incremento numerico.
Non hai i permessi necessari per visualizzare i file allegati in questo messaggio.
Non connesso

Mauro

  • Messaggi: 628
  • Iscritto il: 22/10/2011, 1:32
  • Località: Roma

Re: Interpolazione, regressione e correlazione

Messaggio22/02/2012, 20:26

Ancora, sulle correlazioni spurie

Nella prefazione della commedia in cinque atti, il dilemma del dottore, del 1906, di George Bernard Shaw, vi sono alcune considerazioni del noto drammaturgo (sarcastiche, secondo il suo stile), in merito a queste associazioni prive di senso.

Scrive Shaw:

sarebbe facile provare che portare il cappello a cilindro e l'ombrello sviluppa il torace, prolunga la vita e conferisce una relativa immunità dalle malattie, perchè le statistiche mostrano che coloro i quali adoperano quei due oggetti sono più sviluppati, più sani e vivono più a lungo delle persone che non sognano nemmeno di possederli.

Non ci vuole molto acume per vedere che in realtà il benessere ed il miglior nutrimento sono gli elementi realmente correlati allo stato di salute ed alla durata della vita.
Non connesso

Mauro

  • Messaggi: 628
  • Iscritto il: 22/10/2011, 1:32
  • Località: Roma

Re: Interpolazione, regressione e correlazione

Messaggio22/02/2012, 20:53

Ancora, sulle correlazioni spurie

Nel capitolo 8 di How to lie with statistics, di D. Huff (del 1974), vi è un'ulteriore raccolta di correlazioni spurie.
Tra queste ve ne riporto una, certamente molto curiosa.

Si era dato ampio spazio a dati statistici che mostravano che le basse votazioni nelle prestazioni universitarie andavano di pari passo all'abitudine al fumo. La relazione, che era ben vista anche da coloro che sostenevano che il fumo fa male di per sé, fu quindi tranquillamente accettata. Si poteva allora affermare che, per ottenere buone votazioni, sarebbe stato sufficiente smettere di fumare. E, spingendo ancor più il ragionamento, che il fumo "ingrigisce" l'intelligenza e appanna i sensi, rendendo vane le prestazioni di uno studente universitario.

L'errore del ragionamento sta proprio nel ritenere che se due fenomeni sono positivamente associati (nel senso che al crescere dell'uno si ha una corrispondente crescita dell'altro) e che se uno dei due avviene prima dell'altro, il primo ne è sicuramente la causa ed il secondo ne è certamente l'effetto.

Sulla questione, poi, Huff (con una certa dose di malizia, debbo dire) afferma che la relazione potrebbe anche leggersi al contrario: i bassi voti inducono gli studenti a darsi al tabacco in luogo che all'alcol. Sarebbe una conclusione altrettanto plausibile e ben sostenuta e testimoniata dai riferimenti fattuali: ma non sembra soddisfacente per gli avversari del fumo!

Sembra, invece, che nè la prima abbia causato la seconda e nè la seconda sia stata causa della prima e che entrambe siano l'effetto di un fenomeno terzo.

Concludo con le raccomandazioni di Karl Pearson, noto statistico contemporaneo di Shaw, che pubblicava i suoi lavori sulla più celebre rivista inglese di statistica dell'epoca, Biometrika, e scriveva di non accettare supinamente le conclusioni basate sulle correlazioni.
E questo, sebbene un matematico capace di calcolare le correlazioni, in modo da riempire di ammirazione un Newton, sia soggetto anche lui, nel raccogliere ed accettare i dati e nel trarne le conclusioni, a cascare in errori grossi addirittura quanto gli spropositi volgari che sin'ora ho ricordato.
Non connesso

Mauro

  • Messaggi: 628
  • Iscritto il: 22/10/2011, 1:32
  • Località: Roma

Re: Interpolazione, regressione e correlazione

Messaggio22/02/2012, 21:39

La covariazione

Supponiamo di disporre di n coppie di osservazioni:

(x_1,y_1), (x_2,y_2), ..., (x_n,y_n)

definiamo covarianza (variare con) delle due variabili, la grandezza:

cov(x,y)={\sum_{i=1}^N (x_i-\bar{x})(y_i-\bar{y}) \over n}

dove:

\bar{x} e \bar{y}

sono i valori attesi (o valori medi) delle variabili x ed y:

\bar{x}=E(x)={1\over n}\sum_{i=1}^N x_i

\bar{y}=E(y)={1\over n}\sum_{i=1}^N y_i
Non connesso

Mauro

  • Messaggi: 628
  • Iscritto il: 22/10/2011, 1:32
  • Località: Roma

Re: Interpolazione, regressione e correlazione

Messaggio22/02/2012, 21:56

La covariazione

Può essere utile esprimere la covarianza in altro modo (magari per semplificare il calcolo con un foglio di calcolo):

cov(x,y)={\sum_{i=1}^N (x_i-\bar{x})(y_i-\bar{y}) \over n}=

={\sum_{i=1}^N (x_iy_i-x_i\bar{y}-y_i\bar{x}+\bar{x}\bar{y}) \over n}=

={1\over n}\sum_{i=1}^N x_iy_i-{1\over n}\sum_{i=1}^N x_i\bar{y}-{1\over n}\sum_{i=1}^N y_i\bar{x}+{1\over n}\sum_{i=1}^N \bar{x}\bar{y} =

={1\over n}\sum_{i=1}^N x_iy_i-{1\over n}\bar{y}\sum_{i=1}^N x_i-{1\over n}\bar{x}\sum_{i=1}^N y_i+{1\over n}n \bar{x}\bar{y} =

={1\over n}\sum_{i=1}^N x_iy_i-\bar{y}\bar{x}-\bar{x}\bar{y}+\bar{x}\bar{y} =

e, finalmente:

cov(x,y)={1\over n}\sum_{i=1}^N x_iy_i-\bar{x}\bar{y}
Non connesso

Balbi32

  • Messaggi: 28
  • Iscritto il: 29/10/2011, 21:07

Re: Interpolazione, regressione e correlazione

Messaggio23/02/2012, 16:55

Ti interrompo solo per esprimere i miei più sinceri complimenti , hai una dote naturale di chiarezza ed efficacia nell'esposizione dei concetti.

Marco
Non connesso

Mauro

  • Messaggi: 628
  • Iscritto il: 22/10/2011, 1:32
  • Località: Roma

Re: Interpolazione, regressione e correlazione

Messaggio23/02/2012, 17:41

Balbi32 ha scritto:Ti interrompo solo per esprimere i miei più sinceri complimenti , hai una dote naturale di chiarezza ed efficacia nell'esposizione dei concetti.

Marco


Grazie Marco.
:thanks
Non connesso

Mauro

  • Messaggi: 628
  • Iscritto il: 22/10/2011, 1:32
  • Località: Roma

Re: Interpolazione, regressione e correlazione

Messaggio23/02/2012, 17:46

La covarianza: cerchiamo di comprenderne il senso

Abbiamo definito la covarianza, bene. Ma che informazioni ci fornisce questa grandezza? Analizziamo la formula. Per ogni valore dell'indice i della sommatoria, noi eseguiamo il prodotto tra gli scarti delle due osservazioni dalle rispettive medie.

Forse, per comprendere meglio cosa succede da un punto di vista geometrico, proviamo a sostituire la parola "scarti" con la parola "distanze". Va meglio? Forse ancora no. E allora dobbiamo mettere su un esempio numerico.
Non connesso

Mauro

  • Messaggi: 628
  • Iscritto il: 22/10/2011, 1:32
  • Località: Roma

Re: Interpolazione, regressione e correlazione

Messaggio23/02/2012, 18:05

La covarianza: cerchiamo di comprenderne il senso

Supponiamo di disporre delle seguenti 9 coppie di osservazioni (non preoccupiamoci di sapere che cosa rappresentano, per il momento è sufficiente che siano semplicemente 9 coppie di numeri):

(10,20), (20,30), (25,20), (25,10), (30,40), (40,60), (60,100), (50,80), (10,90)

Riportiamole in un foglio excel

NoveCoppie.png



ed osserviamone il diagramma a dispersione

NoveCoppie2.png


dove, per maggior comodità di ricognizione, a fianco ad ognuno dei 9 punti rappresentanti le corrispondenti 9 coppie di osservazione, è stato posto un numero; il numero d'ordine del punto.
Non hai i permessi necessari per visualizzare i file allegati in questo messaggio.
PrecedenteProssimo

Torna a Concetti di base



Chi c’è in linea

Visitano il forum: Nessuno e 55 ospiti

cron