Calcolare la Covarianza: Guida Dettagliata con Esempi Pratici

onion ads platform Ads: Start using Onion Mail
Free encrypted & anonymous email service, protect your privacy.
https://onionmail.org
by Traffic Juicy

Calcolare la Covarianza: Guida Dettagliata con Esempi Pratici

La covarianza è una misura statistica che indica come due variabili si muovono insieme. In altre parole, ci dice se all’aumentare di una variabile tende ad aumentare (o diminuire) anche l’altra. È un concetto fondamentale in statistica e data science, utilizzato per comprendere le relazioni tra i dati e costruire modelli predittivi più accurati.

Cosa è la Covarianza?

Formalmente, la covarianza misura la variazione congiunta di due variabili rispetto alle loro medie. Un valore di covarianza positivo indica che le variabili tendono a muoversi nella stessa direzione (quando una aumenta, anche l’altra tende ad aumentare), mentre un valore negativo indica che tendono a muoversi in direzioni opposte (quando una aumenta, l’altra tende a diminuire). Una covarianza pari a zero suggerisce l’assenza di una relazione lineare tra le due variabili.

Tuttavia, è importante sottolineare che la covarianza, presa da sola, non è sempre facile da interpretare. La sua grandezza dipende dalle scale di misurazione delle variabili, quindi un valore alto non significa necessariamente che la relazione sia forte, e viceversa. Per questo motivo, spesso si preferisce utilizzare il coefficiente di correlazione di Pearson, che è una versione normalizzata della covarianza e fornisce un’indicazione più chiara della forza della relazione lineare.

Formula della Covarianza

La formula per calcolare la covarianza (popolazionale) tra due variabili X e Y è la seguente:

cov(X, Y) = Σ [(Xi – μx) * (Yi – μy)] / N

Dove:

  • Xi è l’i-esimo valore della variabile X
  • Yi è l’i-esimo valore della variabile Y
  • μx è la media della variabile X
  • μy è la media della variabile Y
  • N è il numero totale di osservazioni
  • Σ indica la sommatoria di tutti i valori

Nel caso di una covarianza campionaria, la formula è leggermente diversa e utilizza (N-1) al denominatore invece di N. Questa correzione (chiamata correzione di Bessel) serve a rendere la stima della covarianza campionaria un estimatore non distorto della covarianza della popolazione:

cov(X, Y) = Σ [(Xi – x̄) * (Yi – ȳ)] / (N – 1)

Dove:

  • è la media campionaria della variabile X
  • ȳ è la media campionaria della variabile Y

Passaggi per Calcolare la Covarianza

Ecco i passaggi dettagliati per calcolare la covarianza, sia per dati popolazionali che campionari:

Passo 1: Raccogli i Dati

Il primo passo è raccogliere i dati relativi alle due variabili di cui si vuole calcolare la covarianza. Questi dati possono essere in forma di tabelle, liste o array. Assicurati che ogni coppia di valori (Xi, Yi) corrisponda alla stessa osservazione.

Ad esempio, consideriamo i seguenti dati relativi alle ore di studio e al punteggio ottenuto a un test per 5 studenti:

StudenteOre di Studio (X)Punteggio al Test (Y)
1250
2360
3470
4580
5690

Passo 2: Calcola le Medie

Calcola la media aritmetica di ciascuna variabile.

Per le ore di studio (X):

μx = (2 + 3 + 4 + 5 + 6) / 5 = 20 / 5 = 4

Per i punteggi al test (Y):

μy = (50 + 60 + 70 + 80 + 90) / 5 = 350 / 5 = 70

Passo 3: Calcola gli Scarti dalla Media

Per ogni valore di X e Y, calcola la differenza tra quel valore e la rispettiva media.

StudenteOre di Studio (X)Punteggio al Test (Y)(Xi – μx)(Yi – μy)
1250-2-20
2360-1-10
347000
4580110
5690220

Passo 4: Moltiplica gli Scarti dalla Media

Per ogni coppia di valori, moltiplica gli scarti dalla media di X e gli scarti dalla media di Y.

StudenteOre di Studio (X)Punteggio al Test (Y)(Xi – μx)(Yi – μy)(Xi – μx) * (Yi – μy)
1250-2-2040
2360-1-1010
3470000
458011010
569022040

Passo 5: Somma i Prodotti degli Scarti

Somma tutti i risultati ottenuti al passo precedente.

Σ [(Xi - μx) * (Yi - μy)] = 40 + 10 + 0 + 10 + 40 = 100

Passo 6: Dividi per il Numero di Osservazioni (o N-1 per dati campionari)

Per dati popolazionali, dividi la somma ottenuta per il numero totale di osservazioni (N). Per dati campionari, dividi per (N-1). Nel nostro esempio, stiamo considerando un campione, quindi dividiamo per N-1= 5-1 = 4.

cov(X, Y) = 100 / (5-1) = 100 / 4 = 25

Quindi, la covarianza tra le ore di studio e il punteggio al test è 25.

Interpretazione della Covarianza

In questo esempio, la covarianza è 25. Questo valore positivo indica che esiste una relazione diretta tra le ore di studio e il punteggio al test, ovvero, in generale, più uno studente studia, più alto tende ad essere il suo punteggio. Tuttavia, come detto in precedenza, la grandezza della covarianza è influenzata dalla scala di misurazione delle variabili e non ci dice quanto forte è questa relazione.

Esempio di Covarianza Negativa

Supponiamo ora di voler calcolare la covarianza tra il numero di ore passate a guardare la tv (X) e il voto all’esame di matematica (Y). I dati sono:

StudenteOre di TV (X)Voto Mat (Y)
119
228
337
446
555

Calcoliamo le medie:

μx = (1+2+3+4+5)/5 = 15/5 = 3

μy = (9+8+7+6+5)/5 = 35/5 = 7

Creiamo una tabella con gli scarti dalla media e i prodotti:

StudenteOre di TV (X)Voto Mat (Y)(Xi – μx)(Yi – μy)(Xi – μx) * (Yi – μy)
119-22-4
228-11-1
337000
4461-1-1
5552-2-4

Somma dei prodotti degli scarti: -4-1+0-1-4 = -10

Calcolo della covarianza: -10 / (5-1) = -10 / 4 = -2.5

In questo caso, la covarianza è -2.5. Questo valore negativo indica che c’è una relazione inversa tra le ore di TV e il voto in matematica, ovvero all’aumentare delle ore di TV, in generale il voto tende a diminuire.

Limitazioni della Covarianza

Come menzionato precedentemente, la covarianza è influenzata dalle scale di misurazione delle variabili. Un valore di covarianza alto non implica necessariamente una relazione forte, e viceversa. Inoltre, la covarianza misura solo la relazione lineare tra due variabili; se la relazione è non lineare (ad esempio, una relazione parabolica), la covarianza potrebbe essere vicina a zero anche se le variabili sono correlate.

Uso della Covarianza in Pratica

Nonostante le sue limitazioni, la covarianza è un concetto importante in molti ambiti:

  • Finanza: La covarianza viene utilizzata per misurare come si muovono i prezzi di due asset e per costruire portafogli di investimento diversificati.
  • Statistica: La covarianza è un elemento fondamentale per il calcolo della matrice di covarianza, che descrive la variabilità di un insieme di variabili.
  • Machine Learning: La covarianza è usata per ridurre la dimensionalità dei dati e per calcolare la correlazione tra le caratteristiche.

Covarianza vs Correlazione

La covarianza e la correlazione sono entrambi strumenti per misurare la relazione tra due variabili, ma la correlazione è una versione normalizzata della covarianza, e quindi offre maggiori vantaggi in termini di interpretazione. Il coefficiente di correlazione di Pearson, ad esempio, varia tra -1 e 1, con -1 che indica una perfetta correlazione negativa, 1 che indica una perfetta correlazione positiva e 0 che indica l’assenza di correlazione lineare. La correlazione permette quindi di valutare la forza e la direzione della relazione in modo indipendente dalle scale di misura delle variabili.

Conclusione

Calcolare la covarianza è un passo fondamentale per analizzare le relazioni tra variabili. Anche se la sua interpretazione diretta può essere complessa a causa della sua dipendenza dalle scale di misura, la covarianza è uno strumento prezioso che consente di comprendere come le variabili si muovono insieme e che fornisce le basi per calcolare altre misure statistiche come la correlazione. Comprendere bene la covarianza e i suoi limiti ti aiuterà a diventare un analista di dati più competente e ad applicare questo concetto in diversi ambiti, dalla statistica al machine learning.

0 0 votes
Article Rating
Subscribe
Notify of
0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments