Calcolare la Covarianza: Guida Dettagliata con Esempi Pratici
La covarianza è una misura statistica che indica come due variabili si muovono insieme. In altre parole, ci dice se all’aumentare di una variabile tende ad aumentare (o diminuire) anche l’altra. È un concetto fondamentale in statistica e data science, utilizzato per comprendere le relazioni tra i dati e costruire modelli predittivi più accurati.
Cosa è la Covarianza?
Formalmente, la covarianza misura la variazione congiunta di due variabili rispetto alle loro medie. Un valore di covarianza positivo indica che le variabili tendono a muoversi nella stessa direzione (quando una aumenta, anche l’altra tende ad aumentare), mentre un valore negativo indica che tendono a muoversi in direzioni opposte (quando una aumenta, l’altra tende a diminuire). Una covarianza pari a zero suggerisce l’assenza di una relazione lineare tra le due variabili.
Tuttavia, è importante sottolineare che la covarianza, presa da sola, non è sempre facile da interpretare. La sua grandezza dipende dalle scale di misurazione delle variabili, quindi un valore alto non significa necessariamente che la relazione sia forte, e viceversa. Per questo motivo, spesso si preferisce utilizzare il coefficiente di correlazione di Pearson, che è una versione normalizzata della covarianza e fornisce un’indicazione più chiara della forza della relazione lineare.
Formula della Covarianza
La formula per calcolare la covarianza (popolazionale) tra due variabili X e Y è la seguente:
cov(X, Y) = Σ [(Xi – μx) * (Yi – μy)] / N
Dove:
Xi
è l’i-esimo valore della variabile XYi
è l’i-esimo valore della variabile Yμx
è la media della variabile Xμy
è la media della variabile YN
è il numero totale di osservazioniΣ
indica la sommatoria di tutti i valori
Nel caso di una covarianza campionaria, la formula è leggermente diversa e utilizza (N-1)
al denominatore invece di N
. Questa correzione (chiamata correzione di Bessel) serve a rendere la stima della covarianza campionaria un estimatore non distorto della covarianza della popolazione:
cov(X, Y) = Σ [(Xi – x̄) * (Yi – ȳ)] / (N – 1)
Dove:
x̄
è la media campionaria della variabile Xȳ
è la media campionaria della variabile Y
Passaggi per Calcolare la Covarianza
Ecco i passaggi dettagliati per calcolare la covarianza, sia per dati popolazionali che campionari:
Passo 1: Raccogli i Dati
Il primo passo è raccogliere i dati relativi alle due variabili di cui si vuole calcolare la covarianza. Questi dati possono essere in forma di tabelle, liste o array. Assicurati che ogni coppia di valori (Xi, Yi) corrisponda alla stessa osservazione.
Ad esempio, consideriamo i seguenti dati relativi alle ore di studio e al punteggio ottenuto a un test per 5 studenti:
Studente | Ore di Studio (X) | Punteggio al Test (Y) |
---|---|---|
1 | 2 | 50 |
2 | 3 | 60 |
3 | 4 | 70 |
4 | 5 | 80 |
5 | 6 | 90 |
Passo 2: Calcola le Medie
Calcola la media aritmetica di ciascuna variabile.
Per le ore di studio (X):
μx = (2 + 3 + 4 + 5 + 6) / 5 = 20 / 5 = 4
Per i punteggi al test (Y):
μy = (50 + 60 + 70 + 80 + 90) / 5 = 350 / 5 = 70
Passo 3: Calcola gli Scarti dalla Media
Per ogni valore di X e Y, calcola la differenza tra quel valore e la rispettiva media.
Studente | Ore di Studio (X) | Punteggio al Test (Y) | (Xi – μx) | (Yi – μy) |
---|---|---|---|---|
1 | 2 | 50 | -2 | -20 |
2 | 3 | 60 | -1 | -10 |
3 | 4 | 70 | 0 | 0 |
4 | 5 | 80 | 1 | 10 |
5 | 6 | 90 | 2 | 20 |
Passo 4: Moltiplica gli Scarti dalla Media
Per ogni coppia di valori, moltiplica gli scarti dalla media di X e gli scarti dalla media di Y.
Studente | Ore di Studio (X) | Punteggio al Test (Y) | (Xi – μx) | (Yi – μy) | (Xi – μx) * (Yi – μy) |
---|---|---|---|---|---|
1 | 2 | 50 | -2 | -20 | 40 |
2 | 3 | 60 | -1 | -10 | 10 |
3 | 4 | 70 | 0 | 0 | 0 |
4 | 5 | 80 | 1 | 10 | 10 |
5 | 6 | 90 | 2 | 20 | 40 |
Passo 5: Somma i Prodotti degli Scarti
Somma tutti i risultati ottenuti al passo precedente.
Σ [(Xi - μx) * (Yi - μy)] = 40 + 10 + 0 + 10 + 40 = 100
Passo 6: Dividi per il Numero di Osservazioni (o N-1 per dati campionari)
Per dati popolazionali, dividi la somma ottenuta per il numero totale di osservazioni (N). Per dati campionari, dividi per (N-1). Nel nostro esempio, stiamo considerando un campione, quindi dividiamo per N-1= 5-1 = 4.
cov(X, Y) = 100 / (5-1) = 100 / 4 = 25
Quindi, la covarianza tra le ore di studio e il punteggio al test è 25.
Interpretazione della Covarianza
In questo esempio, la covarianza è 25. Questo valore positivo indica che esiste una relazione diretta tra le ore di studio e il punteggio al test, ovvero, in generale, più uno studente studia, più alto tende ad essere il suo punteggio. Tuttavia, come detto in precedenza, la grandezza della covarianza è influenzata dalla scala di misurazione delle variabili e non ci dice quanto forte è questa relazione.
Esempio di Covarianza Negativa
Supponiamo ora di voler calcolare la covarianza tra il numero di ore passate a guardare la tv (X) e il voto all’esame di matematica (Y). I dati sono:
Studente | Ore di TV (X) | Voto Mat (Y) |
---|---|---|
1 | 1 | 9 |
2 | 2 | 8 |
3 | 3 | 7 |
4 | 4 | 6 |
5 | 5 | 5 |
Calcoliamo le medie:
μx = (1+2+3+4+5)/5 = 15/5 = 3
μy = (9+8+7+6+5)/5 = 35/5 = 7
Creiamo una tabella con gli scarti dalla media e i prodotti:
Studente | Ore di TV (X) | Voto Mat (Y) | (Xi – μx) | (Yi – μy) | (Xi – μx) * (Yi – μy) |
---|---|---|---|---|---|
1 | 1 | 9 | -2 | 2 | -4 |
2 | 2 | 8 | -1 | 1 | -1 |
3 | 3 | 7 | 0 | 0 | 0 |
4 | 4 | 6 | 1 | -1 | -1 |
5 | 5 | 5 | 2 | -2 | -4 |
Somma dei prodotti degli scarti: -4-1+0-1-4 = -10
Calcolo della covarianza: -10 / (5-1) = -10 / 4 = -2.5
In questo caso, la covarianza è -2.5. Questo valore negativo indica che c’è una relazione inversa tra le ore di TV e il voto in matematica, ovvero all’aumentare delle ore di TV, in generale il voto tende a diminuire.
Limitazioni della Covarianza
Come menzionato precedentemente, la covarianza è influenzata dalle scale di misurazione delle variabili. Un valore di covarianza alto non implica necessariamente una relazione forte, e viceversa. Inoltre, la covarianza misura solo la relazione lineare tra due variabili; se la relazione è non lineare (ad esempio, una relazione parabolica), la covarianza potrebbe essere vicina a zero anche se le variabili sono correlate.
Uso della Covarianza in Pratica
Nonostante le sue limitazioni, la covarianza è un concetto importante in molti ambiti:
- Finanza: La covarianza viene utilizzata per misurare come si muovono i prezzi di due asset e per costruire portafogli di investimento diversificati.
- Statistica: La covarianza è un elemento fondamentale per il calcolo della matrice di covarianza, che descrive la variabilità di un insieme di variabili.
- Machine Learning: La covarianza è usata per ridurre la dimensionalità dei dati e per calcolare la correlazione tra le caratteristiche.
Covarianza vs Correlazione
La covarianza e la correlazione sono entrambi strumenti per misurare la relazione tra due variabili, ma la correlazione è una versione normalizzata della covarianza, e quindi offre maggiori vantaggi in termini di interpretazione. Il coefficiente di correlazione di Pearson, ad esempio, varia tra -1 e 1, con -1 che indica una perfetta correlazione negativa, 1 che indica una perfetta correlazione positiva e 0 che indica l’assenza di correlazione lineare. La correlazione permette quindi di valutare la forza e la direzione della relazione in modo indipendente dalle scale di misura delle variabili.
Conclusione
Calcolare la covarianza è un passo fondamentale per analizzare le relazioni tra variabili. Anche se la sua interpretazione diretta può essere complessa a causa della sua dipendenza dalle scale di misura, la covarianza è uno strumento prezioso che consente di comprendere come le variabili si muovono insieme e che fornisce le basi per calcolare altre misure statistiche come la correlazione. Comprendere bene la covarianza e i suoi limiti ti aiuterà a diventare un analista di dati più competente e ad applicare questo concetto in diversi ambiti, dalla statistica al machine learning.