ePerTutti


Appunti, Tesina di, appunto matematica

Statistica

ricerca 1
ricerca 2

Statistica

'Statistica è la scienza che sviluppa metodi per l'analisi dei fenomeni collettivi'

Statistica: metodo

Oggetto: insiemi di unità

Analisi: caratteristiche variabili

.Una pluralità di "oggetti" dotati di almeno un carattere comune (variabile o mutabile)

costituisce un "insieme statistico"

.Ciascun oggetto è una "unità statistica" e come tale concorre alla determinazione delle proprietà (statistiche) dell'insieme.























Distribuzioni Statistiche

.univariate (una alla volta)

.Bivariate (due simultaneamente)

.Multivariate (tre o più simultaneamente)


Modalità intervallari

.variabili continue -> scelta di necessità

.variabili discrete -> scelta di opportunità


In simboli

.n-pla di stati di grandezza di una variabile X    n=numerosità del collettivo

.insieme statistico di n unità  x,y=carattere, variab ogg di studio

j=unità i=1, . m

(x , x , . ,xj , . , xn-l, xn
I valori medi

L'obiettivo di un valore medio è riassumere, sintetizzare, in una unica grandezza un insieme di n unità statistiche.

Esistono infiniti valori medi

Le medie lasche

Le medie lasche sono una particolare famiglia di valori medi legati a specifiche posizioni nella graduatoria crescente degli n valori x , x . , xn

Le medie lasche più note e diffuse sono la moda, la mediana e i percentili.

La moda

La moda è il valore del carattere più frequente, cioè quello associato alla frequenza assoluta (o relativa) più alta.

La moda può essere calcolata per qualunque tipo di variabile: quantitativa, qualitativa, sia ordinabile, sia non ordinabile.


La mediana

La mediana è rappresentata dal valore o modalità dell'unità che occupa il posto centrale nella successione ordinata delle n osservazioni individuali x , x . , xn

E' definita per mutabili ordinate e per caratteri quantitativi.


Per la determinazione della mediana sono necessari i seguenti passi:

1.ordinamento non decrescente delle osservazioni;

2.individuazione del posto centrale.


Se n è dispari, la mediana occupa il posto (n+1)/2-esimo.


Se n è pari, si hanno, invece, due posti centrali (n/2-esimo e (n/2+1)-esimo: se le osservazioni a essi corrispondenti non coincidono, esse individuano due valori mediani. In questo caso, se il carattere è quantitativo si conviene di prendere come valore mediano la semisomma dei due valori mediani.

È necessario distinguere i seguenti casi:

(a)il carattere è una mutabile o una variabile discreta con modalità puntuali. In questo caso la mediana coincide con la modalità corrispondente alla classe mediana;

(b)le modalità della distribuzione sono intervalli e la variabile osservata è discreta. Si postula l'equidistribuzione nell'intervallo individuato come classe mediana e ci si riconduce al caso precedente;

(c)Le modalità della distribuzione sono intervalli e la variabile osservata è continua. Si introduce l'ipotesi che le unità si distribuiscano uniformemente all'interno di ciascuna classe. Ne deriva che il valore mediano viene determinato mediante un'interpolazione lineare all'interno della classe mediana.

Per un carattere quantitativo X la somma degli scarti assoluti tra i valori individuali e la loro mediana è la più piccola fra tutte le somme degli scarti assoluti rispetto a un termine fisso qualsiasi:



La presenza di valori estremi non incide sulla mediana


I percentili

I percentili individuano valori del carattere legati a particolari livelli delle frequenze cumulate.

Il I percentile è, ad esempio, il valore del carattere associato ad una frequenza cumulata dell'1%. Analogamente, il II percentile è il valore del carattere associato ad una frequenza cumulata uguale al 2%.

Esistono particolari percentili, detti quartili, corrispondenti a frequenze cumulate del 25% (I quartile), 50% (II quartile), 75% (III quartile).

Il II quartile coincide con il 50° percentile, e coincide anche con la mediana.


La media aritmetica

La media aritmetica è definita solo per caratteri quantitativi e non pone particolari problemi nella sua determinazione qualora si applichi ad una distribuzione di frequenza secondo le k modalità di un carattere quantitativo discreto.





























Proprietà della media aritmetica

Proprietà I: identità della somma



Proprietà II: nullità della somma algebrica degli scarti

(scarti: diff tra un val osservato e la media aritmetica)


Proprietà III: minimo della somma del quadrato degli scarti

(la sommatoria degli sacrti al quadrato assume il valore +

piccolo possibile)

MEDIE DI ORDINE r




La media geometrica

La media geometrica di una distribuzione di valori positivi é data da:

PROPRIETA' DEI VALORI MEDI DI ORDINE r

Proprietà di Cauchy una media statistica h deve inoltre rispondere alla condizione di 'internalità'. Un qualsiasi valore medio deve essere contenuto tra il valore piu piccolo e quello piu grande.

. Proprietà di Chisini: in generale, nel riassumere una pluralità di grandezze in una sola grandezza, un valor medio h deve rispettare la condizione di equivalenza (x media aritm identità di somma).

Misure di variabilità

Per sapere quanto sia realmente valida la misura di tendenza centrale calcolata.

L'attitudine di un carattere quantitativo X di assumere valori differenti nelle unità componenti un insieme statistico è chiamata variabilità

Costituisce una caratteristica degli insiemi statistici e può essere descritta mediante indicatori che godano delle seguenti proprietà:

. una misura di variabilità deve annullarsi quando, e solo quando, tutte le unità osservate presentano il medesimo stato di grandezza del carattere;

. una misura di variabilità deve assumere valori crescenti all'aumentare della variabilità.

Gli indicatori comunemente utilizzati possono essere distinti in tre categorie fondamentali.

.Indicatori che misurano la diversità tra due particolari termini della distribuzione o fra due quartili (intervallo di variabilità, differenza interquartile

.Indicatori che misurano la dispersione dei valori osservati attorno ad un valore medio (scostamenti medi

.Indicatori che misurano le disuguaglianze a due a due fra tutti i valori individuali (differenze medie








































- È uguale a 0 se non c'è variabilità e aumenta all'aumentare della variabilità (tt valori=a media);

- è espressa nel quadrato dell'unità di misura della variabile x;

- è influenzata dal valore di n












- rispetto alla Dev non è piu influenzata dal valore di n. Var=0 quando la Dev=0



















- per la proprietà di minimo della media aritmetica, DS(x) è il minimo degli scostamenti quadratici medi da un qualunque altro valore medio;

- è espresso nella stessa unità di misura di X; DS=0 in assenza di variabilità.

- rispetto agli scostamenti semplici medi, sovrappesa gli scarti piu elevati perché li eleva al quadrato







- è un numero puro, non ha unità di misura;

- non dipende dal valor medio della X;

- può esser utilizzato x confrontar la variabilità: dello stesso carattere in 2° piu collettivi aventi medie diverse, stesso carattere espresso in diversa unità di misura, 2 diversi caratteri per unità di misura e per livello medio.


.Lo scarto quadratico medio dalla media aritmetica è un minimo fra tutti gli scarti quadratici medi (proprietà della media aritmetica)


.Lo scostamento semplice medio dalla mediana è un minimo fra tutti gli (scarti in valore assoluto) scostamenti semplici medi (proprietà della mediana) Σ ׀xj - Me׀

n

INDICE NORMALIZZATO DI VARIABILITA'


L'indice varia tra 0(assenza di variabilità) e 1 (massima variabilità


La concentrazione




































































La distribuzione doppia

L'analisi congiunta di due caratteri X e Y sullo stesso insieme di n unità statistiche dà luogo a due n-ple di osservazioni x , x . , xn, e y , y . , yn, che possono essere efficacemente rappresentate attraverso la seguente tavola a doppia entrata, dove x , . , xu, sono le u modalità del carattere X, y , . , yv, sono le v modalità del carattere Y, nih è il numero di unità che presentano congiuntamente la i-esima modalità del carattere X e la h-esima modalità del carattere Y. Sia modalità qualitative ke quantitative.

Utilizzata x studiare un legame tra 2variabili (X e Y), legame ke può essere unidirezionale (da causa a effetto), reciproco (1influenza l'altra) o semplici associazioni tra variabili.

Media e Medie condizionate

La tavola a doppia entrata consente di calcolare, accanto alla media della variabile X,




anche le medie della variabile X condizionate alle modalità della Y. Ad esempio,

è sempre una media della variabile X, calcolata, però, non su tutte le n osservazioni, ma soltanto in riferimento alle n unità che presentano la prima modalità della variabile Y.

Per il caso generale si ha



La media generale può essere ottenuta anche sulla base delle u medie condizionate grazie alla relazione


La media aritmetica del carattere X si calcola partendo dalla distribuzione marginale, applicando la formula della media aritmetica per un carattere quantitativo suddiviso in classi. Occorre -determinare il valore teorico di ciascuna classe, come semisomma degli estremi di ciascuna classe -si calcolano le intensità di ciascuna classe, moltiplicando il valore teorico per la corrispondente frequenza assoluta -si sommano le intensità -si divide per la numerosità del collettivo

Per calcolare le medie condizionate, cioè le medie delle distribuzioni della X condizionate alle varie modalità della Y si procede esattamente come al punto (e), ma considerando di volta in volta la corretta distribuzione di frequenze.
Considerando la distribuzione di frequenze della X condizionata alla modalità della Y:
-si determinano le intensità per ciascuna classe e si sommano
-si divide per la numerosità del collettivo in esame -trascinando queste due formule verso destra risultano automaticamente calcolate tutte le medie per le varie distribuzioni condizionate.


Si può notare come la media aritmetica della X può essere otetnuta come media aritmetica ponderata delle medie condizionate.


Devianza e devianze condizionate

La tavola a doppia entrata consente, inoltre, di ricavare, accanto alla devianza della X


anche le v devianze della X condizionate alle v modalità della Y.


è la devianza della X condizionata a y , cioè calcolata solo in riferimento alle n unità che presentano la prima modalità della Y.


In generale



A differenza del caso delle medie, per le devianze non è possibile ottenere  DEV(X) soltanto sulla base delle v devianze condizionate, ma è necessario introdurre una ulteriore componente, detta devianza tra i gruppi .


Scomposizione della devianza


La devianza tra i gruppi


misura il contributo alla variabilità della X riconducibile alla diversità tra i gruppi individuati dalle v modalità della modalità della Y.

La somma delle v devianze condizionate è detta devianza entro i gruppi (misura la variabilità all'interno di ciascuna distribuzione condizionata).


La devianza entro i gruppi misura la variabilità della X relativa alla dispersione all'interno dei v gruppi.


Date DEVentro(X) e DEVtra(X) è possibile ottenere DEV(X) come


DEV(X) = DEVentro(X) + DEVtra(X


La devianza del carattere X si calcola partendo dalla distribuzione marginale, applicando la formula della devianza per un carattere quantitativo suddiviso in classi. Occorre -determinare il valore teorico di ciascuna classe, come semisomma degli estremi di ciascuna classe -si calcola la media della X come descritto sopra
-si calcolano gli scostamenti dalla media aritmetica
-si elevano gli scostamenti al quadrato e si ponderano per la corrispondenti numerosità
-si sommano le quantità appena calcolate

Si calcoli la devianza del carattere X tra i gruppi Applicando la formula introdotta precedentemente, il calcolo della devianza tra i gruppi richiede di calcolare per ciascuna distribuzione condizionata -la differenza al quadrato tra la media generale e la media condizionata corrispondente, ponderata con le rispettive numerosità
-si sommano le quantità calcoltate per ogni distribuzione condizionata.

Si calcoli la devianza del carattere X entro i gruppi -Occorre calcolare la devianza della X in ogni distribuzione condizionata alle modalità della Y -la devianza entro i gruppi si ottiene sommando le devianze condizionate


Indipendenza in media


Dalla scomposizione della devianza è possibile ricavare l'indicatore


che vale 0 quando tutte le medie condizionate sono uguali tra loro


e che assume valore 1 quando


DEV(X|yh h=1, . , v.

quando   tutta la variabilità della X è dovuta alle differenze tra le medie condizionate , cioè è riconducibile all'influenza della all'influenza della Y sulla X.

Per questo    è noto come misura della dipendenza in media della X dalla Y.

Quando   la X è indipendente in media dalla Y,


Sempre dalla tavola a doppia entrata, è possibile ricavare una misura ancora più forte del legame tra le due variabili X e Y.

Se tra la X e la Y non esiste alcuna relazione, allora la generica frequenza congiunta nih assume il valore  



dove l'asterisco indica che si tratta del valore teorico, nell'ipotesi di assenza di relazione, cioè di indipendenza (in cui una variabile non influenza l'altra,l'1 è indipendente dall'altra), tra la X e la Y.


Sulla base delle differenze tra le frequenze osservate, nih, e le frequenze teoriche nell'ipotesi di indipendenza,  , viene costruito l'indicatore di connessione chi quadrato


che consente di valutare se vi è dipendenza tra le due variabili X e Y. L'indicatore è simmetrico e può essere calcolato sia per variabili quantitative, sia per variabili qualitative.


Oss: nell'indipendenza in media basta ke siano uguali tt le medie mentre nell'indipendenza in distribuzione devono essere uguali tt le frequenze relative condizionate. L'indipendenza in media è meno forte di quella in distribuzione. Dipendenza perfetta: ad ogni valore della X si associa solo 1 valore della Y


Indice di connessione normalizzato

Il valore minimo di è 0, valore che si ottiene quando tutte le frequenze osservate sono uguali alle frequenze teoriche, cioè nel caso di indipendenza tra la X e la Y.


Il valore massimo di dipende, invece, dalle dimensioni della tavola e dal numero di unità considerate:



E', così, possibile ricavare un indice di connessione normalizzato




Privacy

© ePerTutti.com : tutti i diritti riservati
:::::
Condizioni Generali - Invia - Contatta