tecnica

ESEMPI DI DISTRIBUZIONI DI VARIABILI ALETORIE CONTINUE - Funzione densità di probabilità di una v.a. Uniforme in (0,60)

4.6 ESEMPI DI DISTRIBUZIONI DI VARIABILI ALETORIE CONTINUE

4.6.1 Variabile aleatoria Uniforme.

La variabile aleatoria uniforme, o rettangolare, o equidistribuita è una delle v.a. più semplici che si possono incontrare; essa viene usata per variabili aleatorie che soddisfino alle seguenti condizioni:

X può assumere valori solo in un intervallo (a,b);

a sottoinsiemi di (a,b) di uguale ampiezza corrispondono uguali probabilità.

Una tale v.a. si indica con il simbolo U (a,b), e la sua funzione densità di probabilità è, ovviamente, pari ad una costante, k, nell'intervallo (a, b), mentre è nulla al di fuori; il valore di k non può che essere: k = 1/(b-a) (perché?), e quindi:

f(x) = 1/(b-a ), se x I (a,b)

f(x) = 0 , se x (a,b) (1)

Funzione densità di probabilità di una v.a. Uniforme in (0,60)

Ad esempio, l'istante di arrivo di una persona nel problema dell' "incontro aleatorio" (par. 2.4, p.17) è una v.a. uniforme in (0, 60 minuti), e dunque la sua fdp è quella in . 1: sulle ascisse è riportato il tempo, qui in minuti; sulle ordinate i valori della fdp, qui in (min.^-l); la costante k vale 1/60.

E' facile vedere che la FDP di una v.a. U(a,b) è una funzione " a rampa":

0 ( se x <a)

F(x) = (x-a)/(b-a) (2)

(se x >b)

Dalla (1) o (2) si vede chiaramente come ad intervalli di uguale ampiezza corrisponde la stessa probabilità nell'ipotesi di distribuzione uniforme; ad esempio, nel caso dell'"incontro aleatorio", con Tx - istante di arrivo all'appuntamento - uniforme U(0,60), la probabilità che X arrivi entro 20 di minuti di ritardo è, come già trovato per via intuitiva:

P(Tx < 20 ) = 20/60 =1/3

Come si può ricavare dalla (2) con a=0, b=60, x =20; ma, più semplicemente, si può misurare l'area della fdp in .1, sottesa all'intervallo (0,20), e ciò si può fare anche graficamente - cioè senza calcoli - ottenendo in definitiva il rapporto tra l'ampiezza dell'intervallo (0,20) e l'ampiezza dell'intervallo totale dei valori possibili per la v.a., ossia (0,60). Naturalmente, lo stesso risultato, 1/3, si ottiene se ci si chiede quale è la probabilità che il signor X arrivi con un ritardo compreso tra 40 e 60 min.; infatti tale intervallo ha la stessa ampiezza di quello (0,20).

In definitiva, questo esempio chiarisce che l'assunzione di "probabilità uniforme" (ovvero di validità della definizione "classica" - o meglio "geometrica") è equivalente all'assunzione di distribuzione uniforme per le vv.aa. che descrivono l'evento.

La media e la varianza per una v.a. uniforme valgono rispettivamente:

Dalla definizione di valore medio di una v.a. continua, si ricava facilmente la (3); infatti:

Si noti che, come intuitivo, il valor medio coincide con il "punto medio" dell'intervallo (a,b), che è il punto di "simmetria" della fdp; questa è una proprietà generale del valore medio.

Per il calcolo della varianza, si può procedere in maniera analoga, calcolando la media quadratica (valor medio di X²), e poi applicando le relazioni già viste.

Nota: Si osservi che le v.a. X U(-l, 1) e Y = - X hanno la stessa distribuzione; questo è un esempio del fatto che vv. aa. con ugual distribuzione non sono uguali!

Esempio

Si ipotizzi che la punta di carico, W, di un dato sistema per il prossimo mese sia una v.a. che, in base alle statistiche passate, risulta avere media statistica pari a 90 MW, e deviazione standard pari a 11.55 MW. In mancanza di altre informazioni, l'ingegnere preposto alla programmazione della generazione assume che W segua una distribuzione Uniforme in (a,b), con a e b da determinare.

In base a tale ipotesi - forse poco realistica - si vuol determinare:

a) Se la potenza di generazione totale del sistema per il prossimo mese è programmata per un valore di 100 MW, quale è la probabilità che il sistema di generazione non riesca ad alimentare con continuità il carico per tutto il prossimo mese?

b) Di quanto si deve aumentare la potenza di generazione, se si vuole che tale probabilità risulti inferiore al 5%?

c) Quale è che la è la probabilità che la punta di carico mensile si discosti dal suo valore atteso per più del 10%?

Innanzitutto, occorre individuare gli estremi dell'intervallo (a,b) in cui la v.a. W può assumere valori; questo si fa evidentemente risolvendo il sistema delle (3) e (4) in funzione delle incognite a e b; ossia:

(a+b)/2 = 90; (b-a)/

(si ricorda che la deviazione standard è la radice quadrata della varianza); si ottiene così ( i valori sono espressi in MW): a=70; b = 110. A questo punto è facile rispondere ai punti a), b) e c):

a) la probabilità che il sistema non riesca ad alimentare con continuità il carico per tutto il prossimo mese coincide - in assenza di guasti dei componenti - la probabilità che il sistema non funzioni, ovvero con sua inaffidabilità.

Tale probabilità si ottiene evidentemente come probabilità la potenza massima di generazione disponibile, p_g, risulti inferiore alla punta di carico W. Questo è un "indice di rischio" del sistema , detto LOLP ("Loss Of Load Probability"); esso, che chiameremo Q, vale nell'esempio:

Q = P(W > p_g) = P(W > 100) = 10/40 = 0.25

(si noti che per rispondere al quesito non ce n'è bisogno di risolvere integrali!).

b) la probabilità sopra calcolata è in effetti troppo alta; per fare in modo che risulti inferiore a 0.05, bisognerà aumentare la potenza p_g portandola ad un nuovo valore, x, che si ottiene "graficamente" oppure risolvendo la disequazione che segue:

Q = P( W > x) < 0.05, da cui : (110-x) /40 < 0.05, e dunque: x > 108 MW. In altri termini, basta aumentare la potenza di generazione di almeno 8 MW per portare l'affidabilità del sistema da 0.75 a 0.95. Naturalmente, se non costa troppo, è ancora meglio portare p_g a 110 MW, così il sistema presenta rischio nullo. Il lettore provi a visualizzare graficamente questi fatti.

c) la probabilità p che W si discosti di più del 10% dal suo valore atteso (probabilità che potrebbe essere considerata la "inaffidabilità" della previsione di carico), si può ottenere come probabilità del seguente evento:

(W< m - Dw) (W > m + Dw)

dove m = 90 MW, e Dw = 0.10m = 9 MW. Allora:

p = P[(W<81) (W>99)] = P(A B)

Naturalmente, i due eventi A e B sono incompatibili, inoltre hallo la stessa probabilità pari a (110-99)/40 = 0.275, da cui : p = 0.55. Dunque, la previsione basata sul solo valor medio della potenza sarebbe del tutto inaccettabile; ma si noti che ciò è legato alla scelta della densità uniforme, oltre che al valore piuttosto grande della deviazione standard, qui pari a circa il 13% della media, in effetti poco realistico nelle applicazioni. In effetti, una distribuzione più adeguata a descrivere l'incertezza sui valori di carico è quella Gaussiana, di seguito introdotta.

4.6.2 Distribuzione Normale o Gaussiana.

La distribuzione Normale - già introdotta nel Cap. 2 (p.8) - ricopre un ruolo fondamentale nelle analisi statistiche perché molti fenomeni empirici, come ad esempio la distribuzione degli errori di misura, sono da essa ben approssimati. In particolare, per n abbastanza grande e p non troppo vicino a 0 oppure ad 1, la Normale approssima molto bene la Binomiale. Più precisamente, l'approssimazione è soddisfacente se risulta: n p(1-p)

La normale è una v.a. continua che assume valori da - a + ed è funzione di due parametri m e s (il primo reale, il secondo reale positivo) che rappresentano rispettivamente media e varianza della v.a.; essa è indicata con il simbolo N(m s

Una v.a. X segue una distribuzione N(m s) se:

(1)

Si dimostra, come detto, che media e deviazione standard di X sono date da:

(2)

La curva della fdp è simmetrica rispetto alla media, ed è tanto più "piatta" e "bassa" quanto maggiore è la deviazione standard (v. anche il grafico del Cap. 2, p.8). In . 2 è riportata la fdp di una v.a. Gaussiana rappresentante un carico elettrico di media 90 MW e deviazione standard 11.55 MW, come nell'Es. del par. precedente. Come si diceva, l'ipotesi Gaussiana è più realistica di quella Uniforme per i valori di carico, in quanto assegna maggior probabilità ai valori intorno alla media (che rappresenta in un certo senso il "valore più probabile", anche se non va dimenticato che - nella rappresentazione mediante una v.a. continua - ogni valore è assunto con probabilità nulla), e uguali probabilità - data la simmetria della curva - sia a scostamenti positivi che negativi rispetto alla media; infatti tali scostamenti sono dovuti ad errori di previsione, che in assenza di errori sistematici sono con ugual probabilità positivi o negativi. Per lo stesso motivo, tale fdp ben rappresenta la distribuzione degli errori di misura.

Funzione densità di probabilità di una v.a. Gaussiana di media 90 MW e deviazione standard 11.55 MW

La fdp f(x) Gaussiana gode delle seguenti proprietà:

il massimo di f(x) è raggiunto per x = m e vale ; dunque, la media coincide con la "moda"e anche con la "mediana" (questo vale per tutte le fdp simmetriche).

la f(x) possiede due flessi, uno in m s e uno in m s

come già detto, f(x) è simmetrica intorno a m, cioè f(m - x) = f(m + x) x.

(Nota: la proprietà 2. è banale. Perché?).

La FDP Gaussiana, ossia l'integrale della (1) con generico estremo superiore x, non è esprimibile in maniera analitica (non esiste la primitiva di f(x) = exp(-x²)); essa è una "funzione speciale", i cui valori sono tabulati o ottenibili mediante programmi di calcolo (ad esempio, la "function" normcdf in MATLAB®). In . 3 è riportata la FDP corrispondente alla densità di . 2, ottenuta appunto mediante MATLAB. Naturalmente, essa vale 0.50 in w = 90.

Come sempre, la FDP parte dal valore 0, è crescente, e tende asintoticamente ad 1 al divergere dell'argomento. La curva è convessa fino al valor medio (intervallo in cui la fdp è crescente, e quindi la derivata seconda di F(x) è positiva), concava per valori maggiori, e presenta un flesso in corrispondenza del valore medio. Si noti che una v.a. Gaussiana assume valori in tutto l'asse reale, e quindi - teoricamente - non è adatta a descrivere grandezze intrinsecamente positive, quali un tempo, un valore di carico, ecc.; però in pratica può venire utilizzata anche in questi casi, purchè la deviazione standard sia piccola rispetto alla media, come specificato nel seguito.

Funzione di distribuzione di probabilità di una v.a. Gaussiana di media 90 MW e deviazione standard 11.55 MW.

E' utile riportare le seguenti probabilità notevoli - riferite ad intervalli simmetrici intorno alla media m - di una v.a. N(m s

P = 0.683;

P = 0.955; (4)

P = 0.9973.

Dall'ultima relazione si evince che la probabilità che X sia negativa è praticamente trascurabile se (m s) > 0, ossia s < m/3. Ad esempio, se riteniamo che il tempo di vita T di un componente sia una v.a. con densità simmetrica intorno al valore atteso di 30 min., possiamo caratterizzarla - approssimativamente - con una Gaussiana, purchè la deviazione standard di T sia inferiore a 10 min. (altrimenti potremmo avere tempi negativi); lo stesso vale per il ritardo T dell'incontro aleatorio, a meno che non si ritenga che la persona possa anche arrivare in . anticipo.

Esempio numerico

Ad esempio, se la punta di carico mensile W di un dato sistema segue una legge N(90,11.55) come nelle g. 2 e 3, il valore che effettivamente essa assumerà sarà compreso al 95.5% nell'intervallo (90-2(11.55), 90 + 2(11.55)) 23) = (67,113 MW).

Se la deviazione standard fosse minore (per esempio 2 MW), l'intervallo si restringerebbe (86, 94 MW) il che è ovvio se si pensa che la deviazione standard è una misura della incertezza dei valori assunti dalla v.a. (minore la deviazione standard, ossia la varianza, minore è l'incertezza). Ad esempio, la previsione della punta di carico giornaliera sarà affetta da una deviazione standard (ossia un "errore di previsione") minore, rispetto a quella mensile, e quindi una previsone basata sul valor medio sarà più "affidabile", naturalmente.

4.6.3 Distribuzione Esponenziale

La distribuzione Esponenziale occupa un posto di primaria importanza nel campo dell'affidabilità, in quanto si trova sperimentalmente che essa descrive bene la v.a. "tempo di funzionamento" di molti componenti. Essa è comunque utilizzabile per ogni variabile intrinsecamente positiva (come appunto un tempo).

Un suo grande vantaggio analitico, nei confronti di altre distribuzioni statistiche, consiste nel fatto che essa è definita attraverso un solo parametro, . Il suo simbolo è: Exp().

La funzione densità di probabilità Esponenziale di parametro , per una v.a. T, è definita come segue:

(1)

dove è un parametro (costante) strettamente positivo.

La funzione di distribuzione Esponenziale è espressa da:

(2)

(naturalmente, F(t) = 0 se t < 0). Grafici di fdp e FDP, con parametro =1, sono in . 4.

Funzione di densità f(t) - curva decrescente - e funzione distribuzione di probabilità F(t) - curva crescente - di una v.a. Esponenziale con parametro =1.

Il valor medio e la deviazione standard sono entrambi uguali al reciproco del parametro :

E[T] = D[T] = 1/ (3)

Ad esempio, le curve in . 4 corrispondono ad un valor medio, ed ad una deviazione standard, unitari.

Esempio

Si supponga che il tempo alla scarica di un isolante segua una distribuzione Esponenziale di valor medio m = 10 anni; si calcoli:

a) la probabilità p che l'isolante duri almeno 1 anno;

b) dato un insieme di 10 elementi isolanti identici con la stessa distribuzione di tempo alla scarica di cui sopra, la probabilità che almeno un isolante duri 1 anno (si ipotizzi l'indipendenza);

c) con riferimento al punto b), il numero medio di isolanti che durano per almeno un anno;

a) p = P(T>1) = 1 - F(1) = exp(-l) = 0.37;

b) P(almeno un isolante duri 1 anno) = 1 - P(tutti i 10 isolanti si guastano entro un anno) =

= 1 - (1-0.37)¹⁰⁰ = 1 - (0.63)¹⁰ = 1- 0.01 = 0.99;

c) Detto X il numero di isolanti che dura per un hanno, questa è una v.a. che può assumere i valori: 0,1,2, . ,10; nelle ipotesi di indipendenza e di uguale probabilità di durata p, si ha che tale v.a. segue una legge Binomiale di parametri n = 10 e p = 0.37, per cui:

E[X] = np =10(3.7) = 3.7

4.7 CENNI SULLE VARIABILI ALEATORIE CONGIUNTE.

Nello studio di molti esperimenti aleatori, ci possono essere più vv.aa. relative allo stesso spazio campione di interesse (si pensi, ad esempio, al problema del cosiddetto "incontro doppiamente aleatorio" del par. 2.4) . Per questo si introducono le v.a. multiple o congiunte, e si estendono ad esse tutte le definizioni viste per le v.a. "semplici".

Qui si riportano, per completezza, le principali definizioni e proprietà relative alle vv. aa. congiunte; Nota: ai fini degli studi di affidabilità del seguito, è sufficiente la sola nozione di indipendenza di vv. aa.

4.7.1 Funzioni di distribuzione e di densità congiunte.

Sia W uno spazio campione, la v.a. congiunta k-dimensionale (X₁, X₂, , X_k) è una funzione definita in A W) ed a valori in A^k

Nel seguito si farà riferimento ad una v.a. congiunta bidimensionale, (X₁, X₂) definita in A W) ed a valori in A; è ovvio che tutte le definizioni e tutti i teoremi potranno essere estesi alle v.a. congiunte k-dimensionali.

La v.a. congiunta (X, Y) è definita v.a. discreta congiunta se può assumere valori solo in un numero finito di punti di A. (Esempio, la coppia di risultati di due lanci di un dado).

Si definisce legge di probabilità congiunta la funzione:

P_ij =P[(X = x_i) (Y = y_i)]] (1)

Che associa all'insieme di tutti i possibili valori di (X,Y) la probabilità con cui la v.a. (X,Y) può assumere tali valori.

Se p_i è la probabilità che X = x_i [P(X=x_i)], e p_j è la probabilità che Y = y_j [P(Y=y_j)], affinché (X, Y) sia una variabile aleatoria congiunta discreta deve risultare:

p_i, p_j 0 e (2)

Allo stesso modo, la v.a. congiunta (X, Y) è definita come v.a. continua bidimensionale se e solo se esiste una funzione f_x,y(x,y) 0, tale che:

F_x,y(x,y) = x,y (3)

La funzione F_x,y(x,y) è detta funzione di distribuzione di probabilità congiunta.

La funzione f_x,y(x,y) è detta funzione densità di probabilità congiunta.

E' ovvio che : (3)

Valgono le seguenti evidenti proprietà:

f_x,y(x,y)

(4)

E' chiaro che:

(5)

Dalla conoscenza di F_x,y (x,y) si può dedurre la probabilità di un qualsiasi evento; ad esempio:

P[(x₁ < X x₂) ( y₁< Y y₂ )] = F(x₂, y₂) - F(x₂, y₁) - F(x₁, y₂) + F(x₁, y₁) (6)

Valgono le seguenti proprietà:

F_x,y(x,y) è funzione crescente di x, y;

F_x,y(x,+ ) = P[(X x) (Y<+ )] = F_x(x) y;

analogamente: F_x,y(+ ,y) = P[(X (Y< y)] = F_y(y), x

(7)

F_x,y(- , y) = P(x y) = 0, y;

analogamente: F_x,y(x,- ) = P(y x) = 0, x .

F_x,y(+ ) = P(x e y

Se X e Y sono v.a. congiunte continue, le funzioni:

(8)

sono le funzioni di densità di probabilità marginali rispettivamente per la variabile X e Y.

Tali relazioni si possono ottenere dalla 2a delle proprietà (7) e dalla (3), applicando la definizione di fdp per una v.a. singola.

4.7.2 Indipendenza di vv. aa. congiunte

Siano X eY due vv.aa. congiunte; vale le seguente definizione:

X e Y statisticamente indipendenti F_X,Y(x,y) = F_X(x)F_Y(y) (1)

l'indipendenza si può definire anche a partire dalla densità di probabilità, se X e Y sono congiuntamente continue:

X e Y sono indipendenti f_X,Y(x,y) = f_X(x)f_Y(y) (2)

dove f_X(x) e f_Y(y) sono le funzioni di densità di probabilità marginali rispettivamente per le v.a. X eY. La (2) si può ricavare dalla definizione (1) applicando la (5) del sottopar. precedente.

Esempio

Provare a risolvere il problema dell'incontro "doppiamente aleatorio" introducendo la fdp congiunta delle vv.aa. che rappresentano i ritardi dei signori X e Y, supposti indipendenti.

4.7.3 Parametri statistici delle vv. aa. congiunte

Siano X,Y due v.a. congiunte, si definisce covarianza di X e Y e si indica con il simbolo s_x,yoppure con il simbolo Cov[X,Y] la seguente grandezza:

Cov[X,Y] = E[(X - m_X)( Y - m_Y)] = E[XY] - m_X m_Y (1)

Si definisce coefficiente di correlazione, e si indica con il simbolo r[X,Y], oppure r_X,Y, la seguente grandezza:

risulta: -l r_X,Y (2)

Sia la covarianza che il coefficiente di correlazione delle v.a. X e Y sono misure della "relazione lineare" tra X e Y, nel senso seguente: la Cov[X,Y] sarà positiva quando X - m_x e Y - m_y tendono ad avere con probabilità alta lo stesso segno, sarà negativa quando X - m_x e Y - m_y tendono ad avere con probabilità alta segno opposto. La Cov[X,Y] tende a misurare la relazione lineare tra X e Y, però la sua grandezza effettiva non è molto significativa perché dipende dall'unità di misura di X e Y. Con il coefficiente di correlazione, dividendo la Cov[X,Y] per il prodotto delle deviazioni standard, ci si svincola dalle unità di misura di X e Y; esso, perciò, è una misura della relazione lineare tra X e Y migliore della covarianza.

Risulta:

r_X,Y Y = a X + b (3)

Siano X,Y due v.a. congiunte, risulta:

E[X+Y] = m_X m_Y (4)

Var[X + Y] = s_X s_Y s_XY

E[XY] = m_Xm_Y s_XY (6)

Var[XY] = m_Ys_X m_X s_y m_Xm_Ys_XY s_XY

+ E[(X-m_X)²(Y-m_Y m_Y E[(X-m_X)²(Y-m_Y m_X E[(X-m_X)(Y-m_Y (7)

Se X e Y sono indipendenti, la loro covarianza risulta nulla; in tal caso, la varianza della somma è uguale alla somma delle varianze.

Si nota che invece la media della somma è sempre uguale alla somma delle medie!.

Privacy

ESEMPI DI DISTRIBUZIONI DI VARIABILI ALETORIE CONTINUE - Funzione densità di probabilità di una v.a. Uniforme in (0,60)

P(Tx < 20 ) = 20/60 =1/3

Q = P(W > pg) = P(W > 100) = 10/40 = 0.25

(si noti che per rispondere al quesito non ce n'è bisogno di risolvere integrali!).

Ad esempio, le curve in . 4 corrispondono ad un valor medio, ed ad una deviazione standard, unitari.

Esempio

Q = P(W > p_g) = P(W > 100) = 10/40 = 0.25