Elégséges, teljes és kiegészítő statisztikák

Tekintsük ismét az alap statisztikai modellt, amelyben van egy véletlen kísérlet, ami egy megfigyelhető

X

valószínűségi változót eredményez, ami

S

halmazbeli értékeket vesz fel. A kísérlet tipikusan az, hogy

n

objektumot mintavételezünk a sokaságból, és minden elem egy vagy több mérőszámát feljegyezzük. Ebben az esetben az eredményváltozó a következő alakú:

ahol

X i

i

-edik elem mérőszámainak vektora. Általánosságban feltesszük, hogy

X

eloszlása egy

θ

paramétertől függ, ami

Θ

paramétertérbeli értékeket vesz fel. A

θ

paraméter szintén lehet vektor értékű. Indexeket használunk, hogy kifejezzük a sűrűségfüggvény, várható érték, stb. függését

θ

-tól.

Elégséges statisztikák

Legyen

U h X

egy statisztika, ami

T

halmazbeli értékeket vesz fel. Intuitívan,

U

elégséges

θ

-ra nézve, ha

U

minden információt tartalmaz

θ

-ról, ami elérhető a teljes

X

adatváltozóban. Formálisan,

U

elégséges

θ

-ra nézve, ha

X

feltételes eloszlása adott

U

esetén nem függ

θ

-tól.

Az elégségesség az adatredukció fogalmával kapcsolatos. Tegyük fel, hogy

X

n

-beli értékeket vesz fel. Ha tudunk találni egy

U

elégséges statisztikát, ami

j

-beli értékeket vesz fel, akkor redukálhatjuk az eredeti

X

adatvektort (aminek dimenziója -

n

- rendszerint nagy) az

U

statisztika vektorára (aminek a dimenziója -

j

- rendszerint sokkal kisebb) anélkül, hogy információt vesztenénk a

θ

paraméterről.

A következő eredmény az elégségesség egy feltételét adja, ami ekvivalens a fenti definícióval.

Legyen $U h X$ egy statisztika, ami $T$ -beli értékeket vesz fel, és jelölje $f θ$ illetve $g θ$ $X$ illetve $U$ sűrűségfüggvényét. Mutassuk meg, hogy $U$ elégséges $θ$ -ra akkor és csak akkor, ha az

f θ x g θ h x, x S

függvény független $θ$ -tól! Útmutatás: $X U$ együttes eloszlása az $x u <és /> x S u h x S T$ halmazra koncentrálódik.

A faktorizációs tétel

A definíció pontosan megragadja az elégségesség fent megadott intuitív fogalmát, de nehéz lehet alkalmazni. Előzetesen ismernünk kell egy

U

jelölt statisztikát, és ezután ki kell tudnunk számolni

X

feltételes eloszlását adott

U

esetén. A faktorizációs tétel - amit a következő feladatban adunk meg - gyakran lehetővé teszi, hogy azonosítsunk egy elégséges statisztikát

X

sűrűségfüggvényének alakjából.

Jelölje $f θ$ $X$ sűrűségfüggvényét és tegyük fel, hogy $U h X$ egy statisztika, ami $T$ -beli értékeket vesz fel. Mutassuk meg, hogy $U$ elégséges $θ$ -ra akkor és csak akkor, ha létezik $G T Θ$ és $r S$ úgy, hogy

f θ x G h x θ r x, x S, θ Θ

Jegyezzük meg, hogy

r

csak az

x

adatoktól függ és nem függ a

θ

paramétertől!

Mutassuk meg, ha $U$ és $V$ ekvivalens statisztikák és $U$ elégséges $θ$ -ra, akkor $V$ is elégséges $θ$ -ra!

Nevezetes eloszlások

Eloszlások néhány paraméteres családjára fogunk elégséges statisztikákat meghatározni.

Tegyük fel, hogy $X X 1 X 2 X n$ egy $n$ elemű véletlen minta a Bernoulli eloszlásból, $p 01$ sikerparaméterrel. Így $X i 1$ , ha az $i$ -edik kísérlet sikeres, és $X i 0$ , ha az $i$ -edik kísérlet sikertelen. Jelölje $Y i 1 n X i$ a sikerek számát, és emlékezzünk rá, hogy $Y$ eloszlása $n$ és $p$ paraméterű binomiális eloszlás. Mutassuk meg közvetlenül a definícióból, hogy $Y$ elégséges $p$ -re! Speciálisan, mutassuk meg, hogy $X$ feltételes eloszlása adott $Y k$ esetén az egyenletes eloszlás a

x 1 x 2 x n 01 n x 1 x 2 · · · x n k

ponthalmazon!

Az előző feladat eredménye intuitívan vonzó: Bernoulli kísérletek sorozatában a siker

p

valószínűségéről az összes információt a sikerek száma,

Y

, tartalmazza. A sikerek és hibák pontos sorrendje nem ad újabb információt. Természetesen

Y

elégségessége könnyeben kijön a faktorizációs tételből, de a feltételes eloszlás további bepillantást enged.

Tegyük fel, hogy $X$ eloszlása $k$ -paraméterű exponenciális család $U h X$ természetes statisztikával. Mutassuk meg, hogy $U$ elégséges $θ$ -ra! Ezen eredmény miatt $U$ -t az exponenciális család természetes elégséges statisztikájának hívjuk.

Tegyük fel, hogy $X X 1 X 2 X n$ egy $n$ elemű véletlen minta a normális eloszlásból, $μ$ várható értékkel és $σ 2 0$ szórásnégyzettel.

Mutassuk meg, hogy $Y V$ elégséges $μ σ 2$ -re, ahol $Y i 1 n X i$ és $V i 1 n X i 2$ .
Mutassuk meg, hogy $M S 2$ elégséges $μ σ 2$ -re, ahol $M$ az $X$ mintaátlaga és $S 2$ az $X$ korrigált tapasztalati szórásnégyzete! Útmutatás: Használjuk az (a) részt és ekvivalenciát!

Tegyük fel, hogy $X X 1 X 2 X n$ egy $n$ elemű véletlen minta a Poisson eloszlásból, $a 0$ várható értékkel. Mutassuk meg, hogy $Y i 1 n X i$ elégséges $a$ -ra!

Tegyük fel, hogy $X X 1 X 2 X n$ egy véletlen minta a gamma eloszlásból, $k 0$ alakparaméterrel és $b 0$ skálaparaméterrel.

Mutassuk meg, hogy $Y V$ elégséges $k b$ -re, ahol $Y i 1 n X i$ és $V i 1 n X i$ .
Mutassuk meg, hogy $M U$ elégséges $k b$ -re, ahol $M$ az $X$ minta (számtani) átlaga és $U$ az $X$ minta mértani átlaga! Útmutató: Használjuk az (a) pontot és ekvivalenciát!

Tegyük fel, hogy $X X 1 X 2 X n$ egy véletlen minta a béta eloszlásból, $a 0$ bal-paraméterrel és $b 0$ jobb-paraméterrel. Mutassuk meg, hogy $U V$ elégséges $a b$ -re, ahol $U i 1 n X i$ és $V i 1 n 1 X i$ .

Tegyük fel, hogy $X X 1 X 2 X n$ véletlen minta a Pareto eloszlásból, $a 0$ alakparaméterrel. Mutassuk meg, hogy $U i 1 n X i$ elégséges $a$ -ra!

Tegyük fel, hogy $X X 1 X 2 X n$ véletlen minta a $0 a$ intervallumon egyenletes eloszlásból, ahol $a 0$ ismeretlen paraméter. Mutassuk meg, hogy $X n n X 1 X 2 X n$ (az $n$ -edik rendstatisztika) elégséges $a$ -ra!

Minimális elégséges statisztikák

A teljes

X

adatváltozó triviálisan elégséges

θ

-ra. Viszont, ahogy fent említettük, rendszerint létezik egy

U

statisztika, ami elégséges

θ

-ra és kisebb dimenziójú, vagyis tényleges adatredukciót érhetünk el. Természetesen szeretnénk azt az

U

statisztikát megtalálni, aminek a lehető legkisebb a dimenziója. Sok esetben ez a legkisebb dimenzió,

j

, ugyanaz lesz, mint a

k

, ami a

θ

paramétervektor dimenziója. Azonban, ahogy látni fogjuk, nem szükségszerűen ez az eset,

j

lehet kisebb vagy nagyobb

k

-nál.

Formálisan, tegyük fel, hogy az

U

statisztika elégséges

θ

-ra. Ekkor

U

minimálisan elégséges, ha

U

bármilyen más

V

statisztika függvénye, ami elégséges

θ

-ra. Még egyszer, a definíció pontosan megragadja a minimális elégségesség fogalmát, de nehéz alkalmazni. A következő feladat egy ekvivalens feltételt ad.

Jelölje $f θ$ az $X$ sűrűségfüggvényét, ami megfelel a $θ$ paraméterértéknek és tegyük fel, hogy $U h X$ egy statisztika, ami $T$ -beli értékeket vesz fel. Mutassuk meg, hogy $U$ minimálisan elégséges $θ$ -ra, ha a következő feltétel fennáll: $x S$ és $y S$

f θ x f θ y független θ -tól akkor és csak akkor, ha h x h y

Útmutatás: Ha $V g X$ egy másik elégséges statisztika, használjuk a faktorizációs tételt és a fenti feltételt, hogy megmutassuk, $g x g y$ -ból következik $h x h y$ minden $x S$ és $y S$ esetén! Ebből következik, hogy $U$ a $V$ egy függvénye.

Mutassuk meg, ha $U$ és $V$ ekvivalens statisztikák és $U$ minimálisan elégséges $θ$ -ra, akkor $V$ is minimálisan elégséges $θ$ -ra!

Tegyük fel, hogy $X$ eloszlása $k$ -parameterű exponenciális család $U h X$ természetes elégséges statisztikával. Mutassuk meg, hogy $U$ minimálisan elégséges $θ$ -ra!

Mutassuk meg, hogy a Bernoulli, Poisson, normális, gamma és béta eloszláscsaládokra a fentiekben adott elégséges statisztikák minimálisan elégségesek az adott paraméterekre!

Tegyük fel, hogy $X X 1 X 2 X n$ egy véletlen minta az $a a 1$ intervallumon egyenletes eloszlásból, ahol $a 0$ ismeretlen paraméter. Mutassuk meg, hogy $X n 1 X n n$ , az első és utolsó rendstatisztikából álló vektor, minimálisan elégséges $a$ -ra! Jegyezzük meg, hogy egy paraméterünk van, de a minimálisan elégséges statisztika egy kétdimenziós vektor!

Az elégséges statisztikák tulajdonságai

Az elégségesség kapcsolatban van néhány, már tanulmányozott módszerrel, amit becslések megkonstruálására használtunk.

Tegyük fel, hogy $U$ elégséges $θ$ -ra, és létezik $θ$ egy maximum likelihood becslése. Mutassuk meg, hogy ekkor létezik egy $V$ maximum likelihood becslés, ami $U$ függvénye! Útmutatás: Használjuk a faktorizációs tételt!

Speciálisan, tegyük fel, hogy

V

θ

egyértelmű maximum likelihood becslése, és hogy

V

elégséges

θ

-ra. Ha

U

elégséges

θ

-ra, akkor

V

U

függvénye az előző feladat szerint. Innen következik, hogy

V

minimálisan elégséges

θ

-ra.

Tegyük fel, hogy az $U$ statisztika elégséges a $θ$ paraméterre, és hogy $V$ a $θ$ egy Bayes becslése. Mutassuk meg, hogy $V$ az $U$ egy függvénye! Útmutatás: Használjuk a faktorizációs tételt!

A következő feladat megadja a Rao-Blackwell tételt, ami CR Rao és David Blackwell után van elnevezve. A tétel megmutatja, hogy használható fel egy elégséges statisztika egy torzítatlan becslés javítására.

Tegyük fel, hogy $U$ elégséges $θ$ -ra, és hogy $V$ egy $λ λ θ$ valós paraméter torzítatlan becslése. Használjuk az elégségességet és a feltételes várható érték és a feltételes szórásnégyzet tulajdonságait, hogy megmutassuk:

$θ V U$ egy érvényes statisztika, azaz nem függ $θ$ -tól, a várható értékben formálisan szereplő $θ$ -tól való függés ellenére
$V U$ az $U$ egy függvénye
$V U$ a $λ$ torzítatlan becslése
$var θ V U var θ V$ minden $θ Θ$ -ra, így $V U$ egyenletesen jobb, mint $V$ .

Teljes statisztikák

Tegyük fel, hogy

U h X

egy statisztika, ami

T

halmazbeli értékeket vesz fel. Ekkor

U

teljes statisztika

θ

-ra, ha minden

T

-n értelmezett valós értékű

g

függvényre

Hogy megértsük ezt az elég különösen kinéző feltételt, tegyük fel, hogy

g U

egy statisztika, amit

U

-ból készítettünk a 0 becslésére (0 mint

θ

egy függvénye). A teljességi feltétel azt jelenti, hogy az egyetlen ilyen torzítatlan statisztika az a statisztika, ami nulla 1 valószínűséggel.

Mutassuk meg, ha $U$ és $V$ ekvivalens statisztikák és $U$ teljes $θ$ -ra, akkor $V$ is teljes $θ$ -ra!

Nevezetes eloszlások

Tegyük fel, hogy $X X 1 X 2 X n$ egy $n$ elemű véletlen minta a Bernoulli eloszlásból, $p 01$ sikerparaméterrel. Mutassuk meg, hogy a sikerek száma, $Y i 1 n X i$ , teljes $p$ -re! Útmutatás: Vegyük figyelembe, hogy $p g Y$ felírható, mint $t p 1 p$ polinomja! Ha ez a polinom 0 minden $t$ -re egy nyílt intervallumban, akkor az együtthatóknak 0-nak kell lenniük.

Tegyük fel, hogy $X X 1 X 2 X n$ egy $n$ elemű véletlen minta a Poisson eloszlásból, $a 0$ paraméterrel. Mutassuk meg, hogy a mintaértékek összege, $Y i 1 n X i$ , teljes $a$ -ra! Útmutatás: Vegyük figyelembe, hogy $a g Y$ felírható, mint $a$ hatványsora! Ha ez a sor 0 minden $a$ -ra egy nyílt intervallumban, akkor az együtthatóknak 0-nak kell lenniük.

Tegyük fel, hogy $X X 1 X 2 X n$ egy $n$ elemű véletlen minta az exponenciális eloszlásból, $b 0$ skálaparaméterrel. Mutassuk meg, hogy a mintaértékek összege, $Y i 1 n X i$ , teljes $b$ -re! Útmutatás: Vegyük figyelembe, hogy $b g Y$ egy bizonyos függvény Laplace transzformáltja! Ha ez a transzformált 0 minden $b$ -re egy nyílt intervallumban, akkor a függvénynek 0-nak kell lenni.

Az előző feladatok eredményei általánosíthatók az exponenciális családokra, de a bizonyítás bonyolult. Speciálisan, ha

X

eloszlása

k

-parameterű exponenciális család

U h X

természetes elégséges statisztikával, akkor

U

teljes

θ

-ra (ahogy minimálisan elégséges is

θ

-ra). Ez teljesül Bernoulli, Poisson, normális, gamma és béta eloszlású véletlen mintákra.

Tegyük fel, hogy $X X 1 X 2 X 3$ egy 3 elemű véletlen minta a Bernoulli eloszlásból, $p 1 3 1 2$ sikerparaméterrel. Mutassuk meg, hogy $Y X 1 X 2 X 3$ nem teljes $p$ -re!

A Lehmann-Scheffé tétel

A következő feladat megmutatja a teljes elégséges statisztikák fontosságát; ez mint Lehmann-Scheffé tétel ismeretes, Erich Lehmann és Henry Scheffé munkája nyomán.

Tegyük fel, hogy $U$ elégséges és teljes $θ$ -ra, és hogy $T r U$ egy $λ λ θ$ valós értékű paraméter torzítatlan becslése. Mutassuk meg, hogy $T$ a $λ$ egyenletesen minimális szórásnégyzetű torzítatlan becslése! A bizonyítás a következő lépéseken alapul:

Tegyük fel, hogy $V$ a $λ$ torzítatlan becslése. A Rao-Blackwell tétel szerint $V U$ szintén $λ$ torzítatlan becslése és egyenletesen jobb, mint $V$ .
Mivel $V U$ az $U$ függvénye, használjuk a teljességet, hogy belássuk, hogy $T V U$ 1 valószínűséggel!

Tegyük fel, hogy $X X 1 X 2 X n$ egy $n$ elemű véletlen minta a Bernoulli eloszlásból, $p 01$ paraméterrel. Szokás szerint jelölje $Y i 1 n X i$ a sikerek számát. Mutassuk meg, hogy $p 1 p$ , az eloszlás szórásnégyzete, UMVUE becslése

Y n 1 1 Y n

Tegyük fel, hogy $X X 1 X 2 X n$ egy $n$ elemű véletlen minta a Poisson eloszlásból, $μ$ paraméterrel. Legyen $Y i 1 n X i$ . Mutassuk meg, hogy $X 0 μ$ -re

n 1 n Y

egy egyenletesen minimális szórásnégyzetű torzítatlan becslés (UMVUE)! Útmutatás: Használjuk $Y$ valószínűségi generátorfüggvényét!

Kiegészítő statisztikák

Tegyük fel, hogy

V r X

egy statisztika, ami

T

halmazbeli értékeket vesz fel. Ha

V

eloszlása nem függ

θ

-tól, akkor

V

-t kiegészítő statisztikának hívjuk

θ

-ra nézve. Így a kiegészítő statisztika fogalma az elégséges statisztika fogalmának ellentéte (ami tartalmazza a mintában lévő összes információt a paraméterről). A következő feladat eredménye, ami Basu tételeként ismert - Debabrata Basuról elnevezve -, pontosabban fogalmazza ezt meg.

Tegyük fel, hogy $U$ teljes és elégséges a $θ$ paraméterre, és hogy $V$ egy kiegészítő statisztika. Mutassuk meg, hogy $U$ és $V$ függetlenek! A következő lépések vázolják a bizonyítást:

Jelölje $g$ $V$ sűrűségfüggvényét és jelölje $v g v U$ $V$ feltételes sűrűségfüggvényét adott $U$ esetén.
A feltételes várható érték tulajdonságait felhasználva mutassuk meg, hogy $g v U g v$ $v T$ esetén!
Használjuk a teljességet, hogy megállapítsuk, hogy $g v U g v$ 1 valószínűséggel!

Mutassuk meg, hogy ha $U$ és $V$ ekvivalens statisztikák és $U$ kiegészítő $θ$ -ra, akkor $V$ is kiegészítő $θ$ -ra!

Tegyük fel, hogy $X X 1 X 2 X n$ egy véletlen minta egy skálaparaméteres családból, $b 0$ skálaparaméterrel. Mutassuk meg, hogy $V$ kiegészítő statisztika $b$ -re, ha $V$

X 1 X n X 2 X n X n 1 X n

függvénye!

Tegyük fel, hogy $X X 1 X 2 X n$ egy $n$ elemű véletlen minta a gamma eloszlásból, $k 0$ alakparaméterrel és $b 0$ skálaparaméterrel. Jelölje $M$ az $X$ minta számtani közepét és jelölje $U$ az $X$ minta mértani közepét. Mutassuk meg, hogy $M U$ kiegészítő $b$ -re, és ebből következően $M$ és $M U$ függetlenek! Útmutatás: Használjuk az előző feladatot!

6. Elégséges, teljes és kiegészítő statisztikák

Az alap statisztikai modell

Elégséges statisztikák

A faktorizációs tétel

Nevezetes eloszlások

Minimális elégséges statisztikák

Az elégséges statisztikák tulajdonságai

Teljes statisztikák

Nevezetes eloszlások

A Lehmann-Scheffé tétel

Kiegészítő statisztikák