平均數的變異分析
平均數的變異分析
ANOVA 與 F TEST(F檢定/F檢驗)
變異數分析的基本原理
◎平均數差異檢定:計算兩個母體平均數間的差異,如果差異夠大,大於統計上的隨機差異,便可能獲得顯著的結果,拒絕虛
無假設、接受對立假設。(z檢定、t檢定、p值檢定)。
◎平均數變異分析:超過兩個母體平均數間的差異的檢定,其原理是以 平均數間的變異數(組間變異)除以 隨機變異 得到的比
值(F值—F檢定),能同時檢定三個(或以上)平均數的差異情形。
◎當F值越大,表示研究者關心的 組間(母體間)平均數 的分散情形較 誤差變異 來得大;若大於研究者設定的臨界值,研究者
即可獲得「拒絕虛無假設、接受對立假設」的結論。
=====================================================
>>> 平均數變異分析:
◎統計資料常會受到不同因素(factor)的影響,而使個別觀測值產生差異。
例如,欲研究某農地稻米產量的差異是否顯著,可能影響產量的因素有稻米種類、肥料、氣候及土壤…等等。
但是這些影響因素是否顯著,則可以透過變異數分析方法。
◎先求算樣本總變異(total variability),再依不同的影響因素將其分解為若干可解釋變異(explained variation)與不可解釋
變異(unexplained variation),最後再利用F分配右尾來進行統計資料的檢定。
=====================================================
1.實驗單位(experiment unit):實驗設計中所測量的基本單位。
2.因子(factor):實驗單位中各種不同的影響條件。
3.水準(level):一因子出現的各種不同條件。
4.處理(treatment):不同因子水準的每個特定組合稱為處理。
=====================================================
◎如欲瞭解某塊農地單位面積(即為實驗單位)稻米產量是否有差異,若研究三種不同的稻米種類是否會造成產量的差異,則此問題為單因子變異數分析(one factor
ANOVA),因子為稻米種類,且具有三個水準。
◎假若現在所要探討的因素增加二種土壤種類,則此問題為二因子變異數分析(two factors ANOVA),因子有稻米及土壤種類,其各自的水準分別為3和2,因此共可產生3*2=6種處理。
◎依此類推,尚有三因子、四因子等變異數分析。
=====================================================
P.3
單因子變異數分析(Single Factor ANOVA)
◎統計學家為了使變異數分析更具有效率,設計許多實驗方法,稱為實驗設計(design of experiment;DOE),主要是利用實驗設計中隨機化與重複性兩種特性來使其他無關的影響因素相互抵消,藉以增加檢定結果的可靠度。
◎實驗設計的種類很多,最主要的有獨立樣本的完全隨機化設計(completely randomized design)及相依樣本的隨機化區集設計(randomized block design)。
=====================================================
完全隨機化設計(獨立樣本)
處理
(水準) 觀 測 值 總 和 平均數
1 y11 y12 … y1n y1· 1⋅ y
2 y21 y22 … y2n y2· 2 ⋅ y
k Yk1· yk2 … ykn yk· k ⋅ y
總計 y·· ⋅⋅
yij:處理i的第j個觀測值
ni
:處理i的樣本觀測值個數
∑ ∑∑ = = =
= =
k
i
n
j
ij
k
i
i
i
y y y 1 1 1
.. . :所有樣本觀測值總和
i i i y y / n . = . :處理i下的樣本觀測值平均數
∑=
⋅⋅ = ⋅
k
i
i y k y 1
1 :所有樣本觀測值平均數 ∑=
= i n
j
i ij y y
1
. :處理i的樣本觀測值總和
=====================================================
P.4
ANOVA 的基本假設
1. 每個反應變數的母體均為常態分配
2. 每個母體變異數均相同
3. 來自各母體的隨機樣本互為獨立
yij ~ N(μi
, σ2)
H0:μ1 = μ2 = … = μk
H1:μ1, μ2, …, μk不全相等 應用 ANOVA方法
yij = μi + εij
(εij ~ N(0,σ2)且εij互為獨立,i = 1,2,…,k,j = 1,2,…,ni )
αi = μi - μ =第 i 個處理效應(treatment effect)
∴ yij = μ + αi + εij ~ (0, ) 2 ε N σ
iid
ij ; εij互為獨立;
0
1
∑ = =
i
k
i
α
=====================================================
單因子變異數分析是在檢定多個處理平均值是否相同,即
檢定處理水準的效應存在與否。
H0:α1 = α2 = … = αk = 0
H1:至少有一αi 不等於0,i = 1,2,…,k
變異來源 平方和(SS) 自由度(df) 均方(MS)
組間 2
. ..
1
SS n ( y y ) i
k
i
b = ∑ i − =
k-1 −1 = k
SSB MSb
組內(誤差) ∑∑= =
= −
k
i
n
j
w ij i
i
SS y y 1 1
2
. ( ) N − k
N k
SSE MSw − =
合計 = ∑∑ −
k
i
n
j
t ij
i
SS y y 2
.. ( ) N-1
• 變異數分析的主要原理係將全體樣本在依變項的變異情形,其「導因於自變項影響的變異」與「導因於誤差的變異」兩個部份加以分別計算。
• 將總離散量(總變異)拆解成自變項(組間)效果與誤差 (組內)效果兩個部份,再加以比較。
=====================================================
P.5
1. 不論各處理的平均值相等與否,MSE均是誤差項εij的變異數σ2之不偏估計式。其原因是因為隨機出現的誤差並不會受到μi 的影響。
2. 若在虛無假設H0成立下,則E[MSb]=E[MSw]=σ2,故在H0假設下,MSB和MSE均為σ2的不偏估計量。反之,若μi
不全相
等(即拒絕H0),則E[MSb]>E[MSw]= σ2,即只要μi不全相等,則MSb恆大於MSw。
H0:μ1 = μ2 = … = μk
H1:μ1, μ2, …, μk不全相等
H0:E[MSb] = E[MSw]
H1:E[MSb] > E[MSw]
H0為真時,母體為常態分配的基本假設下
SSb/σ2 ~ χ2(k-1);SSw/σ2 ~ χ2(N-k) 且SSb/σ2與SSw/σ2互為獨立
~ ( 1, )
( )
( 1)
2
2
F k N k
MS
MS
N k SS
k SS
F
w
b
w
b
= − −
−
−
=
σ
σ 當F值愈大(即MSb愈大於MSw),表示μi不相等
=====================================================
單因子變異數分析模式: yij = μi + εij = μ + αi + εij ,
i=1,2,…,k,j=1,2,…,ni, αk 為第 i 個處理的處理效應。
在基本假設成立下,單因子變異數分析即在檢定
H0:μ1 = μ2 = … = μk
H1:μ1, μ2, …, μk不全相等
或 H0:α1 = α2 = … = αk = 0
H1:αi
有一不為0
在顯著水準α下,當F > Fα(k-1, N-k),則拒絕虛無假設,即表示處理間之平均數有顯著差異。
獨立樣本單因子變異數分析表
變異來源 SS df MS F
組間 SSb k-1 SSb/dfb MSb/MSw
( ) 組內 誤差 SSw N-k SSw/dfw
全體 SSt N-1
=====================================================
P.6
【例】設隨機選擇條件相同的數塊田地,分別以甲、乙、丙、丁四種不同品種的稻米來做實驗, 得到的收穫量(千公斤)如下表:
試問在顯著水準 α = 0.05下不同品種的稻米的平均產量是否會有顯著的差異?
設μ1, μ2, μ3, μ4分別為稻米品種甲、乙、丙、丁的母體平均產量。
處理 觀測值 平均數
甲 8 5 9 8 10 1. y =8
乙 12 14 16 2. y =14
丙 9 14 15 10 3. y =12
丁 10 8 9 12 10 11 4. y =10
總平均 .. y =11
H0:μ1 = μ2 = μ3 = μ4 H1:μi
不全相等
=====================================================
【例】 ANOVA Table
在顯著水準α = 0.05下的拒絕域為 F > F0.05(3,14) = 3.35。
因F = 7.97 > 3.35 = F0.05(3,14),故拒絕虛無假設H0,表示此四種不同品種的稻米平均產量有顯著的差異。
變異來源 平方和(SS) 自由度(df) 均方(MS) F 值
處理間 SSB=82 3
MSB=82/3
=27.33
MSB/MSE=
27.3/3.43=7.97
誤差 SSE=58 14
MSE=58/14
=3.43
合計 SST=140 17
=====================================================