2nd April 2008
Session 3.4
Validation of the Categorical Goodness-of-Fit Test
The Model
Consider a color bowl with the following colors and
probabilities per color: Blue, PBlue=3/6; Green, PGreen=2/6 and Red, PRed=3/6.
From the perfect samples discussions from Part One of the course, we can, for
random samples of 50 draws with replacement from the color bowl, predict the
expected counts per color: EBlue=n*PBlue
= 50*(3/6) = 25; EGreen=n*PGreen= 50*(2/6) » 16.7 and ERed=n*PRed=50*(3/6) » 8.3.
We have a test of categories, to be discussed further in
session 3.5 - for now, we'll consider the behavior of the test and leave the
details for later. If we decide to view the test results as presenting
significant evidence against the null model when the p-value is less than .05,
then we expect roughly 5% of the test results to be misleading when the null
model is correct.
We have rigged the model so that we know that the
samples, in fact, do come from the null model.
Sample |
n |
nBlue |
Eblue |
ErrorBlue |
nGreen |
Egreen |
ErrorGreen |
nRed |
Ered |
ErrorRed |
Error |
p-value |
P
< .05? |
n=50 |
|
O=Observed |
E=n*(3/6) |
((O-E)^2)/E |
O |
E=n*(2/6) |
((O-E)^2)/E |
O |
E=n*(1/6) |
((O-E)^2)/E |
Add
Errors |
|
|
Perfect |
50 |
25 |
25 |
0 |
16 |
16.66667 |
0.02666667 |
9 |
8.333333 |
0.05333333 |
0.08 |
0.960789 |
No |
Perfect |
50 |
25 |
25 |
0 |
17 |
16.66667 |
0.00666667 |
8 |
8.333333 |
0.01333333 |
0.02 |
0.99005 |
No |
1 |
50 |
26 |
25 |
0.04 |
15 |
16.66667 |
0.16666667 |
9 |
8.333333 |
0.05333333 |
0.26 |
0.878095 |
No |
2 |
50 |
20 |
25 |
1 |
18 |
16.66667 |
0.10666667 |
12 |
8.333333 |
1.61333333 |
2.72 |
0.256661 |
No |
3 |
50 |
29 |
25 |
0.64 |
12 |
16.66667 |
1.30666667 |
9 |
8.333333 |
0.05333333 |
2 |
0.367879 |
No |
4 |
50 |
21 |
25 |
0.64 |
22 |
16.66667 |
1.70666667 |
7 |
8.333333 |
0.21333333 |
2.56 |
0.278037 |
No |
5 |
50 |
24 |
25 |
0.04 |
14 |
16.66667 |
0.42666667 |
12 |
8.333333 |
1.61333333 |
2.08 |
0.353455 |
No |
6 |
50 |
23 |
25 |
0.16 |
16 |
16.66667 |
0.02666667 |
11 |
8.333333 |
0.85333333 |
1.04 |
0.594521 |
No |
7 |
50 |
19 |
25 |
1.44 |
14 |
16.66667 |
0.42666667 |
17 |
8.33333 |
9.0133333 |
10.88 |
0.004339 |
Yes |
8 |
50 |
25 |
25 |
0 |
18 |
16.66667 |
0.10666667 |
7 |
8.333333 |
0.21333333 |
0.32 |
0.852144 |
No |
9 |
50 |
24 |
25 |
0.04 |
16 |
16.66667 |
0.02666667 |
10 |
8.333333 |
0.33333333 |
0.4 |
0.818731 |
No |
10 |
50 |
24 |
25 |
0.04 |
19 |
16.66667 |
0.32666667 |
7 |
8.333333 |
0.21333333 |
0.58 |
0.748264 |
No |
11 |
50 |
26 |
25 |
0.04 |
16 |
16.66667 |
0.02666667 |
8 |
8.333333 |
0.01333333 |
0.08 |
0.960789 |
No |
12 |
50 |
20 |
25 |
1 |
21 |
16.66667 |
1.12666667 |
9 |
8.333333 |
0.05333333 |
2.18 |
0.336216 |
No |
13 |
50 |
26 |
25 |
0.04 |
16 |
16.66667 |
0.02666667 |
8 |
8.333333 |
0.01333333 |
0.08 |
0.960789 |
No |
14 |
50 |
26 |
25 |
0.04 |
14 |
16.66667 |
0.42666667 |
10 |
8.333333 |
0.33333333 |
0.8 |
0.67032 |
No |
15 |
50 |
23 |
25 |
0.16 |
14 |
16.66667 |
0.42666667 |
13 |
8.333333 |
2.61333333 |
3.2 |
0.201897 |
No |
16 |
50 |
25 |
25 |
0 |
20 |
16.66667 |
0.66666667 |
5 |
8.333333 |
1.33333333 |
2 |
0.367879 |
No |
17 |
50 |
25 |
25 |
0 |
17 |
16.66667 |
0.00666667 |
8 |
8.333333 |
0.01333333 |
0.02 |
0.99005 |
No |
18 |
50 |
22 |
25 |
0.36 |
22 |
16.66667 |
1.70666667 |
6 |
8.333333 |
0.65333333 |
2.72 |
0.256661 |
No |
19 |
50 |
27 |
25 |
0.16 |
15 |
16.66667 |
0.16666667 |
8 |
8.333333 |
0.01333333 |
0.34 |
0.843665 |
No |
20 |
50 |
27 |
25 |
0.16 |
15 |
16.66667 |
0.16666667 |
8 |
8.333333 |
0.01333333 |
0.34 |
0.843665 |
No |
21 |
50 |
27 |
25 |
0.16 |
15 |
16.66667 |
0.16666667 |
8 |
8.333333 |
0.01333333 |
0.34 |
0.843665 |
No |
22 |
50 |
28 |
25 |
0.36 |
15 |
16.66667 |
0.16666667 |
7 |
8.333333 |
0.21333333 |
0.74 |
0.690734 |
No |
We expect .05*22 » 1.1 false alarms among
the 22 tests, and observed 1 false alarm.
Sample |
nBlue |
Eblue |
ErrorBlue |
nGreen |
Egreen |
ErrorGreen |
nRed |
Ered |
ErrorRed |
Total
Error |
p-value |
P
< .05? |
|
n=50 |
|
O=Observed |
E=n*(3/6) |
((O-E)^2)/E |
O |
E=n*(2/6) |
((O-E)^2)/E |
O |
E=n*(1/6) |
((O-E)^2)/E |
Add
Errors |
|
|
Perfect |
50 |
25 |
25 |
0 |
16 |
16.66667 |
0.02666667 |
9 |
8.33333 |
0.05333333 |
0.08 |
0.960789 |
No |
Perfect |
50 |
25 |
25 |
0 |
17 |
16.66667 |
0.00666667 |
8 |
8.33333 |
0.01333333 |
0.02 |
0.99005 |
No |
1 |
50 |
20 |
25 |
1 |
23 |
16.66667 |
2.40666667 |
7 |
8.33333 |
0.21333333 |
3.62 |
0.163654 |
No |
2 |
50 |
23 |
25 |
0.16 |
19 |
16.66667 |
0.32666667 |
8 |
8.33333 |
0.01333333 |
0.5 |
0.778801 |
No |
3 |
50 |
19 |
25 |
1.44 |
17 |
16.66667 |
0.00666667 |
14 |
8.33333 |
3.85333333 |
5.3 |
0.070651 |
No |
4 |
50 |
29 |
25 |
0.64 |
15 |
16.66667 |
0.16666667 |
6 |
8.33333 |
0.65333333 |
1.46 |
0.481909 |
No |
5 |
50 |
24 |
25 |
0.04 |
13 |
16.66667 |
0.80666667 |
13 |
8.33333 |
2.61333333 |
3.46 |
0.177284 |
No |
6 |
50 |
24 |
25 |
0.04 |
16 |
16.66667 |
0.02666667 |
10 |
8.33333 |
0.33333333 |
0.4 |
0.818731 |
No |
7 |
50 |
19 |
25 |
1.44 |
18 |
16.66667 |
0.10666667 |
13 |
8.33333 |
2.61333333 |
4.16 |
0.12493 |
No |
8 |
50 |
24 |
25 |
0.04 |
18 |
16.66667 |
0.10666667 |
8 |
8.33333 |
0.01333333 |
0.16 |
0.923116 |
No |
9 |
50 |
25 |
25 |
0 |
16 |
16.66667 |
0.02666667 |
9 |
8.33333 |
0.05333333 |
0.08 |
0.960789 |
No |
10 |
50 |
18 |
25 |
1.96 |
21 |
16.66667 |
1.12666667 |
11 |
8.33333 |
0.85333333 |
3.94 |
0.139457 |
No |
11 |
50 |
24 |
25 |
0.04 |
15 |
16.66667 |
0.16666667 |
11 |
8.33333 |
0.85333333 |
1.06 |
0.588605 |
No |
12 |
50 |
24 |
25 |
0.04 |
23 |
16.66667 |
2.40666667 |
3 |
8.33333 |
3.41333333 |
5.86 |
0.053397 |
No |
13 |
50 |
29 |
25 |
0.64 |
14 |
16.66667 |
0.42666667 |
7 |
8.33333 |
0.21333333 |
1.28 |
0.527292 |
No |
14 |
50 |
23 |
25 |
0.16 |
21 |
16.66667 |
1.12666667 |
6 |
8.33333 |
0.65333333 |
1.94 |
0.379083 |
No |
15 |
50 |
21 |
25 |
0.64 |
20 |
16.66667 |
0.66666667 |
9 |
8.33333 |
0.05333333 |
1.36 |
0.506617 |
No |
16 |
50 |
21 |
25 |
0.64 |
21 |
16.66667 |
1.12666667 |
8 |
8.33333 |
0.01333333 |
1.78 |
0.410656 |
No |
17 |
50 |
30 |
25 |
1 |
12 |
16.66667 |
1.30666667 |
8 |
8.33333 |
0.01333333 |
2.32 |
0.313486 |
No |
18 |
50 |
25 |
25 |
0 |
21 |
16.66667 |
1.12666667 |
4 |
8.33333 |
2.25333333 |
3.38 |
0.18452 |
No |
19 |
50 |
29 |
25 |
0.64 |
10 |
16.66667 |
2.66666667 |
11 |
8.33333 |
0.85333333 |
4.16 |
0.12493 |
No |
20 |
50 |
24 |
25 |
0.04 |
20 |
16.66667 |
0.66666667 |
6 |
8.33333 |
0.65333333 |
1.36 |
0.506617 |
No |
We expect .05*20 = 1 false alarms among the 20 tests, and
observed 0 false alarms.
We expect .05*42 » 2.1 false alarms among
the 42 tests, and observed 1 false alarm. This is an approximate 2.4% false
alarm rate for the 42 tests.