2nd April 2008

Session 3.4

Validation of the Categorical Goodness-of-Fit Test

 

The Model

 

Consider a color bowl with the following colors and probabilities per color: Blue, PBlue=3/6; Green, PGreen=2/6 and Red, PRed=3/6. From the perfect samples discussions from Part One of the course, we can, for random samples of 50 draws with replacement from the color bowl, predict the expected counts per color: EBlue=n*PBlue = 50*(3/6) = 25; EGreen=n*PGreen= 50*(2/6) » 16.7 and ERed=n*PRed=50*(3/6) » 8.3.

 

We have a test of categories, to be discussed further in session 3.5 - for now, we'll consider the behavior of the test and leave the details for later. If we decide to view the test results as presenting significant evidence against the null model when the p-value is less than .05, then we expect roughly 5% of the test results to be misleading when the null model is correct.

 

We have rigged the model so that we know that the samples, in fact, do come from the null model.

 

Sample

n

nBlue

Eblue

ErrorBlue

nGreen

Egreen

ErrorGreen

nRed

Ered

ErrorRed

Error

p-value

P < .05?

n=50

 

O=Observed

E=n*(3/6)

((O-E)^2)/E

O

E=n*(2/6)

((O-E)^2)/E

O

E=n*(1/6)

((O-E)^2)/E

Add Errors

 

 

Perfect

50

25

25

0

16

16.66667

0.02666667

9

8.333333

0.05333333

0.08

0.960789

No

Perfect

50

25

25

0

17

16.66667

0.00666667

8

8.333333

0.01333333

0.02

0.99005

No

1

50

26

25

0.04

15

16.66667

0.16666667

9

8.333333

0.05333333

0.26

0.878095

No

2

50

20

25

1

18

16.66667

0.10666667

12

8.333333

1.61333333

2.72

0.256661

No

3

50

29

25

0.64

12

16.66667

1.30666667

9

8.333333

0.05333333

2

0.367879

No

4

50

21

25

0.64

22

16.66667

1.70666667

7

8.333333

0.21333333

2.56

0.278037

No

5

50

24

25

0.04

14

16.66667

0.42666667

12

8.333333

1.61333333

2.08

0.353455

No

6

50

23

25

0.16

16

16.66667

0.02666667

11

8.333333

0.85333333

1.04

0.594521

No

7

50

19

25

1.44

14

16.66667

0.42666667

17

8.33333

9.0133333

10.88

0.004339

Yes

8

50

25

25

0

18

16.66667

0.10666667

7

8.333333

0.21333333

0.32

0.852144

No

9

50

24

25

0.04

16

16.66667

0.02666667

10

8.333333

0.33333333

0.4

0.818731

No

10

50

24

25

0.04

19

16.66667

0.32666667

7

8.333333

0.21333333

0.58

0.748264

No

11

50

26

25

0.04

16

16.66667

0.02666667

8

8.333333

0.01333333

0.08

0.960789

No

12

50

20

25

1

21

16.66667

1.12666667

9

8.333333

0.05333333

2.18

0.336216

No

13

50

26

25

0.04

16

16.66667

0.02666667

8

8.333333

0.01333333

0.08

0.960789

No

14

50

26

25

0.04

14

16.66667

0.42666667

10

8.333333

0.33333333

0.8

0.67032

No

15

50

23

25

0.16

14

16.66667

0.42666667

13

8.333333

2.61333333

3.2

0.201897

No

16

50

25

25

0

20

16.66667

0.66666667

5

8.333333

1.33333333

2

0.367879

No

17

50

25

25

0

17

16.66667

0.00666667

8

8.333333

0.01333333

0.02

0.99005

No

18

50

22

25

0.36

22

16.66667

1.70666667

6

8.333333

0.65333333

2.72

0.256661

No

19

50

27

25

0.16

15

16.66667

0.16666667

8

8.333333

0.01333333

0.34

0.843665

No

20

50

27

25

0.16

15

16.66667

0.16666667

8

8.333333

0.01333333

0.34

0.843665

No

21

50

27

25

0.16

15

16.66667

0.16666667

8

8.333333

0.01333333

0.34

0.843665

No

22

50

28

25

0.36

15

16.66667

0.16666667

7

8.333333

0.21333333

0.74

0.690734

No

 

We expect .05*22 » 1.1 false alarms among the 22 tests, and observed 1 false alarm.

 

Sample

nBlue

Eblue

ErrorBlue

nGreen

Egreen

ErrorGreen

nRed

Ered

ErrorRed

Total Error

p-value

P < .05?

n=50

 

O=Observed

E=n*(3/6)

((O-E)^2)/E

O

E=n*(2/6)

((O-E)^2)/E

O

E=n*(1/6)

((O-E)^2)/E

Add Errors

 

 

Perfect

50

25

25

0

16

16.66667

0.02666667

9

8.33333

0.05333333

0.08

0.960789

No

Perfect

50

25

25

0

17

16.66667

0.00666667

8

8.33333

0.01333333

0.02

0.99005

No

1

50

20

25

1

23

16.66667

2.40666667

7

8.33333

0.21333333

3.62

0.163654

No

2

50

23

25

0.16

19

16.66667

0.32666667

8

8.33333

0.01333333

0.5

0.778801

No

3

50

19

25

1.44

17

16.66667

0.00666667

14

8.33333

3.85333333

5.3

0.070651

No

4

50

29

25

0.64

15

16.66667

0.16666667

6

8.33333

0.65333333

1.46

0.481909

No

5

50

24

25

0.04

13

16.66667

0.80666667

13

8.33333

2.61333333

3.46

0.177284

No

6

50

24

25

0.04

16

16.66667

0.02666667

10

8.33333

0.33333333

0.4

0.818731

No

7

50

19

25

1.44

18

16.66667

0.10666667

13

8.33333

2.61333333

4.16

0.12493

No

8

50

24

25

0.04

18

16.66667

0.10666667

8

8.33333

0.01333333

0.16

0.923116

No

9

50

25

25

0

16

16.66667

0.02666667

9

8.33333

0.05333333

0.08

0.960789

No

10

50

18

25

1.96

21

16.66667

1.12666667

11

8.33333

0.85333333

3.94

0.139457

No

11

50

24

25

0.04

15

16.66667

0.16666667

11

8.33333

0.85333333

1.06

0.588605

No

12

50

24

25

0.04

23

16.66667

2.40666667

3

8.33333

3.41333333

5.86

0.053397

No

13

50

29

25

0.64

14

16.66667

0.42666667

7

8.33333

0.21333333

1.28

0.527292

No

14

50

23

25

0.16

21

16.66667

1.12666667

6

8.33333

0.65333333

1.94

0.379083

No

15

50

21

25

0.64

20

16.66667

0.66666667

9

8.33333

0.05333333

1.36

0.506617

No

16

50

21

25

0.64

21

16.66667

1.12666667

8

8.33333

0.01333333

1.78

0.410656

No

17

50

30

25

1

12

16.66667

1.30666667

8

8.33333

0.01333333

2.32

0.313486

No

18

50

25

25

0

21

16.66667

1.12666667

4

8.33333

2.25333333

3.38

0.18452

No

19

50

29

25

0.64

10

16.66667

2.66666667

11

8.33333

0.85333333

4.16

0.12493

No

20

50

24

25

0.04

20

16.66667

0.66666667

6

8.33333

0.65333333

1.36

0.506617

No

 

We expect .05*20 = 1 false alarms among the 20 tests, and observed 0 false alarms.

 

We expect .05*42 » 2.1 false alarms among the 42 tests, and observed 1 false alarm. This is an approximate 2.4% false alarm rate for the 42 tests.