//Logo Image
作者:徐業良(2003-08-25);推薦:徐業良(2003-08-25)

統計學基礎應用

1.     統計資料

所謂「統計學」是指蒐集、整理、表現、及分析資料的方法,希望能將零散的資料,整理成有用的資訊,進而提供決策方向的參考。如表1是元智大學機械工程學系九十二學年度考試分發新生學科能力測驗與指定科目考試成績部分資料,我們希望對此資料加以分析,瞭解今年入學新生成績狀況,作為未來教學及招生策略研擬之參考。

1. 九十二學年度考試分發新生學科能力測驗與指定科目考試成績部分資料

 

學科能力測驗

指定科目考試

代號

國文

英文

數學

社會

自然

總級分

國文

英文

數甲

物理

化學

採計總分

1

9

12

12

12

12

57

39.73

56.22

58

60

35.35

174.22

2

12

15

9

12

10

58

61.63

80.44

36

47

40.90

163.44

3

12

12

7

11

10

52

53.70

74.17

71

18

33.75

163.17

4

10

13

7

14

14

58

59.03

59.28

55.33

48

51.60

162.61

5

12

7

10

12

11

52

53.07

50.22

70

42

33.45

162.22

6

14

10

6

12

11

53

69.03

58.61

67

36

38.05

161.61

7

12

8

9

15

13

57

52.20

53.67

54

53

26.70

160.67

8

12

7

6

10

12

47

55.57

39.44

74

47

29.50

160.44

9

12

9

8

12

12

53

51.93

58.00

53

49

30.80

160.00

10

11

9

8

9

9

46

54.13

44.56

66

48

23.45

158.56

11

11

9

9

12

12

53

47.23

53.50

53

52

33.50

158.50

12

14

14

9

13

11

61

66.17

78.17

38.33

42

37.50

158.50

13

10

8

8

14

13

53

42.27

54.50

47.33

56

19.00

157.83

14

12

11

11

14

13

61

59.07

42.22

67

48

25.15

157.22

15

10

10

11

13

11

55

30.73

48.94

62

46

41.10

156.94

16

9

11

9

11

11

51

44.47

50.61

49

57

11.20

156.61

17

9

10

7

11

11

48

53.00

62.67

39.33

54

31.25

156.00

18

11

11

10

12

12

56

57.60

46.83

62

47

31.65

155.83

19

10

9

7

11

10

47

49.87

55.78

50

50

51.15

155.78

20

10

7

8

7

11

43

29.77

36.78

66

53

5.95

155.78

21

12

11

8

13

13

57

50.43

68.78

45

42

47.00

155.78

22

13

14

11

12

12

62

56.83

70.67

54

31

21.75

155.67

23

13

10

13

12

15

63

63.33

36.67

61

58

26.05

155.67

24

12

12

9

13

12

58

41.73

56.50

58

41

22.90

155.50

25

13

10

11

14

13

61

56.37

56.28

57

42

38.25

155.28

26

9

6

6

13

11

45

50.57

29.17

59

67

27.55

155.17

27

12

12

12

9

11

56

45.93

68.17

58

29

36.80

155.17

28

11

9

10

11

12

53

51.20

48.17

79

28

11.10

155.17

29

11

10

8

9

12

50

40.40

43.89

59

52

15.80

154.89

30

10

10

6

10

11

47

58.00

58.78

50

46

20.85

154.78

31

11

9

10

14

12

56

57.13

61.50

58

35

35.05

154.50

32

8

9

12

10

9

48

40.57

50.44

49

55

31.30

154.44

33

10

6

7

11

12

46

44.20

46.33

54

54

33.35

154.33

34

9

10

8

11

11

49

45.40

65.83

50

38

25.90

153.83

35

12

11

9

11

12

55

48.07

68.67

54

31

34.25

153.67

36

10

7

13

12

11

53

51.40

35.50

62

56

39.20

153.50

37

11

9

9

13

11

53

47.40

57.44

46

50

37.30

153.44

38

9

10

12

12

12

55

49.00

49.17

53

51

45.30

153.17

39

10

9

11

11

13

54

52.40

37.28

56.33

59

35.90

152.61

40

9

12

9

9

13

52

64.40

65.50

46

41

37.80

152.50

41

12

8

12

12

12

56

70.93

33.22

66

53

31.50

152.22

42

11

10

11

9

11

52

54.17

66.83

38.33

47

30.50

152.16

43

9

11

7

12

11

50

37.80

59.00

33

60

15.35

152.00

44

12

11

8

11

12

54

62.03

62.83

49

40

21.60

151.83

45

8

13

7

11

9

48

47.63

62.83

38

51

23.15

151.83

46

13

12

9

13

14

61

51.90

53.50

43.33

55

40.70

151.83

47

10

9

5

12

10

46

60.70

50.78

54

47

40.80

151.78

48

11

8

11

13

13

56

59.63

24.78

67

60

28.85

151.78

49

12

7

9

10

12

50

56.37

45.67

63

43

36.90

151.67

50

13

8

7

12

11

51

57.77

45.33

62

44

23.05

151.33

51

10

8

8

12

11

49

30.27

43.00

62

46

27.60

151.00

52

11

11

8

11

11

52

45.57

59.89

54

37

30.55

150.89

53

11

11

9

12

14

57

51.50

58.83

54

38

35.95

150.83

54

13

12

11

13

13

62

65.53

67.61

57

26

33.50

150.61

55

11

7

12

13

11

54

58.03

41.28

37.33

72

51.75

150.61

56

11

11

8

12

13

55

57.20

71.50

50

29

33.75

150.50

57

11

8

8

12

12

51

55.87

40.50

49

61

27.30

150.50

58

12

8

12

12

12

56

44.27

41.39

61

48

30.75

150.39

59

11

11

7

13

11

53

65.23

41.33

54

55

23.75

150.33

60

10

9

12

11

10

52

62.23

47.33

53

50

32.60

150.33

61

7

10

9

10

13

49

38.20

32.22

66

52

41.00

150.22

62

13

9

7

12

10

51

54.73

47.11

66

37

25.35

150.11

63

12

10

4

14

10

50

59.80

52.94

43

54

13.90

149.94

64

10

9

11

11

6

47

49.00

22.72

62

65

19.00

149.72

65

13

13

7

11

15

59

69.33

66.67

57

26

44.75

149.67

66

10

12

9

12

12

55

55.73

69.50

32

48

27.35

149.50

67

10

8

11

12

13

54

37.03

29.44

86

34

26.90

149.44

68

13

5

9

14

11

52

66.77

41.28

59

49

21.80

149.28

69

11

9

10

12

11

53

61.20

48.17

53

48

12.85

149.17

70

8

9

6

11

12

46

33.33

64.78

22.33

62

19.40

149.11

71

12

12

9

13

11

57

59.20

62.00

41

46

18.90

149.00

72

11

8

12

13

12

56

50.03

50.00

58

41

12.75

149.00

73

11

8

10

13

14

56

43.67

48.78

37

63

63.10

148.78

74

11

9

5

13

11

49

56.73

48.44

50

50

27.55

148.44

75

11

11

7

12

10

51

62.20

72.33

62

14

14.10

148.33

76

10

11

12

14

12

59

47.20

52.00

35.33

61

50.10

148.33

77

9

8

11

11

12

51

31.33

47.28

58

43

9.90

148.28

78

9

11

9

12

14

55

47.00

43.22

42

63

27.00

148.22

79

9

9

6

10

10

44

57.27

48.17

57

43

28.15

148.17

80

9

10

11

11

12

53

51.57

40.11

44

64

58.15

148.11

81

10

7

9

12

12

50

55.13

50.00

61

37

24.85

148.00

82

11

8

11

13

13

56

62.53

40.61

48.33

59

39.15

147.94

83

11

13

11

12

11

58

43.77

72.83

45

30

31.95

147.83

84

10

7

9

12

10

48

50.73

49.72

58

40

25.55

147.72

85

10

13

5

12

12

52

41.00

68.67

46

33

22.25

147.67

86

12

14

13

13

14

66

49.03

82.50

24

41

41.70

147.50

87

12

9

8

13

12

54

56.10

44.44

62

41

26.15

147.44

88

11

8

6

12

10

47

42.33

52.44

58

37

46.15

147.44

89

7

9

8

11

11

46

47.73

52.39

47

48

26.25

147.39

90

9

9

10

10

12

50

43.57

33.39

54

60

29.20

147.39

91

11

10

11

12

13

57

65.80

29.17

78

40

18.70

147.17

92

10

10

7

12

13

52

50.33

40.11

58

49

43.65

147.11

93

10

11

11

11

12

55

50.90

48.00

50

49

19.80

147.00

94

10

10

7

10

13

50

48.00

59.89

34

53

23.90

146.89

95

12

8

15

12

11

58

56.83

35.83

62

49

36.00

146.83

96

9

8

11

13

11

52

40.60

32.61

63

51

8.60

146.61

統計資料依取得的方式,可以分為原始資料和次級資料兩種。例如當我們想要知道對於某件事大眾普遍的想法時,通常會透過問卷調查的方式得到我們想要的答案,如此由研究者依照自己的研究目的去調查、觀察、或實驗而獲得的資料,稱作原始資料。而次級資料則是指他人所蒐集的資料,研究者應用統計方法加以整理、分析,以獲得自己所需之資訊,如表1中的成績資料即為次級資料。

2.     統計資料的呈現

統計資料必須經過適當的整理,才能呈現出比較完整意義。如表1中的指定科目考試成績,本系採計英文、數學、物理三科23對此三科成績資料及採計總分資料加以分組整理成「次數分配表」,同時將大學入學考試所有考生在此成績區間之百分比列出。

2. 英文、數學、物理分組次數分配表

 

英文

數學

物理

成績區間

人數

百分比

人數

百分比

人數

百分比

80.01~90

2

6.36%

1

4.51%

0

3.2%

70.01~80

6

14.51%

4

10.52%

1

7.58%

60.01~70

16

23.52%

23

21.09%

8

13.61%

50.01~60

25

33.39%

32

33.97%

26

21.12%

40.01~50

32

44.62%

23

51.47%

38

30.68%

30.01~40

10

57.03%

11

67.13%

15

42.76%

20.01~30

5

69.63%

2

79.56%

6

57.43%

10.01~20

0

82.71%

0

88.56%

2

75.31%

3. 採計總分分組次數分配表

成績區間

人數

百分比

174.01~177

1

17.78%

171.01~174

0

18.90%

168.01~171

0

19.97%

165.01~168

0

21.12%

162.01~165

4

22.32%

159.01~162

4

23.47%

156.01~159

7

24.63%

153.01~156

22

25.94%

150.01~153

24

27.27%

147.01~150

30

28.59%

144.01~147

4

29.95%

在試算表軟體Excel中,分組次數分配表可以由“frequency()”指令達成。表23中的資料也可以在Excel中轉換成直條圖(如圖1)、折線圖、圓形圖等方式作圖形化呈現。

1. 統計資料以直條圖呈現

3.     衡量資料的集中趨勢和離散程度

除了前述分組次數分配圖之外,我們也希望計算出一單一數值來代表學生各科成績的平均水準,以便與其他組學生的平均水準作比較。一般用來測量資料集中趨勢(即數列中心點)的指標有平均數、中位數、眾數三種

平均數是最常用的指標,n個數值x1, x2, …, xn之平均數計算公式如下:

                                                                                 (1)

如果在數列中存在較多過低或過高的極端值時,平均數可能會因而被拉低或拉高,失去代表此數列整體平均水準之代表性,此時可以選擇利用中位數來作為資料集中趨勢的指標。求數列x1, x2, …, xn之中位數,首先將此數列由小到大排列,如果n是奇數,依序排列後第(n+1)/2個數即為此數列之中位數,如果n為偶數,則取(n+1)/2前後兩個數的平均值為中位數。

4為表1中各科成績資料之平均數和中位數,可以比較全體考生該科成績的高標(該科前百分之五十考生成績之平均)、均標(該科全體考生成績之平均)、與低標(該科後百分之五十考生成績之平均),來瞭解本系入學新生成績之平均水準。

另外一個資料集中趨勢指標眾數,是指所觀察數列中出現次數最多的那一個數值。眾數在闡述表1資料較無代表性,因此並未列於表4。在試算表軟體Excel中,平均數、中位數、眾數可以分別由“average()”“median()”“mode()”指令達成。

4. 各科成績資料之平均數、中位數、變異數、和標準差

 

英文

數學

物理

採計總分

平均數

51.84

53.86

46.89

152.59

中位數

50.33

54.00

48.00

151.73

高標

60

60

50

 

均標

39

43

31

 

低標

18

25

12

 

變異數

167.58

129.48

116.67

23.38

標準差

12.95

11.38

10.80

4.84

數列中每一個數值和平均數之間都存在一個距離,有的大些、有的小些,我們可以計算這些距離的平均值,來說明此數列的離散程度。

衡量資料的離散指標有變異數和標準差,數列x1, x2, …, xn之變異數S計算公式如下:

                                                                                           (2)

變異數越大表示資料離散的程度越大,反之則越小,如變異數等於零表示所有數值均相同,沒有分散。變異數開根號即為標準差,標準差的單位與統計資料相同,數值大小也較能提供直觀的判斷。

4中亦同時列出表1中各科成績資料之變異數和標準差,顯示英文成績的離散程度略大於數學成績,數學成績的離散程度又略大於物理成績。在試算表軟體Excel中,變異數和標準差可以分別由“var()”“stdev()”指令達成。

4.     常態分配

從圖1的各科成績分佈圖可以看出,成績分佈在平均數附近的人數最多,往兩側越來越少,這種分佈的趨勢就叫做「常態分配」。許多統計資料都趨向於常態分配,特別是當樣本數越多時,越可能趨近於常態分配。

平均數和標準差是常態分配中兩個重要參數。圖2是平均數為10之常態分配曲線,橫座標為數值,縱座標為在此數值下出現之機率。常態分配的曲線呈現鐘型,相對於平均數左右對稱,曲線兩端機率越來越小。曲線高度則和標準差有關,標準差越小時統計資料集中趨勢越強,平均數附近的機率越高,如圖2中三條曲線從高至低標準差分別為123

2. 常態分佈曲線

2中的常態分配曲線是由式(3-a)的機率密度函數所定義,是平均值和標準差的函數。常態分配曲線常被標準化為平均數為0、標準差為1,標準化之常態分配機率可以式(3-b)求得:

*                                                                               (3-a)

*                                                                                   (3-b)

3所示為函數f(z),在一區間內此曲線下面積代表樣本落於此區間之機率,但理論上此曲線將向兩端無限延伸,整條曲線面積積分為1,即機率總和為1。例如在平均數正負一個標準差範圍內的機率為0.6826,在平均數正負二個標準差範圍內的機率為0.9544,在平均數正負三個標準差範圍內的機率為0.9974。例如假設表1中考試成績為常態分配,英文考試成績平均數為51.84,標準差為12.95,可推論有68.26%學生英文成績51.8412.95的範圍內(實際為64/96=66.67%),95.44%學生英文成績在51.8425.90範圍內(實際為91/96=94.79%),99.74%尺寸在51.8438.85範圍內(實際為96/96=100%)。在試算表軟體Excel中,式(3)常態分配函數的機率值可以由“normdist()”“normsdist()”產生。

3. 標準化之常態分配

5.     由抽樣作母體的估計

母體太大時,我們往往無法如分析表1一樣,蒐集、分析整個母體的資料,這時便必須利用抽樣的方式,研究樣本的特性,進而推論到母體之特性,稱為推論統計。抽樣的方式很多,最簡單的方式是隨機抽樣;樣本和母體之間仍然會存在一些差異,稱為抽樣誤差

例如我們從表196位同學隨機抽樣12位同學,分析這12位同學的英文成績,希望能推論全體96位同學的英文成績。在96位同學中隨機抽樣12位同學,總有非常多可能的組合,每一個組合中的12位同學都可以計算出一個英文成績平均數Xi,這個英文成績平均數Xi有的大、有的小,如果母體是常態分配,則所有的Xi也是成一個常態分配,這就叫做抽樣分配

數學上可以證明,這個抽樣分配的平均數必定等於母體的平均數m,也就是說將所有可能的抽樣組合12位同學英文成績平均數Xi,再求其平均,會等於母體的平均數m。而這個抽樣分配的標準差為

                                                                                                (4)

其中s為母體標準差,N為母體數(96位同學),n為抽樣數(12位同學)。如果母體數非常多,N趨近無限大,則抽樣分配的標準差趨近於

                                                                                                       (5)

例如隨機取表112位同學為抽樣樣本,計算出其英文成績平均數為52.84,我們希望據此推論出母體平均數m所在區間。全體同學英文成績的標準差s=12.95,由式(4),抽樣分配的標準差。因抽樣分配的平均數等於母體平均數m,可以找出一區間e=6.89,有95%的機率此組抽樣12位同學的英文成績平均數落在區間內,,即在95%信心水準之下,

根據中央極限定理,若母體為常j,jj,j,.k態分配,不論樣本數為何,樣本平均數的抽樣分配亦為常態分配;如母體不為常態分配時,若樣本數夠大(經驗值為大於30),則樣本平均數的抽樣分配亦趨近常態分配。前段例子中母體為常態分配,所以抽樣樣本數12似乎合理,但是由12位同學抽樣樣本,推論出全體同學英文平均成績在45.95分到59.73分之間,這個推論範圍顯然過大了一些。如果假設英文成績平均數52.84是由24位同學抽樣所得,依前述程序可計算出在95%的信心水準之下,;假設英文成績平均數52.84是由48位同學抽樣所得,依前述程序可計算出在95%的信心水準之下,,範圍更縮小。在試算表軟體Excel中,上述計算可以由“confidence()”產生。

估計是是利用樣本的統計量來推出母體真值,而檢定則是先假設母體母數在利用抽樣分配的特性來驗證假設的正確性。例如假設“全體學生英文成績平均數高於50,隨機取表112位同學為抽樣樣本,計算出其英文成績平均數為52.84,希望藉此檢定此假設的正確性。

在檢定此假設時,我們並沒有直接探討這個假設的正確性,而是“如果全體學生英文成績平均數或低於50時”,“抽樣樣本英文成績平均數為52.84之機率來間接推估。例如表1中全體同學英文成績的標準差s=12.95,由式(4),抽樣分配的標準差,因此可由常態分配公式計算出,“如果全體學生英文成績平均數低於50時”,“抽樣樣本英文成績平均數為52.84發生的機率小於0.210。以同樣的計算方式可以計算出,“如果全體學生英文成績平均數低於45時”,“抽樣樣本英文成績平均數為52.84發生的機率小於0.013。通常以此機率和0.05相比,如0.013是很低的機率,但“抽樣樣本英文成績平均數為52.84確實發生了,所以如果抽樣沒有問題的話,必然是“如果全體學生英文成績平均數低於45並不正確,我們可以接受“全體學生英文成績平均數高於50之假設。在試算表軟體Excel中,上述計算可以由“ztest()”產生。

6.     迴歸分析與時間序列

最後,我們想知道學科能力測驗英文成績和指定科目考試英文成績是否有相關性,是否學科能力測驗英文成績好的學生,指定科目考試英文成績也比較好?這時可以用迴歸分析來表現兩者之間的相關性。

4中將指定科目考試英文成績當作橫座標,學科能力測驗英文成績當作縱座標,將96位學生的成績描繪在圖上,這些點如果完全形成一條直線,便稱作兩者之間完全正相關。從圖中看出兩者之間有正相關,其相關程度可以用皮爾森相關係數來表示,完全正相關時皮爾森相關係數為1,完全不相關時皮爾森相關係數為0。如圖4中學科能力測驗英文成績和指定科目考試英文成績之皮爾森相關係數為0.69,顯示兩者有很強的正相關,而中學科能力測驗數學成績和指定科目考試數學成績之皮爾森相關係數為0.11,顯示兩者僅有微弱的正相關。在試算表軟體Excel中,上述計算可以由“pearson()”產生。

4. 學科能力測驗英文成績和指定科目考試英文成績之迴歸分析

在長期觀察一事件後,通常可以看出此一事件的長期趨勢,進而可以利用此觀察預測此一事件未來的走向。例如表5是元智大學機械工程學系自八十六學年度至九十二學年度錄取新生最低錄取分數,在全體考生中的百分比,我們希望藉此預測九十三學年度的百分比。

3. 歷年錄取新生在全體考生中的百分比時間序列資料

86

87

88

89

90

91

92

93

43.34%

39.75%

34.06%

30.03%

29.54%

31.64%

29.95%

?

時間序列分析如趨勢接近直線時,可以用前述迴歸方式,找出一最適直線來預測。但時間序列資料往往有許多不規則、不平滑,移動平均法是將最近k期資料加以平均,用來預測下一期資料,指數平滑法則是利用過去時間數列的加權平均值以平滑資料的方法,兩者在試算表軟體Excel中都有現成工具可以應用。例如應用在表3的時間序列資料,以移動平均法取3期資料平均,預測九十三學年度的百分比為30.38%,以指數平滑法取平滑指數0.2,預測九十三學年度的百分比為31.28%