前面的課程我們已經知道 對一組數據資料 可以用單一的數值來代表整體數據的中心點 或數據的集中情形 例如算術平均數 中位數等 但是這樣的數值卻無法得知數據的分散情形 舉個例子來說 有兩組人的年齡如下 甲組 14 15 16 16 16 16 17 18 其平均年齡為16歲 乙組 3 4 4 5 5 5 50 52 其平均年齡也為16歲 如果從平均值來看 這兩組人的平均年齡皆為16歲 或許我們就容易陷入 這是一群青少年的團體的迷思 會造成這樣的迷思 就是因為沒有考慮數據間的分散情形 因此為了衡量一群數據差異性的情形 這個單元我們將介紹在統計上常用的 變異數與標準差等指標 一般而言表示數據間的分散情形 最常用的是標準差 但是什麼是標準差呢 一般來說 當有比較多的數據距離平均數較遠時 整組數據就會比較分散 所以我們以每筆數據平均距離平均數 有多遠這樣的想法來看分散的情形 我們假設當一組數據 x x 一直到x 的平均數為μ時 稱x 減μ為x 的離均差 其中i等於1 2一直到n 因為一組數據x x 一直到x 會有些比平均數μ大 有些會比平均數μ小 因此離均差可能是正 負或0 因為括號x 減μ加括號x 減μ 加點點點 一直加到括號x 減μ 等於括號x 加x 加點點點 加到x 減n倍的μ 等於nμ減nμ 等於0 所以離均差的總和為0 以所有離均差的絕對值來計算平均 顯然符合上面所提的平均距離的想法 但是絕對值的代數運算比較不容易處理 此外要凸顯遠離平均數的數據對分散的影響 因此我們以離均差的平方 取代離均差的絕對值 並計算所有離均差平方的平均值 計算出來的這個平均值稱為變異數 再取其正平方根 就稱為標準差 我們以σ代表標準差 以σ平方代表變異數 也就是σ等於 我們可以把上述的概念整理如下 變異數與標準差 設n個數據 x x 一直到x 的平均數為μ 變異數σ平方為所有離均差平方的平均 標準差σ為變異數的正平方根 現在我們回到課程剛開始的例子為 甲組 乙組 試求此二組人的年齡變異數與標準差 四捨五入取到小數點後第三位 根據上述的公式可以計算變異數為 甲組 等於1.25 將變異數開根號後即可得到標準差為 σ等於根號1.25 近似值為1.118歲 乙組 等於409 將變異數開根號後即可得到標準差為 σ等於根號409 近似值為20.224歲 從上述的例子可以得知 雖然甲組和乙組的平均數均為16歲 但是我們可以從兩組的標準差得知 乙組的資料距離平均數16歲較遠 我們在處理標準差的時候 由於上述的公式是把每個數據 減去平均數μ後再求結果的平方和 但平均數通常都不是整數 因此為了計算上的方便 會將標準差公式改寫如下 所以標準差公式又可以寫成 這個公式的好處就可以直接利用數據的平方和 來求得變異數與標準差 而不需要先把每個數據 減去平均數後再求結果的平方和 現在我們以下面的例子為例 並且利用上面的公式求出標準差 試求數據2 5 6 9的標準差 答案為這四個數據的算術平均數為 μ等於4分之2加5加6加9 等於2分之11 又四數的平方和為 2平方加5平方加6平方加9平方 等於146 故標準差σ為 σ等於根號4分之146減括號2分之11的平方 等於2分之5 最後整理一下今天學到的知識 此外為了計算上的方便 會將標準差公式改寫為 在這個單元中 我們已經知道雖然可以用一組數據資料的單一數值 例如平均數 中位數等 來代表整體數據的中心點 或數據的集中情形 卻無法得知數據的分散情形 因此為了衡量一群數據差異性的情形 引入了統計上常用的變異數與標準差等指標 標準差越大我們就說數據越分散 透過標準差的計算 我們就可以知道數據的分散情形了 同學們都學會了嗎