各位同學大家好! 如果想要了解全國老師的年紀 那麼該如何統計老師的年紀呢? 雖然我們可以直接詢問每個老師 但是有沒有什麼更快 同時又夠準確的方式呢? 其實就跟民意調查一樣 可以對路上的路人隨機詢問 而這種方法稱為隨機抽樣 舉例來說 我們可以在各學校某處進行駐點 隨機巧遇的幾個老師做為樣本 再進行討論 但有些人則會認為這種方法抽到的樣本不夠廣泛 不足以表示整體 因此在統計學上還有一種方法叫做「隨機分組抽樣」 例如在調查中 因為全國的範圍很廣 於是我們可以先把全國的老師依照東西南區域隨機進行分組 隨後在每一組中都找兩個老師詢問他們的年齡 最後 我們將兩個老師的年齡平均值作為該組的歲數 再進行整體性的討論 但是不同的抽樣方式 是否會影響到數據分析呢? 讓我們利用抽撲克牌的實驗來分析看看吧 首先 請同學先準備一副撲克牌 並留下撲克牌的一到十的數字部分 再準備紙筆進行紀錄 同學也可以找朋友一起參與完成任務喔 接下來 我們先在紙上畫出30格 然後我們進行一次1抽的隨機抽牌 譬如抽到6 就將6填入表格中 再把牌放回牌堆中洗牌 並且重複這些步驟 最後在表格中紀錄30次抽牌結果 再來 我們進行一次抽出三張牌的3抽實驗 譬如抽到5、7、4 此時我們先求出三個數字的平均值 然後紀錄五又三分之一 接著把撲克牌放回牌堆洗牌 再重複以上的步驟並得到30筆數據 最後 我們進行一次九抽的實驗 抽出九張撲克牌計算平均值 並將平均值紀錄在紙上 再將牌放回後洗牌 並重複這些步驟來得到30筆數據 同學們完成這三組數據後 我們將結果稍作整理 首先參考畫面中的方式畫出表格 然後我們統計各抽平均數的數量 例如1抽大於0並小於等於1之間的數據有兩個 就在欄位中寫上2 而後3抽與9抽的數據也是以此類推 並完成所有統計 等下就能看到特別的現象喔 當我們把數值區間的數量整理成表格後 就可以製成長條圖讓結果看得更清楚了 例如在一抽時 大於0並小於等於1的數量為2 就在這個範圍往上兩格塗滿顏色 並且以此類推 便能獲得1抽、3抽平均值及9抽平均值數值區間數量的長條圖 同時我們也標上每組數據的總平均值做為參考 現在同學們完成三張長條圖後 有沒有發現什麼規則呢? 讓我們來一起比對一下成果吧 相信同學都很投入的完成任務 應該可以看到跟畫面類似的圖型 首先 我們先來觀察一抽的長條圖 應該可以發現這並不如預期 預期上每張撲克牌被抽到的機率都一樣 所以出現的結果應該是一條水平線才對 而這是因為數據量太少 只要數量夠多就能更接近理想狀況 接下來會請問同學們幾個問題 也請同學在螢幕前跟著回答喔 讓我們想想看這三張圖分布的集中程度 你會怎麼排序呢? 很棒喔 9抽最集中 1抽則是最分散 同學們也請比較一下這三張圖 有沒有發現甚麼規則呢? 把它們寫下來 等等我們來比對一下結果 結果我們應該不難發現 隨著抽數越多 圖型越來越瘦長 也比較對稱 而且3抽和9抽的平均值非常近理論真值5.5呢 或許有些比較敏銳的同學注意到 3抽和9抽的圖型有點類似常態分佈 沒錯 其實他們就是常態分佈 而我們該用什麼來表示集中程度呢? 大家可以回想一下我們在「常態分佈」單元中學到的內容 答對了 就是標準差 在這裡 3抽和9抽的分布是平均值的標準差 因此又稱為平均標準誤差 三組數據個別的總平均值有沒有剛好等於5.5呢? 應該都沒有吧 其實這跟做實驗得到的數據是一樣的 我們沒有辦法做那麼多次實驗 更不可能做出理論真值 但我們可以發現9抽的數據最集中且接近真值 所以多抽幾次取平均值 再利用平均值的標準差表達數據的集中程度 就可以讓實驗結果更靠近真值 那9抽跟3抽的平均標準誤差有何差異呢? 我們可以注意到 當抽樣次數越多次 所得到的平均標準誤差會更小 代表估算真值的能力會更好 讓獲得的數據精密度越高 講到這裡 讓我們先來做個小整理吧 首先 數據平均值的標準差 我們稱為平均標準誤差 同時 我們可以利用平均值正負平均標準誤差 來表示真值所在的一個範圍 所以在實驗數據的結果中 我們可以標記測量平均值作為準度 穩定度則用平均標準誤差來表示 而平均標準誤差在科學上又稱為A類不確定度 讓我們試著應用一下今天所學到的內容吧 如果想要聘請駭客調查敵國軍隊9000人的平均薪水 你會怎麼做呢? 以下有幾個方案給大家選擇 第一種是調查9000人的薪資 第二種是每一次找3人取平均 但做3000次 第三種則是每一次以9人取平均 但做1000次 請問哪種方式CP值最高呢? 因為駭客的收入與調查數量有關 越多次收費就越高 所以最有效率的方式是:以上皆非 因為聰明的駭客 當然希望越經濟實惠越好 所以比較聰明的方式是只查9個人做一次 但想像自己做了1000次 同學會有些困惑 這跟想像有什麼關係呢? 我們來想一下 只查9個人後可以得到9人的薪資平均值 也就是在圖上座標軸的某一點 而敵國軍隊真正9000人的薪水平均值真值 會不會跟這9個人的平均值差很多呢? 從前面抽牌的結果可以發現 越多抽的平均值就會越來越靠近真值 而在C選項中 每次9抽取平均並重複一千次 在圖上會出現什麼圖型呢? 對~就是常態分佈的圖型 並且今天9000人的薪資平均值 一定會在9人平均值模擬一千次的常態分佈內 但只調查一次不會有常態分佈圖 所以駭客才要想像一千次 才能模擬出這個常態分佈圖型 同時其他數據點也會包含在這個範圍 這時如果我們想要估算真值可以怎麼做呢? 首先求出平均值 再計算標準差 我們就會有百分之九十五的信心 相信真值在平均值正負兩倍標準差之間了喔 讓我們來統整一下今天學到的重點 實驗值等於平均值正負不確定度A 不確定度A等於平均標準誤差 也就是平均數值的標準差 做越多次實驗來計算平均時 不確定度A會越小 估計真值的範圍也會變小 實驗值就相對越精密 在一個藥物研究的結果中 第一次實驗發現使用藥物B後心跳頻率最高 但第二次實驗發現使用藥物C後心跳頻率最高 而使用藥物B時心跳頻率反而最低 如果多次實驗後所獲得的平均值就是藍色的長條圖 請問我們該如何表示數據呢? 同學們也可以找尋科學文獻資料可能會有意外收穫喔 我們下次見囉!Bye Bye