我們從散布圖中可以約略觀察出 兩個變量之間是否存在直線關係 但如果只透過散布圖 有時很難判斷兩變量之間 存在直線關係的相關程度高低 例如畫面中的四個散布圖 都可以看出有左下到右上的趨勢 其中1的直線相關程度最低 4的直線相關程度最高 但2與3卻很難分辨出來 那麼我們還有什麼方法 可以衡量2和3之間的 兩變量的直線相關程度呢 這個單元我們將介紹相關係數的觀念 並且可以用它來衡量 兩變量的直線相關程度 從上述的例子可以得知 我們需要一個較客觀的量化數據 來衡量2和3中兩變量的相關程度 但是該如何做呢 為了排除兩筆資料的單位不同 所造成相對數值的差異性 這時候我們通常會先將數據標準化 首先我們先複習一下 在前一個單元我們已經知道 經標準化的數據有兩個特性 1標準化數據的變量都沒有單位 2標準化數據兩變量的平均數皆為0 標準差皆為1 因此將數據標準化之後 在散布圖上兩變量的平均值會是原點 設每一筆的資料標準化數據為 其中X 等於σ 分之x 減μ Y 等於σ 分之y 減μ 當點在第一 三象限時 兩者相乘X Y 大於0 當點在第二 四象限時 又X Y 小於0 接著觀察X Y +X Y 一直加到X Y 的值 如果其值是正的 通常表示落在第一 三象限的點會比較較多 因此圖形會呈現左下右上的趨勢 這個時候是正相關 且其值愈大表示趨勢愈強 同理如果其值是負的 通常表示落在第二 四象限的點較多 圖形會呈現左上右下的趨勢 這個時候是負相關 且其值愈小表示呈現左上右下的趨勢愈強 因此我們可以用 X Y +X Y 一直加到X Y 來衡量相關程度 此外為了消除資料個數的影響 在統計上會再除以資料的個數 得到n分之X Y +X Y 一直加到X Y 這個即為變量X與變量Y相關係數的定義 通常記為r 從上述的定義可以得知 相關係數r等於n分之X Y +X Y 一直加到X Y 其中X 等於σ 分之x 減μ Y 等於σ 分之y 減μ 這個就是相關係數的公式 現在我們以一道試題為例 已知兩變量x與y的5筆數據如下 試求此兩筆數據的相關係數 首先我們先將這5筆數據繪製成散布圖 我們會發現在原始數據的散布圖 x與y的分布似乎接近一條斜率為正的直線 接下來我們將每一筆數據標準化 以減少不同測量單位的數據 對圖形的影響 根據上述的公式 我們先計算求得x y的平均數與標準差分別為 μ =6 σ =4 μ =33 σ =18 當數據標準化之後 我們較能清楚看出其分布情形 最後根據相關係數的定義 即可計算 r等於5分之 8分之15加12分之5 減8分之1加6分之1 加24分之49 等於0.875 最後整理一下今天學到關於相關係數的知識 散布圖中可以約略觀察出 兩個變量之間的關係 但如果只透過散布圖 有時很難判斷兩變量相關程度的高低 英國著名統計學家卡爾.皮爾森 根據散布圖趨勢的現象 發展出一個用數值來度量相關性的公式 他把所有的X Y 相加 一般而言如果落在第一 三象限的點愈多 相加後的和就會是愈大的正數 反之落在第二 四象限的點愈多 和就會是愈小的負數 再把和取平均來消除數據個數的影響 這個數值就稱為皮爾森相關係數 亦稱為相關係數 同學們都理解了嗎