在前面的單元中 我們已經知道了 可以透過散布圖上所有點的分布趨勢 來觀察x與y是否呈現直線關聯性 當從散布圖顯示兩變數x與y之間 有很強的直線相關時 就可以在散布圖中畫一條直線 然後幫助我們可以利用x來預測y 這個時候我們就稱這條直線 為y對x的迴歸直線或最適直線 但是怎麼做可以達到最適合呢 最適合有很多不同的評斷規準 例如 各個點到此直線的距離總和最小 殘差的絕對值總和最小 或殘差的平方和最小等 而規準的不同 做出的最適直線也會不一樣 在這個單元中 我們使用殘差的平方和最小作為規準 來求最適直線 又稱這個方法為最小平方法 首先我們先假設這條迴歸直線的方程式 為L y=mx+k 而且我們希望這條直線能用於 以x的值預測y的值 要達到這個目的 其中一種方式就是殘差平方和最小 什麼是殘差平方和呢 殘差平方和就是y數據與L上的y值距離的平方和 因此最小平方法的作法是 找出直線L 使得圖中所有的鉛垂線段長度的平方和最小 現在讓我們舉一個例子來說明 假設有三筆數據 並且假設y對x的迴歸直線為L y=mx+k 我們的目標是想要求係數m及k 使得此三筆數據 到L的鉛垂線段長度的平方和Q有最小值 因為平方和Q等於 所以當m等於2分之5 k等於0時 Q有最小值2分之3 將m與k代入迴歸直線L y=mx+k 故y對x的迴歸直線為 y等於2分之5x 大家可以發現 在上面的例子中 兩變量x與y的平均數分別為 μ =0 μ =0 而且其迴歸直線方程式L y等於2分之5x 是一條通過點等於的直線 最後讓我們整理一下今天學到 關於迴歸直線的知識 雖然我們可以利用最小平方法 找出y對x的迴歸直線 但是當數據很多的時候 用這樣的方法求最適直線方程式 它的計算量就會相當的大 因此為了簡化計算 下一個單元中 我們將從標準化數據出發 推導標準化後的數據X與Y的迴歸直線 關於這個單元的課程 同學都學會了嗎