NN8Sx Sy1Nr (x,y) =第1部データの相関と線形回帰図1.7:元データはhttps://www.kaggle.com/mustafaali96/weight-heighti=1i=1変数をx, yとするとき、その共分散 Cov(x,y) を次式で定義します。共分散をそれぞれの標準偏差をかけ合わせたもので割って規格化したものを相関係数と言い、次式で定義します。ここで Sx , Sy は、それぞれ x, y の標準偏差をあらわします。相関係数は -1 と 1 の間の値を取り、 r > 0 のときは正の相関、 r < 0 のときは負の相関があることをあらわします。が高いと体重も重いという傾向があります。この関係をのように、変数 x の1次式で表現するのが線形回帰モデルです。ここで、 ß0, ß1は定数です。この式は (x,y) 面上の直線をあらわしています。具体的には次式であらわされる関数 S( ß0, ß1)が最小になるように ß0, ß1の値を決定します。この問題を解くには大学1年生の微積分の知識が必要になります。身長と体重の関係のように、ふたつの変数の間にある関係を定量化する方法について説明します。また、この関係を直線近似する線形回帰モデルを紹介します。データを最も良く近似する直線を求める最小二乗法は実験データ解析などに用いられます。Cov (x,y) = ∑( xi-x ) ( yi-y ) Cov(x,y) y = ß0+ ß1xS ( ß0 , ß1 ) = ∑ (yi-ß0-ß1xi)2共分散と相関係数2種類のデータがどのように関係しているかを定量的に示す指標が共分散(Covariance)です。比較するふたつの線形回帰モデル図1.7に示したように、身長 x と体重 y の間には、身長最小二乗法線形回帰モデルの定数 ß0, ß1の値を各人の身長、体重の値(xi, yi)と直線近似から得られる値 y = ß0 + ß1 xi の差の2乗の総和が最小になるように決めるのが最小二乗法です。
元のページ ../index.html#8