科学・IＴ・登山の話題

線形回帰とリッジ回帰を比較する

投稿日：2019年10月14日

リッジ回帰はL2ノルムの正則項を導入することで、過学習を防ぐ。この場合過学習を防ぐとは、重みを0の方向に動かすという意味である。実際に線形回帰とリッジ回帰を比べてみて、どのようにモデルが変わるかを確認する。

線形回帰

アイスクリームの売り上げを考えて、1～37度に対してランダムの売り上げデータを生成する。

import matplotlib.pyplot as plt
import seaborn as sns;
import numpy as np
%matplotlib inline
import random

rng = np.random.RandomState(1)

x = 37 * rng.rand(50) + 1 # 1度から3度
y = 500 * x - 5000 * rng.randn(50) # 売り上げデータはおよそ気温の500倍想定、ただしノイズを組みこむ

次に線形回帰を行う。

# 線形回帰
from sklearn.linear_model import LinearRegression
model_lr = LinearRegression(fit_intercept=True)

model_lr.fit(x[:, np.newaxis], y)

xfit = np.linspace(0, 50, 1000)
yfit_lr = model.predict(xfit[:, np.newaxis])

plt.scatter(x, y)
plt.plot(xfit, yfit_lr,color="red", label="LinearRegression");

リッジ回帰

リッジ回帰はRidgeを用いる。

sklearn.linear_model.Ridge — scikit-learn 0.21.3 documentation

Ridge(alpha=1.0, fit_intercept=True, normalize=False, copy_X=True, max_iter=None, tol=0.001, solver=’auto’, random_state=None)

もっとも重要なのがalphaである。alphaは正則項の強さを指定する。

# リッジ回帰
from sklearn.linear_model import Ridge
model_r = Ridge(alpha=1000)
model_r.fit(x[:, np.newaxis], y)

yfit_r = model_r.predict(xfit[:, np.newaxis])

plt.scatter(x, y)
plt.plot(xfit, yfit_lr,color="red", label="LinearRegression");
plt.plot(xfit, yfit_r, color="yellow", label="Ridge alpha=1000")
plt.legend()

リッジ回帰のモデルは重みづけが小さくなっていることがわかる。

Related posts:

データ分析の基本と業務

データサイエンス超入門

logistic regressionでの失敗

執筆者：admin

comment コメントをキャンセル

関連記事

: irisでPCAを実行し可視化

irisデータをPCAで2次元に分類して可視化してみる。内容準備及びデータの前処理 PCA プロット準備及びデータの前処理 irisデータを読み込み、PCAを実行するための前処理を …

: スピアマンの順位相関

スピアマンの順位相関を利用して県のデータを使った相関係数を出してみる。持家普及率を自動車普及率のランキングは、土地がせまいほど低く、有効な土地が広いほど高くなるために順位相関があると考えられる。持 …

: ラテン方格

ラテン方格は1～nまでの数字についてn x nの正方行列に一回だけ現れるように並べたものである。ラテン方格を利用して実験の割り付けを行う実験計画法がラテン方格法である。ラテン方格法と似た実験計画法に …

: R Dataset – AirPassengers

データの説明 1949～1960年における月別飛行機搭乗者数フォーマットこのデータは時系列データであることがわかる。 > str(AirPassengers) Time-Series [1 …

: 仕事で始める機械学習 – 1. 機械学習プロジェクトの始め方

機械学習プロジェクトの流れ問題の定式化機械学習を利用しない方法システム設計アルゴリズム選定特徴量・教師データ・ログの設計前処理学習・パラメータチューニングシステム統合問題の定式化目 …

PREV: 線形回帰とリッジ回帰とラッソ回帰の違い
NEXT: pyplotでx軸のラベルを90度回転させる

GIMPでForeground color pickerが正しくない色をピックアップするときの対応方法 2021年9月7日
lerpとslerpの違い 2021年8月5日
シェーダーとは 2021年8月3日
Unityの座標系についてメモ 2021年7月1日
ALLとREMOVEFILTERSの違い 2021年6月28日