科学の箱

科学・IT・登山の話題

機械学習

Excelによる単回帰分析

投稿日:

エクセルでの単回帰分析をについて手順をまとめる。エクセルの使い方にあわせて分析結果の解釈の仕方も書いておく。

データは勉強時間に対する点数とする。これは作ったデータであるが、線形回帰にフィットするようにしてある。

table

Excelの回帰分析を立ち上げる。予測変数と応答変数以外に設定するポイントとしてはresidualがある。回帰分析の結果だけをほしいのであればresidualは必要ない。単回帰分析であれば相関係数、係数、切片が得られれば報告書は作成できる。しかし得られた結果が信頼できるかを確認するためにはいくつかの検証をする必要がある。resisualのデータによりモデルが適切であるかを判断できる。

excel_analysis

回帰分析を実行すると以下のような結果が得られる。

analysis

  1. R Squareが高いことを確認する。R Squareは応答変数の変化に対する予測変数の割合を示す。ここではポイントの変化のうち82.68%が勉強時間によって説明されている。複数のモデルで比較する場合には、R Squareが最も高いモデルを利用する。このモデルは単位回帰であるので比較はできないが、82.68%を説明できるのは高いといえる。
  2. F検定で帰無仮説: すべての予測子=0であるかを検定する。ここではp=0.000265となっているのでいづれかの予測子は応答変数に効果があることがわかる。今回は予測子は勉強時間である。よって勉強時間の係数は0ではないことがわかる。
  3. X Variablのt検定の結果を見ると p=0.000265である。よって勉強時間はPointに対して有意な予測子であることがわかる。
  4. 係数は 6.5である。よって勉強時間を1時間増やすとポイントが6.5上がる。

次に残渣について確認する。

residual

モデルが適切であるならば、残差は規則性はなくランダムである。この時残差は平均値0であり、一定の標準偏差をもつ正規分布からに従う。残差のプロットを確認してみると規則性はない(線形、横V字、U字など)。またPPプロットはほぼ直線であるので正規分布に従っていると推定される。

結論

ポイントについて62.83%の変化は勉強時間で説明できることがわかった。勉強時間の係数hあ6.5であり、これは勉強時間を1時間増やすとポイントが6.5増えることを意味する。また残差はランダムであり正規分布に従っているために、ポイントに対する予測子は勉強時間のみで十分といえる。

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

会社を変える分析の力

ユーザに関する問題 不確実性 過剰期待 事前期待 分析モデルの利用 パターン 変数の数 分析の利用 予測 判別 グループ 検知 最適化 発見 探索 データ分析の必要性 なぜ誤差がでるのか Costは …

no image

dataanalysis-002-week1

Rstudioを開発に使う 開発が用意 Forumがある 標準 フリー Help R Mailling list Stackoverflow CrossValidated R-Help ?rnorm …

no image

前向き研究と後ろ向き研究

前向き研究と後ろ向き研究は疫学における用語である。 前向き研究で使われる研究手法にはコホートや無作為比較対照研究、ロジスティック分析がある。これらの研究ではサンプルをリスクファクター(危険要因)のある …

no image

pythonでEDAを実施する – 記述統計

データを取り込む data frameに変換する desdribe()メソッドで要約統計量を出力 各項目について残差分析(ここでは各データが平均値からどの程度離れているか、要するに分散の傾向を把握する …

no image

手書き数字のデータセットについてイメージを確認

sklearnには手書き数字のデータが用意されている。このデータはイメージの分類モデルを学ぶためによいスタートである。今回はこのバイナリデータを読み込み、イメージとして確認する。 内容 load_di …

2014年4月
« 3月   5月 »
 123456
78910111213
14151617181920
21222324252627
282930  

side bar top



アーカイブ

カテゴリー