科学の箱

科学・IT・登山の話題

機械学習

Excelによる単回帰分析

投稿日:

エクセルでの単回帰分析をについて手順をまとめる。エクセルの使い方にあわせて分析結果の解釈の仕方も書いておく。

データは勉強時間に対する点数とする。これは作ったデータであるが、線形回帰にフィットするようにしてある。

table

Excelの回帰分析を立ち上げる。予測変数と応答変数以外に設定するポイントとしてはresidualがある。回帰分析の結果だけをほしいのであればresidualは必要ない。単回帰分析であれば相関係数、係数、切片が得られれば報告書は作成できる。しかし得られた結果が信頼できるかを確認するためにはいくつかの検証をする必要がある。resisualのデータによりモデルが適切であるかを判断できる。

excel_analysis

回帰分析を実行すると以下のような結果が得られる。

analysis

  1. R Squareが高いことを確認する。R Squareは応答変数の変化に対する予測変数の割合を示す。ここではポイントの変化のうち82.68%が勉強時間によって説明されている。複数のモデルで比較する場合には、R Squareが最も高いモデルを利用する。このモデルは単位回帰であるので比較はできないが、82.68%を説明できるのは高いといえる。
  2. F検定で帰無仮説: すべての予測子=0であるかを検定する。ここではp=0.000265となっているのでいづれかの予測子は応答変数に効果があることがわかる。今回は予測子は勉強時間である。よって勉強時間の係数は0ではないことがわかる。
  3. X Variablのt検定の結果を見ると p=0.000265である。よって勉強時間はPointに対して有意な予測子であることがわかる。
  4. 係数は 6.5である。よって勉強時間を1時間増やすとポイントが6.5上がる。

次に残渣について確認する。

residual

モデルが適切であるならば、残差は規則性はなくランダムである。この時残差は平均値0であり、一定の標準偏差をもつ正規分布からに従う。残差のプロットを確認してみると規則性はない(線形、横V字、U字など)。またPPプロットはほぼ直線であるので正規分布に従っていると推定される。

結論

ポイントについて62.83%の変化は勉強時間で説明できることがわかった。勉強時間の係数hあ6.5であり、これは勉強時間を1時間増やすとポイントが6.5増えることを意味する。また残差はランダムであり正規分布に従っているために、ポイントに対する予測子は勉強時間のみで十分といえる。

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

conjoint分析の資料

マニュアル conjointパッケージ caFactorialDesign Rでconjointパッケージを利用した例 Rでコンジョイント分析 Rでコンジョイント分析 |極めて個人的なメモ コンジョイ …

no image

線形回帰とリッジ回帰を比較する

リッジ回帰はL2ノルムの正則項を導入することで、過学習を防ぐ。この場合過学習を防ぐとは、重みを0の方向に動かすという意味である。実際に線形回帰とリッジ回帰を比べてみて、どのようにモデルが変わるかを確認 …

no image

Statistical Reasoning for Public Health

Module up to 3 SES – 社会経済的地位 Cognitive function – 認知機能 The authors used the graphic alon …

no image

クラスタリング

Rによるクラスタ分析の実行 県別の持家率と自家用車普及率からクラスタ分析を実行し似た県を探してみる。。 データソース 持家と自家用車普及率のデータは下記から取得する 持家普及率のデータはこちらから取得 …

no image

Pythonではじめる機械学習 – 多様体学習

多様体学習 次元削減に利用できる手法として主成分分析がある。これは柔軟であり、すぐに実装可能な次元削減アルゴリズムの一つである。しかし一つだけ問題がある。それは主成分分析に適用できるデータは線形のみで …

2014年4月
« 3月   5月 »
 123456
78910111213
14151617181920
21222324252627
282930  

side bar top



アーカイブ

カテゴリー