科学の箱

科学・IT・登山の話題

機械学習

Excelによる単回帰分析

投稿日:

エクセルでの単回帰分析をについて手順をまとめる。エクセルの使い方にあわせて分析結果の解釈の仕方も書いておく。

データは勉強時間に対する点数とする。これは作ったデータであるが、線形回帰にフィットするようにしてある。

table

Excelの回帰分析を立ち上げる。予測変数と応答変数以外に設定するポイントとしてはresidualがある。回帰分析の結果だけをほしいのであればresidualは必要ない。単回帰分析であれば相関係数、係数、切片が得られれば報告書は作成できる。しかし得られた結果が信頼できるかを確認するためにはいくつかの検証をする必要がある。resisualのデータによりモデルが適切であるかを判断できる。

excel_analysis

回帰分析を実行すると以下のような結果が得られる。

analysis

  1. R Squareが高いことを確認する。R Squareは応答変数の変化に対する予測変数の割合を示す。ここではポイントの変化のうち82.68%が勉強時間によって説明されている。複数のモデルで比較する場合には、R Squareが最も高いモデルを利用する。このモデルは単位回帰であるので比較はできないが、82.68%を説明できるのは高いといえる。
  2. F検定で帰無仮説: すべての予測子=0であるかを検定する。ここではp=0.000265となっているのでいづれかの予測子は応答変数に効果があることがわかる。今回は予測子は勉強時間である。よって勉強時間の係数は0ではないことがわかる。
  3. X Variablのt検定の結果を見ると p=0.000265である。よって勉強時間はPointに対して有意な予測子であることがわかる。
  4. 係数は 6.5である。よって勉強時間を1時間増やすとポイントが6.5上がる。

次に残渣について確認する。

residual

モデルが適切であるならば、残差は規則性はなくランダムである。この時残差は平均値0であり、一定の標準偏差をもつ正規分布からに従う。残差のプロットを確認してみると規則性はない(線形、横V字、U字など)。またPPプロットはほぼ直線であるので正規分布に従っていると推定される。

結論

ポイントについて62.83%の変化は勉強時間で説明できることがわかった。勉強時間の係数hあ6.5であり、これは勉強時間を1時間増やすとポイントが6.5増えることを意味する。また残差はランダムであり正規分布に従っているために、ポイントに対する予測子は勉強時間のみで十分といえる。

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

モンベルダウンジャケットについて売れ筋商品を分析してみる。

幾何平均が値付けに利用されているという話を聞いたので実際の商品を例にして分析してみる。 調査の目的 適切なダウンジャケットを選ぶことで冬季にあるいは夏季の3000m級の高山で気持ちよく過ご巣ことができ …

no image

Core Concept in Data Analysis – Week 2

1D analysis summary ヒストグラム ヒストグラムのタイプ:gaussian/power law 中心極限定理 確率分布 ブートストラップによる検証 gaussian 測定誤差もしくは …

no image

AWStatで基本指標を読む

ウェッブサイトの分析でまず見るべきことは月ごとのトレンドである。確認すべき指標はPV, 訪問数、UUdとなる。 AWStatではこれらの項目はWhen -> Month Historyで棒グラフ …

no image

Pythonではじめる機械学習 – k-Means

k-Meansの概要 k-Meansは教師なし学習の一つであり、あらかじめ指定された数にグループを分ける。 例えば今身長である程度まとまって席に座っている生徒を考えます。k-Meansでは最初に分ける …

no image

ウェブ分析をハンズオンで学ぶ

ウェブ分析の本を読んでもあまりあたまに入ってこない。実際に手を動かさないと、身につかないわけである。 ということでハンズオンで実践して見ることにした。ハンズオンで実践するに当たり必要なのはデータとツー …

2014年4月
« 3月   5月 »
 123456
78910111213
14151617181920
21222324252627
282930  

side bar top



アーカイブ

カテゴリー