科学の箱

科学・IT・登山の話題

R

rvestで読み込むcssを調べる方法

投稿日:2018年3月25日 更新日:

rvestで対象とするhtmlのブロックは下記のように取得できる。

http://blog.rstudio.com/2014/11/24/rvest-easy-web-scraping-with-r/


<span class="hljs-keyword">library</span>(rvest)

lego_movie <- html(<span class="hljs-string">"http://www.imdb.com/title/tt1490017/"</span>)

lego_movie %>% html_node(<span class="hljs-string">"strong span"</span>) %>% html_text()

この時に問題になるのがどうやってnode “strong span”を見つけるかである。

見つける方法としては2つある。一つ目はgoogle developer toolsを利用する。

  1. 開いたページで目的とする個所を選ぶ→ここで右クリック→inspectを選ぶ。
  2. これで該当箇所のhtmlスクリプトが開く。
  3. 次に対象項目を囲んでいるタグを2つ取得。
  4. html_node()を実行してみる。もし予想した値が返っていない場合にはタグが2つでは絞り込みができていない。その場合にはタグを順番に増やしてあげる。

 

 

 

 

2つ目の方法としてはSelectorGadgetを利用する。これは項目のすぐ上の階層についてはcssセレクタが取得できる。selectorGadgetについては下記で詳細に説明している。

http://selectorgadget.com/

またセレクタはタグ、class、idにより表記方法が変わる

  • class : .クラス名
  • id : #ID名
  • タグ : タグ名

表記方法についてはこちらから参照できる。

Webscraping with rvest: So Easy Even An MBA Can Do It!

メタ情報

inarticle



メタ情報

inarticle



-R
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

oneway.test, aov, anovaの違い-2

さてoneway.test, aov, anovaの違いをもとにしてそれぞれの関数について調べてみる。 機能 advantage disadvantage oneway.test 分散分析 等分散を仮 …

no image

Rオブジェクト指向のメモ

whichではwhich.minとwhich.maxが用意されているという指摘を受けたので調べ見てた。 which.minとwhich.maxはRでいうところのオブジェクト指向を利用した構造にみえる。 …

no image

主成分分析

Rで提供されているirisを使って主成分分析を実施する。 主成分分析の手順 データが分離できるか検証する 主成分負荷量と寄与率を求める 新しい変数に名前を付ける 変量プロット 主成分プロット 今回はR …

no image

一対比較法によるリーグ戦の分析

一対比較法を利用すると2者の比較から全体の重要度や実力を数字で表現できる。 一対比較法を使った分析の手順は以下のようにすすめる。 データを取得する。 一対比較法のデータは複数の項目から2者を選び比較し …

no image

検定力分析(パワーアナリシス)

研究に必要な精度に対するサンプル数を求めるための分析方法 下記が詳しい http://miuse.mie-u.ac.jp/bitstream/10076/11867/1/10C15625.pdf ht …

2018年3月
« 2月   4月 »
 1234
567891011
12131415161718
19202122232425
262728293031  

side bar top



アーカイブ

カテゴリー