rvestで読み込むcssを調べる方法

投稿日：2018年3月25日更新日：2018年3月26日

rvestで対象とするhtmlのブロックは下記のように取得できる。

http://blog.rstudio.com/2014/11/24/rvest-easy-web-scraping-with-r/


<span class="hljs-keyword">library</span>(rvest)

lego_movie <- html(<span class="hljs-string">"http://www.imdb.com/title/tt1490017/"</span>)

lego_movie %>% html_node(<span class="hljs-string">"strong span"</span>) %>% html_text()

この時に問題になるのがどうやってnode “strong span”を見つけるかである。

見つける方法としては２つある。一つ目はgoogle developer toolsを利用する。

開いたページで目的とする個所を選ぶ→ここで右クリック→inspectを選ぶ。
これで該当箇所のhtmlスクリプトが開く。
次に対象項目を囲んでいるタグを2つ取得。
html_node()を実行してみる。もし予想した値が返っていない場合にはタグが2つでは絞り込みができていない。その場合にはタグを順番に増やしてあげる。

2つ目の方法としてはSelectorGadgetを利用する。これは項目のすぐ上の階層についてはcssセレクタが取得できる。selectorGadgetについては下記で詳細に説明している。

http://selectorgadget.com/

またセレクタはタグ、class、idにより表記方法が変わる

class : .クラス名
id : #ID名
タグ : タグ名

表記方法についてはこちらから参照できる。

Webscraping with rvest: So Easy Even An MBA Can Do It!

dataanalysis-002-week4

Rによるやさしい統計学/3-2つの変数の記述統計

Rでのランダムデータ作成 - 上級編

執筆者：admin

月	火	水	木	金	土	日
« 2月				4月 »
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

rvestで読み込むcssを調べる方法

Related posts: