科学の箱

科学・IT・登山の話題

Python

RoboBrowserでUser Agentが原因ではねられているとき

投稿日:2018年10月29日 更新日:

RoboBrowserを利用していると通常のブラウザでリクエストした時とは異なりエラーがページが返ってくることが多い。

原因はいくつかあるがまず試したいのはUser-Agentの設定。

RoboBrowserを作成するときに以下のように指定する。

Browser = RoboBrowser(parser=’html.parser’,user_agent=’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36′)

ではuser_agentに指定する文字列はどこから取得するか。

こちらはChromeの開発ツールを開き、ページをリクエストする。ここから[Header]->[User Agent]とたどればよい。

メタ情報

inarticle



メタ情報

inarticle



-Python

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

UnionFindのfindについて処理を考える。

UnionFindにおけるfind()もしくはroot()はルート(グループの根)を見つける処理である。 記述方法としては2種類ある。 whileループを回す 再帰処理 それぞれについて動きを確認して …

no image

automated the boring – day6

https://automatetheboringstuff.com/chapter11/ さてこの辺からようやく面白くなってくる。webscrapingをするにあたり、まずはブラウザをpythonか …

no image

selectorとxpathを手軽に取得する方法

スクレイピングをするプログラムを開発するときに対象となる項目を取得するためにselector/xpathで指定する。 Google Chromeではselector/xpath値を簡単に取得できる。 …

no image

kaggle Titanic Tutorial – 1

KaggleでTitanic tutorialにチャレンジしてみる。 Titanic: Machine Learning from Disaster https://www.kaggle.com/c/ …

no image

配列のインデックス

インデックスとは配列に対して[]で要素を抜き出す方法である。 マニュアルは以下になる。 Indexing Indexing Routines インデックスの方法としては以下がある。 整数値を使ったイン …

2018年10月
« 9月   11月 »
1234567
891011121314
15161718192021
22232425262728
293031  

side bar top



アーカイブ

カテゴリー