foreach my log (@blog)

IT 小ネタ

Scrapy というクローラ。







httpd-access.log から、またまた見慣れないボットを見つけました。


Scrapy/0.24.5 (+http://scrapy.org)



Google で検索してみると、Googlebot とか bing とかこないだ見つけた AhrefsBot とかとも一味違う感じです。



スパイダー



URL を踏むと英語のサイトに飛びます。

上手に読み取れませんが、"必要なところだけ抽出できるオープンソースのフレームワーク" ってところでしょうか。

イメージ的には、Googlebot や bingbot がサーチエンジンのインデックスを作成することが目的であるのに対して、Scrapy はユーザ自身がクロールすることを目的としている感じかな。

"Python の Web スクレイピングできるモジュール" であるってことは、Perl モジュールでいうところの LWP::UserAgent と HTML::TreeBuilder を合わせたものという印象です。




同じカテゴリー(IT 小ネタ)の記事
上の画像に書かれている文字を入力して下さい
 
<ご注意>
書き込まれた内容は公開され、ブログの持ち主だけが削除できます。
TI-DA
てぃーだブログ
プロフィール
chinji
chinji

PAGE TOP ▲