]> Some Gripes on User-Agent, Again

▼帰ってきたUser-Agentについてのたわごと▼

[unknown above.net robot] adidxbot admantx-* adscanner (seocompany.store) Adsbot Adsbot (seostar.co) adscanner (seoscanners.net) AguseScan AlexaMediaPlayer [unknown alibaba.com .cn scanner] [Alkonavt checker] AlphaBot Amazonbot Applebot [Apple Messages preview] archive.org_bot [archive.ph archiver] [archive.today scraper] AspiegelBot [aws fake Chrome scanner] axios BaiduSpider [fake] Barkrowler best-proxies.ru bingbot BLEXBot [BlueCoat refresh] Bluecoat の /notify bnf.fr_bot Bravebot [unknown br,gzip robot] Bytespider CCBot CensysInspect [unknown centurylink.com crawler] Chatwork LinkPreview v1 CheckMarkNetwork Chrome-Compression-Proxy Cincraw clark-crawler2 ClaudeBot CloudFlare-AlwaysOnline Cloud mapping experiment. Contact research@pdrlabs.net Confluence [cyberresilience.io scanner] DataForSeoBot datagnionbot Datanyze [Datasift.com/bot] DecompilationBot Discordbot DongleEmulatorBot D-RINE Spider DuckDuckBot-Https [DuckDuckGo-Edg-collector] Edge ELB-HealthChecker Exabot-Thumbnails [Expanse scanner] facebookexternalhit FAST-WebCrawler fidget-spinner-bot fluid FxiOS [gdnplus.com scanner] GenomeCrawlerd ggpht.com GoogleImageProxy Google-Apps-Script Googlebot Google+ web/snippet googleweblight GPTBot gzip(gfe) [Hello, World] Hello World [rootlayer.net .bd] [hetzner.de fake Firefox robot] Hi [protected by hidemyip.com] HTTP Banner Detection HTTrack [unknown hz.zj.cn scanner 1] ia_archiver ICC-Crawler Iframely ImageFetcher ImagesiftBot img2dataset [inf-net.ru unknown robot] [internet-census.org scanner] InternetMeasurement [JuziBrowser] KZ BRAIN Mobile l9explore libfetch line-poker Linespider Linespider, Mobile Safari disguised ltx71 MADBbot Mail.RU_Bot ManicTime Mastodon MauiBot Mediatoolkitbot [scanner as MetaSr Sogou browser] Mobile Safari (auxfiles) [Microsoft Trident^2 checker] Microsoft Office Word 2014 MTRobot Neevabot netEstate NE Crawler NetSystemsResearch Nimbostratus-Bot "nlpproject.info research" nsrbot Odin OPR [unknown PaloAlto recursive robot 1] PaperLiBot pc2m PerplexityBot PetalBot Photon [pindc.ru unknown robot] PocketImageCache PocketParser PostmanRuntime [pptechnology.cc .uk scanner] Project 25499 Project Patchwatch Qwantify/Bleriot [research.sorengard.com .git/config scanner] ReverseEngineeringBot optout.scanopticon.com Scrapy search.marginalia.nu SeekportBot Seekport Crawler SemrushBot SEOkicks serpstatbot SERPtimizerBot SeznamBot [shodan.io] ShortLinkTranslate Silk SkypeUriPreview Slackbot SMTBot socialmediascanner.eset.com Sogou web spider [sparqnet.net scanner] Spawning-AI special_archiver SpiderLing Steeler [stretchoid.com] SurdotlyBot [super-seo-guru.com Referer spam] Swisscows Favicons tchelebi thesis-research-bot [ThinkPHP scanner] threatpulse [unknown AWS Tokyo crawler] trendictionbot [trendiction.de fake Firefox robot] [tvt.net.cn /editBlackAndWhiteList RCE] Twingly Recon-Klondike Twitterbot um-LN [ubermetrics-technologies.com] [VirusTotal scanner] Wayback Save Page webprosbot WorksOgCrawler wp_is_mobile Y!J-WSC [Yahoo!Japan unknown image acquision] [yahoo-net.jp image proxy] Yahoo! Slurp [fake yandex.ru robot] Yeti YisouSpider YouBot [unknown your-server.de bot] [youtube-dl] Zoombot ( 187 entries )

$Revision: 1.235 $ $Date: 2024-12-29 12:35:18+09 $


[unknown above.net robot]
(2022-08-22) 用途不明の再帰型ロボット。2022-05-17 より観測。 /robots.txt は読んでいて、従っているように見える。 アクセス間隔も10秒おきくらいで、行儀は良いほう。

UA は Chrome 完全偽装だが、 Accept-Encoding: x-gzip, gzip, deflate が特徴的なので、 ヘッダを集めていれば判別はしやすい。 ほかのヘッダも、なんでそんな値なのかがよくわからない。

	ClientPTR: 64.124.8.NN.available.above.net [64.124.8.NN]
	GET /content-path HTTP/1.1
	Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3
	Accept-Charset:utf-8,iso-8859-1;q=0.7,*;q=0.7
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Encoding:x-gzip, gzip, deflate
	User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36
	Host:host
	

(2022-10-03) 2022-07-22 から、If-Modified-Since: での 帯域節約を行うようになりました。珍しい。 ただ、入れてくる日付はリプライヘッダの Last-Modified: ではなく、 最後に取得した日付を入れてくる。 Googlebotの真似をしているのか (Googleも間違っている)、 単に Last-Modified: をデータベースに入れていないのか、は不明。 最近は動的サイトが増えているので、Last-Modified: が つかないサイトも多いとは思いますが。

	ClientPTR: 64.124.8.NN.available.above.net [64.124.8.NN]
	GET /path HTTP/1.1
	If-Modified-Since:RFC1123-date-of-last-crawl
	Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3
	Accept-Charset:utf-8,iso-8859-1;q=0.7,*;q=0.7
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Encoding:x-gzip, gzip, deflate
	User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36
	Host:host
	
adidxbot
(2022-04-13) bingbot の亜種。 http://www.bing.com/bingbot.htm (https://www.bing.com/webmasters/help/which-crawlers-does-bing-use-8c184ec0 へのリダイレクト) に記載があり、 公告のリンク先の状態を調べるため、とある。 今のところ、再帰動作は観測されていないが、 あまり人気のないURLを狙って取得している。

adidxbot 単体では /robots.txt には対応していないように見えてしまうが、 たぶん bingbot と共用。 HTTPヘッダの並びは bingbot と同じなので、HTTPエンジンは共用と思われる。

	GET /path HTTP/1.1
	Cache-Control:no-cache
	Connection:Keep-Alive
	Pragma:no-cache
	Accept:*/*
	Accept-Encoding:gzip, deflate
	From:bingbot(at)microsoft.com
	Host:host
	User-Agent:Mozilla/5.0 (compatible; adidxbot/2.0; +http://www.bing.com/bingbot.htm)
	
admantx-*
(2019-09-06) ADmantX Service Fetcher Description

ページを自然言語処理解析して分類し、最適な 広告を配信するために使う、そうです。 なので、基本的には広告を出しているようなページの所有者が 陽に要求を出してクロールさせるもの。 広告を出してないページには基本的に来ないはずですが、 なんででしょうね…

User-Agentはadmantx-environmentということで、 不定のようです。 /robots.txt には対応してません。 「/robots.txtで禁止されているページに対する要求は来ないはずだ」 というよくわからん理屈で未対応。 単に対応させるのがめんどくさかっただけのように思える。

	ClientHost: loft11332.dedicatedpanel.com [85.25.237.52]
	GET /path HTTP/1.1
	Accept-Encoding:gzip
	User-Agent:admantx-euaspb/3.1 (+http://www.admantx.com/service-fetcher.html)
	Host:host
	Accept:text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
	Connection:keep-alive
	
このアクセスの直後に、http:/// に対するChrome詐称アクセスも観測されるが、 目的や詐称理由は不明。 Accept: からHTTPエンジンは同じものだと推察される。
	ClientHost: loft9361.dedicatedpanel.com [188.138.75.77]
	GET / HTTP/1.1
	Accept-Encoding:gzip
	User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36
	Host:host
	Accept:text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
	Connection:keep-alive
	
adscanner (seocompany.store)
(2019-10-04) 不明。画像だけを取りに来る。/robots.txt 非対応。 seocompany.store は DNS MX がないので、メールは不達。 http://seocompany.store/ は GoDaddyのドメイン予約ページになっているだけでやはり不達。
	ClientAddr: malta2467.startdedicated.de [85.93.88.91]
	GET /imageURL HTTP/1.1
	User-Agent:Mozilla/5.0 (compatible; adscanner/)/1.1 (http://seocompany.store; spider@seocompany.store)
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3
	Host:host
	Accept-Encoding:gzip
	Via:http/1.1 localhost[UUID] (ApacheTrafficServer/7.1.2)
	

2019-10-29 を最後に途絶え、後継らしき seoscanners.net に代わっています。

Adsbot
(2021-01-14) 用途不明の再帰取得型ロボット。本サイトでは 2020-12-05 以降に観測。 /robots.txt は持っていきますが、 従っていない という情報もあるようです。 アクセス間隔は1-2分空けてくるようですが、 ごっそり持っていかれた という報告もあります。

HTTPエンジン的には Referer: http://host/ 固定なのがあざとく感じる。 /path/content.html を持って行ったあと、 リンクは無いのに /path/ も持っていこうとするのも 不審な感じ。

	ClientPTR:xx-xx-xx-xx.hosted.static.webnx.com
	GET /path HTTP/1.1
	Host:host
	User-Agent:Mozilla/5.0 (compatible; Adsbot/3.1)
	Referer:http://host/
	Accept:text/html
	Connection:close
	Accept-Encoding:gzip
	

こちらの Adsbotは 2021-02-28 を最後に途絶え、下の Adsbot (seostar.co) に交代した模様。

Adsbot (seostar.co)
(2021-06-11) 2021-06-08 より観測。 UA に入っている https://seostar.co/robot/ にて
Bot Type: Good
と自称しているのは非常にあざとい。

目的は SEO のための逆リンク探知らしいが、 契約しないとデータはくれない模様。

以前のAdsbotと比べると、 Adsbot/3.1 の文字列自体は継承されているが、 ヘッダの順番が違うのでHTTPエンジンは変更されていると思われる。 Referer:http://host/ 固定 というわざとらしい点は継承。 /path/file を取った後に /path/ を取る癖は無くなっている。
	ClientPTR:ip-216-18-204-196.seostar.co [216.18.204.196]
	GET /path HTTP/1.1
	Host:host
	User-Agent:Mozilla/5.0 (compatible; Adsbot/3.1; +https://seostar.co/robot/)
	Accept:*/*
	Connection:close
	Accept-Encoding:gzip
	Referer:http://host/		固定
	
adscanner (seoscanners.net)
(2021-10-02) 2020-03-15 より観測。 2ヶ月に1回くらい、画像をぽつぽと取得していきます。 /robots.txt 非対応。 何をしたいのかわかりませんか、商標モニタかなんか?

User-Agent: 文字列が、なんか取っ散らかっている感じ。 この形式は adscanner (seocompany.store) と同じなので、後継と思われる。 Mozilla/5.0 が頭とカッコの中にある。よくわからない。 キャッシュプロキシは Traffic Server から Squid に変えている雰囲気。

なお、UA中の URL を (JavaScript有効なブラウザで) 踏むと、 www.qfind.net に飛ばされ、派手な偽ウィルス感染警告が出ます。 踏まないことを推奨。 (サイトを乗っ取られてるだけかもしれませんが)

https://seoscanners.net [103.224.182.253]:443 に入っているSSL証明書には SubjectAltNames が大量に入ってますが、seoscanners.net が ありません。

MXの park-mx.above.com [103.224.212.34]:25 には、 ホスト名がデフォルトの localhost の go-smtpdが そのまま入ってます。RCPT TO: に対し常に 250 を返すので、 spider@seoscanners.net が不達アドレスかどうかの確認もできない。 というかまともなメールプロバイダはこんなメールサーバで運転したりしない。 色々怪しすぎる。

	ClientPTR: malta2nnn.startdedicated.de [85.25.185.mmm]
	GET /image HTTP/1.1
	User-Agent:Mozilla/5.0 (compatible; adscanner/)/1.0 (Mozilla/5.0 (compatible; seoscanners.net/1.0; +spider@seoscanners.net); http://seoscanners.net; spider@seoscanners.net)
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3
	Accept-Encoding:gzip
	Host:host
	Cache-Control:max-age=259200
	Connection:keep-alive
	
AguseScan
(2019-10-09) https://www.aguse.jp/ では 指定したURLがどのくらい怪しいかを調査することができる。 そのときに使われるエージェント。 調査を指定すると3回、アクセスが来る。
	ClientAddr:plnnnn.agnnnn.nttpc.ne.jp
1回目
	GET / HTTP/1.1
	User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/534.34 (KHTML, like Gecko) AguseScan Safari/534.34
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Encoding:gzip
	Accept-Language:en,*
	Host:host
	Connection:keep-alive
2回目
	GET / HTTP/1.1
	User-Agent:Mozilla/5.0 (X11; U; Linux x86_64; ja-JP) AppleWebKit/533.3 (KHTML, like Gecko) Qt/4.8.0 Safari/533.3
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Connection:Keep-Alive
	Accept-Encoding:gzip
	Accept-Language:ja-JP,en,*
	Host:host
3回目
	GET / HTTP/1.0
	Host:host
	Connection:close
	
AlexaMediaPlayer
(2022-12-15) Amazon Alexa からのアクセスのような気もするが、 ランダムなサイトからメディア再生しろ、みたいな命令を 受け付けるんだろうか?
	GET /stream/live.php HTTP/1.1
	Host:I.P.ad.dr
	User-Agent:AlexaMediaPlayer/2.1.4676.0 (Linux;Android 5.1.1) ExoPlayerLib/1.5.9
	Accept-Encoding:gzip, deflate
	Accept:*/*
	Connection:keep-alive
	
[unknown alibaba.com .cn scanner]
(2023-02-02) 不明なスキャナ。 アクセス元はalibaba.com(中国)のシンガポール拠点から。 Host: には IP アドレスしか入れてこない。 無名、Chrome偽装、fasthttp, fasthttp の4回のアクセスが来る。 当サイトでは 2022-11-26から観測。頻度は月に一組程度。 /sitemap.xml があればなんか違うアクセスが来るんだろうか?
	ClientAddr:[8.219.nn.nn] (alibaba.com .cn singapore)

	GET / HTTP/1.0
	Host:I.P.ad.dr

	GET / HTTP/1.1
	User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36
	Host:I.P.ad.dr
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3
	Accept-Encoding:gzip, deflate
	Accept-Language:zh-CN,zh;q=0.9
	Connection:close

	GET /robots.txt HTTP/1.1
	User-Agent:fasthttp
	Host:I.P.ad.dr

	GET /sitemap.xml HTTP/1.1
	User-Agent:fasthttp
	Host:I.P.ad.dr
	
[Alkonavt checker]
(2018-10-12) あまりアクセスされないURLをのらりくらりと繰り返しチェックしに来ます。 更新チェッカ?
	ClientIPa: 5.188.210.*
	GET /path HTTP/1.0
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
	User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36 OPR/55.0.2994.44
	User-Agent:Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36 Kinza/4.7.2
	Referer:http://host/path
	Host:host

	ClientIPa: 5.188.210.*
	Keep-Alive:15
	Connection:keep-alive
	User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36
	Accept:*/*
	Content-Type:application/x-www-form-urlencoded
	
AlphaBot
(2020-03-08) 2019-11-06 から数か月に一回、観測。 詳細は不明だが、SEO用とリンク関係の調査結果の公表をすると http://alphaseobot.com/bot.html には書かれている。が、サービスリンクの http://alphaseobot.com/ は「建築中」のまま。

robots.txt を読むとは書かれているが、実際は全く読まない。

	ClientIPa: [23.237.4.26] (no PTR)
	GET / HTTP/1.0
	Host:host
	User-Agent:Mozilla/5.0 (compatible; AlphaBot/3.2; +http://alphaseobot.com/bot.html)
	Accept:text/html
	Connection:Keep-Alive
	
Amazonbot
(2021-05-03) Amazon の再帰型ロボット。 2021-05-01 より観測。Safari を詐称。

UA中の https://developer.amazon.com/support/amazonbot は動的サイトで、 ブラウザの Accept-Language により別のURLへ飛ばされる場合もあり。 Last-Modified: がつかないので、いつから存在したURLなのかは不明。 用途は (Amazon) Alexa の検索結果の向上のため、など、とある。

挙動は比較的おとなしく、取得は5〜10秒ほどの間隔を空けてくる。

画像は持っていかないが、どう考えても Alexa の役には立たない .rpmはごっそり取得していく。頭悪い。 .rpmを除外リストに入れていないロボット多すぎ。 →(20241217) 2021/05/01 の初出時のみだった模様。 その後、.rpmの取得は観測されていない。

	ClientPTR: ec2-NN.NN.NN.NN.compute-1.amazonaws.com 
	GET /path HTTP/1.1
	From:amazonbot@amazon.com
	Host:host
	Connection:Keep-Alive
	User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
	Accept-Encoding:gzip,deflate
	Accept:, Accept-Language: なし
	

(2024/12/17) 2024/12/13 から、User-Agent が変わっています。 何かのまねというわけでもない。

	GET /path HTTP/1.1
	Connection:close
	Host:host
	User-Agent:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36
	Accept-Encoding:gzip,deflate
	Accept:, Accept-Language: なし
	

Applebot
(2019-08-14) Apple の収集ロボット。SiriやSpotlightの検索結果に含めるために 取りに来る、らしい。 人気のあるURLを狙って取りに来る。 再帰型ではなさそうでしたが、2021-09 から再帰動作っぽい動作が 確認できました。 間隔は10分くらい空けてくるが、 迷惑をかけていた時期もあったようです。 どう考えても Siri の役には立たない *.rpm も持っていく。頭悪い。

どこからURLの供給を受けているのかは不明。 AppleはGoogleとは距離を置いているので、 Googleから供給を受けているとは考えにくい。 Mobile SafariがAppleに検索結果を横流ししてるんだろうか?

HTTPヘッダが Camel-Case になってないのが特徴的。 http://www.apple.com/go/applebot は 301リダイレクトでhttps://www.apple.com/go/applebot へ、 さらに https://support.apple.com/kb/HT6619 へ リダイレクトされます。

	Client: 17-NN-NN-NN.applebot.apple.com [17.NN.NN.NN]
	accept-encoding:gzip, identity
	host:host
	accept:*/*
	user-agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Applebot/0.1; +http://www.apple.com/go/applebot)
	
2020-06-30 から、 Accept-Language, Accept を追加するようになりました。 Accept-Lanugage: ja-jp ですが、アクセスドメインのTLDだけ見ているとすれば 意味ないような (無しのほうがまだ使える情報が取れるはず)
	GET /path HTTP/ 1.1
	Accept-Language:ja-jp
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	accept-encoding:gzip,identity
	host:host
	user-agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
	
[Apple Messages preview]
(2019-12-11) Apple Messages にURLを貼り付けると、その端末から プレビュー取得のためのリクエストが飛ぶ、ようです。 User-Agent は固定で、なぜか Safari + facebookexternalhit を詐称。 Mobile Safari同様、アイコンファイルを何回も取得しようとします。
参考文献:How To Blow Your Online Cover With URL Previews
	GET /path HTTP/1.1
	GET /favicon.ico HTTP/1.1
	GET /apple-touch-icon-precomposed.png HTTP/1.1
	GET /apple-touch-icon.png HTTP/1.1
	Host:host
	Proxy-Connection:keep-alive
	Upgrade-Insecure-Requests:1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_1) AppleWebKit/601.2.4 (KHTML, like Gecko) Version/9.0.1 Safari/601.2.4 facebookexternalhit/1.1 Facebot Twitterbot/1.0
	Accept-Language:ja-jp
	Accept-Encoding:gzip, deflate
	Connection:keep-alive
	
archive.org_bot
(2019-09-01) Internet Archive の新型ロボット? ia_archiver の動いている AWS とは 別のホストで動いている。 UA では Mozilla/5.0 を詐称するようになったが、Chrome詐称までは していないし、効果のほどは不明。
	ClientAddr: crawl835.us.archive.org [207.241.229.33]
	GET /path HTTP/1.0
	Connection:Close
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Host:host
	User-Agent:Mozilla/5.0 (compatible; archive.org_bot +http://www.archive.org/details/archive.org_bot)
	
[archive.ph archiver]
(2022-05-13) アーカイバ/Web魚拓サービス。 Wayback Machine と似ていて、任意のURLのスナップショットを即時採ることも可能だが、 大量に広告がついてくる点と、 /robots.txt非対応 (※ <h2 id = "..."> とスペースが入ってるので、ブラウザによっては狙った場所を表示できないかも) が Wayback Machine と違う、と思う。

FAQのページはなぜか 広告もなく、すごく見やすい。 「人間の真似をするものなので、/robots.txt に対応してません」というのは 危なっかしい前提ではある。 (第三者がAPIで採集指示を出したらどうなるんだ?)

採集には Chrome Headless を使っているのか、 ヘッダ類やアクセスパターンは Chrome/92 と全く同じで判別不能。 アクセス元のIPアドレスでしか判別できないかも。

	ClientPTR: 179.43.151.41 [179.43.151.41]
	ClientPTR: 37.1.202.102 [37.1.202.102]
	GET /path HTTP/1.1
	Host:host
	Connection:keep-alive
	Upgrade-Insecure-Requests:1
	User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
	Accept-Encoding:gzip, deflate
	Accept-Language:en-US,en;q=0.9
	

スキャン時には X-Forwarded-For をつけますよ となっているが、実際はついてこない。

[archive.today scraper]

(2024-09.11) 再帰型ではないとうたっているが実際は再帰型のWebアーカイバロボット。 URL指示は人間が出すからと理由で robots.txt には 非対応 を明記。 画像、favicon.icoも収集する、 ただ、取得間隔は非常に緩慢で、1URL/月程度。

ヘッダ類はその時代のChromeを完全偽装。 識別にはアクセス元しか方法がない。 たまにホスティング業者を変えてくる。 2024-03-21〜現在2024-09-11 は vmd110945.contaboserver.net [109.123.229.250] (contabo.de) を使用。 また、通常の GET の他に、ポートスキャンも行い、access_log には 408 エラーコードを残す。

	ClientPTR: vmd110945.contaboserver.net [109.123.229.250] (2024-03-21〜)
	GET /path HTTP/1.1
	Host:host
	Connection:keep-alive
	Upgrade-Insecure-Requests:1
	User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.4853.256 Safari/537.36
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
	Accept-Encoding:gzip, deflate
	Accept-Language:en-US,en;q=0.9
	
AspiegelBot

(2022-04-08) Googleから締め出された Huawei の検索エンジン用 再帰ロボット。 2019-09-24 からそれらしきアクセスを観測。 このころは /robots.txt 非対応。 .rpm のようなバイナリも吸い上げていくので、バイナリ関連はサーバ側での ブロックを推奨。

最初は、主に中国製 Android を偽装した収集活動を行っていたようです。 UAは4種類くらいを使用。 UAの空白になんとなく無頓着な点が中国っぽい。 この当時は、逆引きが ecs-159-138-NN-NN.compute.hwclouds-dns.com [159.138.NN.NN] でした。

	ClientPTR: ecs-159-138-NN-NN.compute.hwclouds-dns.com [159.138.NN.NN]
	GET /path HTTP/1.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Language:zh-CN,zh;q=0.9
	Referer:		←最初は空のReferer: だった時期がある
	User-Agent:Mozilla/5.0 (Linux; Android 7.0; FRD-AL00 Build/HUAWEIFRD-AL00; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/53.0.2785.49 Mobile MQQBrowser/6.2 TBS/043602 Safari/537.36 MicroMessenger/6.5.16.1120 NetType/WIFI Language/zh_CN
	User-Agent:Mozilla/5.0(Linux;Android 5.1.1;OPPO A33 Build/LMY47V;wv) AppleWebKit/537.36(KHTML,link Gecko) Version/4.0 Chrome/42.0.2311.138 Mobile Safari/537.36 Mb2345Browser/9.0
	User-Agent:Mozilla/5.0(Linux;Android 5.1.1;OPPO A33 Build/LMY47V;wv) AppleWebKit/537.36(KHTML,link Gecko) Version/4.0 Chrome/43.0.2357.121 Mobile Safari/537.36 LieBaoFast/4.51.3
	User-Agent:Mozilla/5.0(Linux;U;Android 5.1.1;zh-CN;OPPO A33 Build/LMY47V) AppleWebKit/537.36(KHTML,like Gecko) Version/4.0 Chrome/40.0.2214.89 UCBrowser/11.7.0.953 Mobile Safari/537.36
	Connection:Close
	Host:host
	Accept-Encoding:gzip,deflate
	

2020-01-07 〜 2020-03-05: この期間から Squid キャッシュを経由させるようになったようで、 特徴的な Via: と X-Forwarded-For: がつくようになりました。 2020-03-03 から、同じ hwclouds-dns.com でも ecs-114-119-NN-NN.compute.hwclouds-dns.com [114.119.NN.NN] といった逆引きがつきます。 /robots.txt を読むようになったのは 2020-02-05 になってから。

	ClientIPA: [114.119.NN.NN]
	GET /path HTTP/1.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	User-Agent:Mozilla/5.0 (Linux; Android 7.0; FRD-AL00 Build/HUAWEIFRD-AL00; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/53.0.2785.49 Mobile MQQBrowser/6.2 TBS/043602 Safari/537.36 MicroMessenger/6.5.16.1120 NetType/WIFI Language/zh_CN
	User-Agent:Mozilla/5.0 (iPad; CPU OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53
	User-Agent:Mozilla/5.0(Linux;Android 5.1.1;OPPO A33 Build/LMY47V;wv) AppleWebKit/537.36(KHTML,link Gecko) Version/4.0 Chrome/42.0.2311.138 Mobile Safari/537.36
	User-Agent:Mozilla/5.0(Linux;Android 5.1.1;OPPO A33 Build/LMY47V;wv) AppleWebKit/537.36(KHTML,link Gecko) Version/4.0 Chrome/42.0.2311.138 Mobile Safari/537.36 Mb2345Browser/9.0
	User-Agent:Mozilla/5.0(Linux;Android 5.1.1;OPPO A33 Build/LMY47V;wv) AppleWebKit/537.36(KHTML,link Gecko) Version/4.0 Chrome/43.0.2357.121 Mobile Safari/537.36
	User-Agent:Mozilla/5.0(Linux;Android 5.1.1;OPPO A33 Build/LMY47V;wv) AppleWebKit/537.36(KHTML,link Gecko) Version/4.0 Chrome/43.0.2357.121 Mobile Safari/537.36 LieBaoFast/4.51.3
	User-Agent:Mozilla/5.0(Linux;U;Android 5.1.1;zh-CN;OPPO A33 Build/LMY47V) AppleWebKit/537.36(KHTML,like Gecko) Version/4.0 Chrome/40.0.2214.89 Mobile Safari/537.36
	User-Agent:Mozilla/5.0(Linux;U;Android 5.1.1;zh-CN;OPPO A33 Build/LMY47V) AppleWebKit/537.36(KHTML,like Gecko) Version/4.0 Chrome/40.0.2214.89 UCBrowser/11.7.0.953 Mobile Safari/537.36
	Accept-Language:ja-JP,en;q=0.8,zh;q=0.1
	Accept-Encoding:gzip,deflate
	Host:host
	Via:1.1 squid.test (squid/3.5.20)
	X-Forwarded-For:10.179.3.28
	Cache-Control:max-age=259200
	Connection:keep-alive
	

2020-03-05 から AspiegelBot を名乗るようになります。 なんとなくUAの空白に無頓着な点は継承。 すぐに 2020-03-06 から Android詐称に変わっています。

	ClientPTR:ecs-114-119-NN-NN.compute.hwclouds-dns.com [114.119.NN,NN]
	GET /path HTTP/1.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	User-Agent:Mozilla/5.0 (compatible;AspiegelBot)	2020-03-05のみ
	User-Agent:Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; AspiegelBot)
	Accept-Language:ja-JP,en;q=0.8,zh;q=0.1
	Accept-Encoding:gzip,deflate
	Host:host
	Via:1.1 squid.test (squid/3.5.20)
	X-Forwarded-For:10.179.3.19
	Cache-Control:max-age=259200
	Connection:keep-alive
	

2020-04-10 から、逆引きが ecs-114-119-NN-NN.compute.hwclouds-dns.com から 114-119-NN-NN.aspiegelbot になります。 この逆引きは TLDに無いので、正引きは失敗します。

	ClientPTR: 114-119-NN-NN.aspiegelbot [114.119.NN.NN]
	GET /path HTTP/1.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	User-Agent:Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; AspiegelBot)
	Accept-Language:ja-jp,en;q=0.8,zh;q=0.1
	Accept-Encoding:gzip,deflate
	Host:host
	Via:1.1 squid.test (squid/3.5.20)
	X-Forwarded-For:10.179.3.154
	Cache-Control:max-age=259200
	Connection:keep-alive
	

2020-05-21 から、逆引きが *.aspiegel.com になり、 PetalBot を名乗るようになります。 /robots.txt は 持っていきますが、 従っていない という情報もあり。

	GET /path HTTP/1.1
	ClientPTR: petalbot-114-119-NN-NN.aspiegel.com [114.119.NN.NN]
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	User-Agent:Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://aspiegel.com/petalbot)
	Accept-Language:ja-jp,en;q=0.8,zh;q=0.1
	Accept-Encoding:gzip,deflate
	Host:host
	Via:1.1 squid.test (squid/3.5.20)
	X-Forwarded-For:10.179.80.180
	Cache-Control:max-age=259200
	Connection:keep-alive
	

2020-06-28〜2021-01-11 の期間は、 なぜか Mozilla/5.0 詐称が消え、UA の空白に無頓着な点に逆戻り。

	ClientPTR: petalbot-114-119-NN-NN.aspiegel.com [114.119.NN.NN]
	GET /robots.txt HTTP/1.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	User-Agent:(compatible;PetalBot;+https://aspiegel.com/petalbot)
	Accept-Language:ja-jp,en;q=0.8,zh;q=0.1
	Accept-Encoding:gzip,deflate
	Host:host
	Via:1.1 squid.test (squid/3.5.20)
	X-Forwarded-For:10.179.4.193
	Cache-Control:max-age=259200
	Connection:keep-alive
	

2021-01-13 から、特徴的だった Via: と X-Forwarded-For: が消えました。

	ClientPTR: petalbot-114-119-NN-NN.aspiegel.com [114.119.NN.NN]
	GET /robots.txt HTTP/1.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	User-Agent:(compatible;PetalBot;+https://aspiegel.com/petalbot)
	Accept-Language:ja-jp,en;q=0.8,zh;q=0.1
	Accept-Encoding:gzip,deflate
	Host:host
	Cache-Control:max-age=259200
	Connection:keep-alive
	

2021-03-11 から逆引きが *.petalsearch.com になります。

	ClientPTR: petalbot-114-119-NN-NN.petalsearch.com [114.119.NN.NN]
	GET /robots.txt HTTP/1.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	User-Agent:(compatible;PetalBot;+https://aspiegel.com/petalbot)	2021-03-11にだけ観測
	Accept-Language:ja-jp,en;q=0.8,zh;q=0.1
	Accept-Encoding:gzip,deflate
	Host:host
	Cache-Control:max-age=259200
	Connection:keep-alive
	

2022-03-24 から、UA の空白がまともになりました。 また、Accept-Language から zh がなくなっているものが 混じるようになりました。 なお、UA中の https://webmaster.petalsearch.com/site/petalbot は、 JavaScript がないと一切 内容 が表示されません。 問題があれば petalbot@huawei.com に連絡しろ、とある。

	ClientPTR: petalbot-114-119-NN-NN.petalsearch.com [114.119.NN.NN]
	GET /path HTTP/1.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	User-Agent:Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)
	Accept-Language:ja-jp,en;q=0.8
	Accept-Encoding:gzip, deflate
	Host:host
	Cache-Control:max-age=259200
	Connection:keep-alive
	

(2023-01-11) 2023-01-01 から、サーバ名部分が 12桁のランダム16進数の Via: をつけるようになりました。なぜかは不明。 ランダムにすると自分かどうかがわからなくなるので、 意図がいまいちわからない。 純正の Squid はこんな感じで

src/HttpHeader.cc : HttpHeader::addVia()
	buf.appendf("%d.%d %s", ver.major, ver.minor, ThisCache);
	
ホスト名匿名化機能なんかないので、 頑張って改造したんでしょうなぁ

	GET /path HTTP/1.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	User-Agent:Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)
	Accept-Language:ja-jp,en;q=0.8
	Referer:correct referrer
	Accept-Encoding:gzip, deflate
	Host:host
	Via:1.1 randhex12 (squid/5.7)
	X-Forwarded-For:10.179.80.178
	Cache-Control:max-age=259200
	Connection:keep-alive
	

(2023-08-25) 2023-05-17 から、Squidの改造はやめたようです。 Via: 1.1 localhost (Squid/5.7) になっています。

2023-06-10 から、Via: に正常なホスト名がつくようになりました。

	ClientPTR: petalbot-114-119-134-NN.petalsearch.com [114.119.134.NN]
	GET /path HTTP/1.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	User-Agent:Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)
	Accept-Language:ja-jp,en;q=0.8
	Referer:correct Referer:
	Accept-Encoding:gzip, deflate
	Host:host
	Via:1.1 sin3-tysearch-crawler-178-18-173 (squid/5.7)
	X-Forwarded-For:10.179.80.166
	Cache-Control:max-age=259200
	Connection:keep-alive
	
[aws fake Chrome scanner]
(2018-12-16) 不明。あまり頻度は高くない。 User-AgentはChromeの真似ですが、"User-Agent: " が余計なのと 他のヘッダが無いのですぐ区別がつく。 再帰的な取得の仕方はせず、「人気のある」URLを狙って取得するので、 URLリストは他から供給を受けている模様。
	clienthost: ec2-nn-nn-nn-nn.compute-1.amazonaws.com 
	User-Agent:User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31
	Host:host
	Connection:Keep-Alive
	
axios

(2024-09-28) 汎用HTTPエンジンなので、用途は不定。 2024-09-27より観測しているのは HEAD しかしないので 更新チェッカと思われる。 /robots.txt 非対応。 取得間隔が数秒おきで、かなり目だつ。せめて毎5分くらいにしてくれ…

	HEAD /~kabe/WWW/agentgripes.html HTTP/1.1
	Accept:application/json, text/plain, */*
	User-Agent:axios/1.7.7
	Accept-Encoding:gzip, compress, deflate, br
	Host:vega.pgw.jp
	Connection:keep-alive
	no Accept-Language
	

ロボットにはブラウザのUAをつけましょう という参考文献もある。凶悪。

BaiduSpider [fake]
(2022-03-18) 百度の純正の検索エンジン用ロボットは、 当サイトでは 2020-05-10 以降、観測されなくなりました。 検索サービス自体は続いているので、中国・台湾ドメインあたりだけを 取りに行くようになったのかもしれません。 (百度JAPANは検索は辞めたようです)

純正 Baiduspider:

	ClientPTR: baiduspider-NN.NN.NN.NN.crawl.baidu.com
	GET /path HTTP/1.1
	Host:host
	Connection:close
	User-Agent:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
	Accept-Encoding:gzip
	Accept-Language:zh-cn,zh-tw
	Accept:*/*
	

ただ、現在観測できているものは、Baiduspiderを偽装し Torネットワークを介した「セキュリティスキャナ」ばかりです。

	GET / HTTP/1.1
	Host:I.P.ad.dr
	User-Agent:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
	Connection:close
	Accept:*/*
	Accept-Encoding:gzip
	no Accept-Language
	

BaiduSpider だけのものは完全に偽物です。 偽装 UA リストの中にでも入っているんだろうか。

	GET /path HTTP/1.1
	User-Agent:BaiduSpider
	Accept-Encoding:gzip, deflate
	Host:host:80
	X-Forwarded-For:I.P.ad.dr
	
Barkrowler
(2020-09-04) 再帰収集ロボット。 一応、アクセスは数秒間隔を空けてくる。 画像は集めないが、.rpm は持っていく。

https://babbar.tech/crawler にある「何のため」は

We are crawling the web in order to measure it by calculating some helpfull metrics (popularity, trust, categorization).
これだけ。

	ClientPtr: crawl-beta-8.babbar.eu [62.210.189.2]
	ClientPtr: crawl-dev-2.babbar.eu [154.54.249.16] (2020-09-02〜)
	GET /path HTTP/1.1
	From:tech@babbar.tech
	Accept:text/html;q=0.95,text/*;q=0.9,*/*;q=0.8
	Accept-Language:*
	Accept-Charset:*
	Host:host
	Connection:Keep-Alive
	User-Agent:Mozilla/5.0 (compatible; Barkrowler/0.9; +https://babbar.tech/crawler)
	Accept-Encoding:gzip,deflate
	

(2022-07-19) Accept-Language:*, Accept-Charset:* は害しかないと判断したのか、 2022-06-15 からこれらのヘッダはなくなりました。 UA はそのまま。

	ClientPTR: crawl-dev-4.babbar.eu [154.54.249.18]
	ClientPTR: crawl-prodd4-3.babbar.eu [154.54.249.195]
	GET /path HTTP/1.1
	From:tech@babbar.tech
	Accept:text/html;q=0.95,text/*;q=0.9,*/*;q=0.8
	Host:host
	Connection:Keep-Alive
	User-Agent:Mozilla/5.0 (compatible; Barkrowler/0.9; +https://babbar.tech/crawler)
	Accept-Encoding:gzip,deflate
	
best-proxies.ru

(2023-01-11) 匿名プロクシスキャナ。 2022-12-16 より観測。スキャン頻度は数か月に一回と緩慢。 http://fingerprints.bablosoft.com/ でアクセス検査しているが、 best-proxies.ru との関連はなさそう。そのうち検知・ブロックされて 別の検知URLに乗り換える可能性も考えられる。

この手のスキャナは UA だけ偽装したものが多いが、 正直に宣言しているのは評価できる。

	CONNECT fingerprints.bablosoft.com:443 HTTP/1.1
	Host:fingerprints.bablosoft.com:443
	Proxy-Connection:keep-alive
	User-Agent:Mozilla/5.0 (Windows NT 6.1; rv:16.0) Gecko/20100101 Firefox/16.0 (+https://best-proxies.ru/faq/#from)

	GET http://fingerprints.bablosoft.com/ip?Z71655590380Q1 HTTP/1.1
	Host:fingerprints.bablosoft.com
	Cookie:Z71655590380Q1
	User-Agent:Mozilla/5.0 (Windows NT 6.1; rv:16.0) Gecko/20100101 Firefox/16.0 (+https://best-proxies.ru/faq/#from)
	Referer:https://google.com/
	Content-Type:application/x-www-form-urlencoded
	Content-Length:9
	Connection:close
	
bingbot
(2019-09-09) 検索エンジンBingの再帰クローラロボット。 If-Modified-SinceとIf-None-Matchをつけてくるときは 必ず Mozilla/5.0 のみの詐称だが、 3割くらいで Mobile Safari を詐称してくるときは これらのヘッダはつかない。 どう使い分けられているのかはいまいちよく分からない。
通常版
	ClientPtr: msnbot-NN-NN-NN-NN.search.msn.com
	GET /path HTTP/1.1
	Cache-Control:no-cache
	Connection:Keep-Alive
	Pragma:no-cache
	Accept:*/*
	Accept-Encoding:gzip, deflate
	From:bingbot(at)microsoft.com
	Host:host
	If-Modified-Since:RFC1123 date
	If-None-Match:"ETag value"
	User-Agent:Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
	
Mobile Safari 詐称版
	ClientPtr: msnbot-NN-NN-NN-NN.search.msn.com
	GET /path HTTP/1.1
	Cache-Control:no-cache
	Connection:Keep-Alive
	Pragma:no-cache
	Accept:*/*
	Accept-Encoding:gzip, deflate
	From:bingbot(at)microsoft.com
	Host:host
	User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
	
BLEXBot
(2020-08-19) バックリンク収集のための再帰型ロボット。 挙動は比較的おとなしく、数秒間隔を空けてくるが、 Googleですら対応してるようでしてない /sitemap.xml をしつこく取りに来る。

UA中の http://webmeup-crawler.com/ はロボットについての説明だが、 「何のため」は

BLEXBot assists internet marketers to get information on the link structure of sites and their interlinking on the web, to avoid any technical and possible legal issues and improve overall online experience.
これだけ。 売りのバックリンクチェックサービスは https://webmeup.com/ にあるが、 そこへのリンクすらない。 無料でもバックリンクチェックはできるが、ドメイン毎の大まかな概要だけ。 Angular.JS で書かれているので JavaScript非対応ブラウザだと 悲惨な画面になる。

	ClientHost: ninja-crawler39.webmeup.com [94.130.34.225]
	GET /htmlpath HTTP/1.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	User-Agent:Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)
	Host:host
	Connection:Keep-Alive
	Accept-Encoding:gzip,deflate
	
[BlueCoat refresh]
(2019-09-05) BlueCoat のキャッシュアプライアンス (旧CacheFlow)の キャッシュ自動リフレッシュ時に使われるUser-Agent は、 ブラウザのものではなくMozilla/4.0 (compatible;) が使われる。 Cache-Control: max-stale=0 を付加するといった 特徴も昔と変わっていない。
	GET /contentpath HTTP/1.1
	Host:host
	User-Agent:Mozilla/4.0 (compatible;)
	Accept:text/html, */*
	Accept-Encoding:identity
	Cache-Control:max-stale=0
	Connection:Keep-Alive
	X-BlueCoat-Via:hex16
	
Bluecoat の /notify
(2018-10-16) BlueCoat経由のアクセスで、稀に Referer: が書き換えられている ものがあります。なんで Referer: にわざわさメタデータを 仕込もうとしているのかは不明。 Originサーバのためではなく、BlueCoat同士でのデータ通信用?
	Referer:http://host/notify-Notify_Warning1-Type3?base64-68;base64-44
	Referer:http://host/notify-Caution_Notification?base64-60;base64-44
	Via:1.1 proxyhost
	Cache-Control:max-stale=0
	Connection:Keep-Alive
	X-BlueCoat-Via:hex16
	
bnf.fr_bot
(2019-10-01) フランス国立図書館 (Bibliotheque Nationale de France, BnF) による収集ロボット。 /robots.txtは読んでいるが、 「robots.txtは画像やバイナリなどの収集を防ぐために使われるが、 我々の収集目的には合致しないため、対応していない」という、 なんか間違った理由により非対応を明記。

本サーバへのアクセスは画像取得だけ観測のため、 再帰型かどうか、/robots.txtを無視しているかどうかも不明。 本来はフランス語・フランスドメインの収集だけを行うはず、らしい。

Referer: には正しい、参照されているURLを渡してくる。珍しい。 当サイトに来ているのは、某.frなページに画像だけ貼り付けられている ための模様。

	ClientAddr: [194.199.7.28] (Bibliotheque Nationale de France)
	GET /image HTTP/1.0
	From:robot@bnf.fr
	Connection:Close
	Referer:Correct Referer
	Accept:text/xml, application/xml, application/xhtml+xml, text/html; q=0.9, text/plain; q=0.8, image/png, */*; q=0.5
	Accept-Language:fr, en; q=0.3
	Host:host
	User-Agent:Mozilla/5.0 (compatible; bnf.fr_bot; +https://www.bnf.fr/fr/capture-de-votre-site-web-par-le-robot-de-la-bnf)
	
Bravebot

(2024-10-20) 当サイトには /robots.txt の取得しか観測されていない。 検索サイトのデータベースには当サイトが載っているので、 サイトデータ採集は何か別のものに偽装しているものと思われる。 https://search.brave.com/help/brave-search-crawlerには、 Googlebotに偽装しているような書かれ方をしているが、 確認はできなかった。

収集は、Accept-Encoding:br, gzip が共通の [unknown your-server.de bot] かもしれない。
	ClientPTR: static.235.37.27.37.clients.your-server.de [37.27.37.235]
	GET /robots.txt HTTP/1.1
	Host:host
	User-Agent:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Bravebot/1.0; +https://search.brave.com/help/brave-search-crawler) Chrome/W.X.Y.Z Safari/537.36
	Accept-Language:en-US,en;q=0.9
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	DNT:1
	Connection:keep-alive
	Accept-Encoding:br, gzip
	
[unknown br,gzip robot]
(2023-06-26) 不明な再帰型ロボット。2022-10-22 付近から観測。 *.ic2net.net, *.available.above.net から来ることが多い。 →ImagesiftBot 本物の Chrome はこんな Accept-Encoding: をつけてこないので、 ヘッダを集めていれば区別可能。

珍しく If-Modified-Since に対応している。 付けてくる時刻は Last-Modified: ではなく最後に取得した時刻の模様。

	GET /path HTTP/1.1
	User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3
	Accept-Charset:utf-8,iso-8859-1;q=0.7,*;q=0.7
	If-Modified-Since:time-of-last-crawl
	Accept-Encoding:br,gzip
	Host:host
	Connection:Keep-Alive
	
Bytespider
(2022-06-02) おそらく検索エンジン用の再帰ロボット。 画像も収集するが、.html の収集は観測できていない。 偽装しているか、他から供給を受けているのかもしれない。

当サイトでは 2020-09-27 より観測。 /robots.txt での立ち入り禁止区域へは入ってきていないが、 守っていない という情報もあり。 理由は不明だが、Referer: にランダムな URL を入れてくる場合がある。 アクセス頻度は緩慢だが、.rpm は持っていく。自主的にやめてほしい。

https://zhanzhang.toutiao.com/ にアクセスしても検索ボックスはない。 ユーザー登録しないと検索させてくれないのかもしれない。

	ClientPTR: bytespider-NN-NN-NN-NN.crawl.bytedance.com 
	GET /image HTTP/1.1
	Host:host
	User-Agent:Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/)
	Accept:*/*
	Referer:random URL
	

2022-05-29 から毛色の違うものを観測。頻度は少ない。 HTTP ヘッダの構造が違うので、全く異なる用途のものと思われる。

	ClientPTR: bytespider-110-249-202-163.crawl.bytedance.com [110.249.202.163]
	GET / HTTP/1.1
	host:I.P.ad.dr
	user-agent:Mozilla/5.0 (compatible; Bytespider; https://zhanzhang.toutiao.com/) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.0.0 Safari/537.36
	accept:*/*
	Connection:Keep-Alive
	
(2023-06-20) 2022-06-04 を最後に PTR: bytepider-*.crawl.bytedance.com からのアクセスは途絶え、 2023-05-18 から AWS からの収集に切り替わっている。 UA中の https://zhanzhang.toutiao.com/ への言及は 2023-06-15 からなくなり、メールアドレスのみ。
	ClientPTR: ec2-*.ap-southeast-1.compute.amazonaws.com
	GET /path HTTP/1.1
	host:host
	accept-language:en-US,en;q=0.5
	user-agent:'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Mobile Safari/537.36'Bytespider;https://zhanzhang.toutiao.com/	(2023-05-18〜2022-05-31まで)
	user-agent:Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; spider-feedback@bytedance.com)	(2023-06-15〜)
	accept:image/webp,image/apng,image/*,*/*;q=0.8
	accept-encoding:gzip, deflate
	Connection:Keep-Alive
	

(2024-10-20) 2024-03-25 から、似ているがヘッダがCamel-Case化しました。 HTTPエンジンを交換したものと思われる。 Accept: も微妙に違う。

	GET /path HTTP/1.1
	Host:host
	Content-Length:0
	Upgrade-Insecure-Requests:1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/heif,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7
	User-Agent:Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko)Mobile Safari/537.36 (compatible; Bytespider; spider-feedback@bytedance.com)
	Accept-Encoding:gzip, deflate
	Accept-Language:en-US,en;q=0.5
	
CCBot
(2019-07-24) 不明。ほとんどの場合 /robots.txt と / だけを取りに来る。 https://commoncrawl.org/faq/ はCloudFlareの向こう側にあるので、 ブラウザによってはアクセスできない。
	GET / HTTP/1.1
	User-Agent:CCBot/2.0 (https://commoncrawl.org/faq/)
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Language:en-US,en;q=0.5
	Host:host
	Connection:Keep-Alive
	Accept-Encoding:gzip
	
CensysInspect
(2020-11-12) http:/// しか取得しない。Host: もIPアドレスのみ、なので、 サーバ(機器)の種類を調べようとしているのかもしれない。 (Host:をつけているのもHTTP/1.1の要件だから、のためだけと思われる) 最初は完全匿名、0.5秒後に "CensysInspect" のUAを渡してくる。 ヘッダの構造からこの2つのアクセスのHTTPエンジンは違うものと予想される。 なぜ匿名のままにしていないのかは不明。苦情を減らしたいため?
	ClientPTR: scanner-NN.ch1.censys-scanner.com
	GET / HTTP/1.1
	Host:IPaddr:80

	GET / HTTP/1.1
	Host:IPaddr
	User-Agent:Mozilla/5.0 (compatible; CensysInspect/1.1; +https://about.censys.io/)
	Accept:*/*
	Accept-Encoding:gzip
	
[unknown centurylink.com crawler]
(2022-12-08) 用途不明の再起型ロボット。 本サイトでは 2022-11-01 より観測。 取得間隔は 1日1回と非常に緩慢。 /robots.txt の取得は10日に1回。

この偽装Chromeのバージョンは2022年後半の物なので、 その時期に作られたロボットと思われる。

.rpm も取得していく。あまり頭がよくない。 Chromeに偽装しているので、簡単にアクセス制御フィルタが書けない。

	ClientIPA: 205.169.39.63 (centurylink.com)
	GET /path HTTP/1.1
	Host:host
	User-Agent:Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36
	Accept-Encoding:gzip
	No Accept-Language, Accept-Encoding
	
Chatwork LinkPreview v1
(2022-08-20) チャットツール Chatwork の リンクプレビュー 機能のためのアクセス。 まだ当サイトでは画像を採集されていませんが、 先頭に画像のあるページであれば画像も持っていくのかもしれない。

Accept-Language:ja,en;q=0.9 は コンテンツ取得時だけで、 /robots.txt 取得時はつかない。なぜかは不明。

	ClientPTR: ec2-NN-NN-NN-NN.ap-northeast-1.compute.amazonaws.com  (AWS 東京リージョン)
	GET /robots.txt HTTP/1.1
	User-Agent:Chatwork LinkPreview v1
	Host:host
	Accept:text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
	Connection:keep-alive

	GET /content-path HTTP/1.1
	Accept-Language:ja,en;q=0.9
	User-Agent:Chatwork LinkPreview v1
	Host:host
	Accept:text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
	Connection:keep-alive
	

(2022-12-09) 2022-11-08 から、Accept: */* になりました。 そんなに効果あるのかな。 ヘッダの順番も微妙に違う。

	GET /path HTTP/1.1
	Accept-Language:ja,en;q=0.9
	User-Agent:Chatwork LinkPreview v1
	Accept:*/*
	Host:host
	Connection:keep-alive
	
CheckMarkNetwork
(2019-09-13) UA 中にあるhttp://www.checkmarknetwork.com/spider.html/には 挙動についての記載はあるが、肝心の目的については書かれていない。 サービスとして商標モニタ、ドメイン名モニタといったことをやっているので、 そういう情報を収集してるんだと思われます、が、

HEAD / しか観測していません。取得間隔も数か月間隔。 /robots.txt に対応しているとなっていますが /robots.txt を持って行った形跡なし。 興味があるサイトかどうか判定してから持っていくのかもしれませんが。

/robots.txt (Robot Exclusion Protocol)のことを "Googlebot specification" と書いているので、 RXPの名称や規定が Googlebot以前からあったことを知らない人が 書いているのかもしれない。

	ClientHost:ec2-18-224-45-26.us-east-2.compute.amazonaws.com
	HEAD / HTTP/1.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	User-Agent:CheckMarkNetwork/1.0 (+http://www.checkmarknetwork.com/spider.html)
	Host:host
	Connection:keep-alive
	
Chrome-Compression-Proxy
(2019-12-08) Mobile Safari についている Data Compression Proxy 機能によるアクセス。 User-Agent, Accept-Language はオリジナルのものを素通ししている感じだが、 ヘッダの順番がオリジナルとは違う。 稀に素の(Mobileでない)Safariのものも観測される。
	ClientPtr: google-proxy-66-NN-NN-NN.google.com
	GET /path HTTP/1.1
	Host:host
	Accept:image/webp,image/apng,image/*,*/*;q=0.8
	Accept-Encoding:gzip, deflate
	Accept-Language:ja-JP,ja;q=0.9,en-US;q=0.8,en;q=0.7
	Forwarded:for=IPv4addr|"[IPv6addr]"
	Save-Data:on
	Scheme:http
	Via:1.1 Chrome-Compression-Proxy
	X-Forwarded-For:IPv4 or IPv6 addr
	Connection:keep-alive
	User-Agent:Mozilla/5.0 (origin header?) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/origin.version Mobile Safari/537.36
	
Cincraw
(2020-04-03) 2020-02中旬より観測。 おそらく 株式会社CINC の SEO (Serch Engine Optimization) のデータ集めに使われているロボット。 日本で SEO を主業にしている会社は珍しい。 緩慢だが再帰型。月に数回のアクセス。 画像も収集する。

UA中のhttp://cincrawdata.net/bot/ (https://cincrawdata.net/bot/へリダイレクト) には「何々はしない」と羅列されているが、肝心の 「何のため」は一切書かれていない。

	ClientPTR: *.static.cnode.io [150.95.*] (GMO.jp region)
	GET /path HTTP/1.1
	Upgrade-Insecure-Requests:1
	User-Agent:Mozilla/5.0 (compatible; Cincraw/1.0; +http://cincrawdata.net/bot/)
	Accept-Language:ja
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
	Accept-Encoding:gzip, deflate
	Host:host
	Via:1.1 cincrawdata.net (squid/3.5.12)
	Cache-Control:max-age=259200
	Connection:keep-alive
	

通常のページや画像取得は上記のようにSquidを通っているが、 なぜか /robots.txt 取得時はSquidを通らない。 ヘッダの順番も違うので、/robots.txt取得時は違うHTTPエンジンを 使っているものと推察される。

	GET /robots.txt HTTP/1.1
	Host:host
	Accept:*/*
	User-Agent:Mozilla/5.0 (compatible; Cincraw/1.0; +http://cincrawdata.net/bot/)
	Accept-Language:ja
	

(2022-07-20) 2021-04-10 から Squid が3.5→4.10に更新されました。

	ClientPTR: *.static.cnode.io [118.27.117.*] (GMO.jp region)
	GET /path HTTP/1.1
	Upgrade-Insecure-Requests:1
	User-Agent:Mozilla/5.0 (compatible; Cincraw/1.0; +http://cincrawdata.net/bot/)
	Accept-Language:ja
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
	Accept-Encoding:gzip, deflate
	Host:host
	Via:1.1 cincrawdata.net (squid/4.10)
	Cache-Control:max-age=259200
	Connection:keep-alive
	
clark-crawler2
(2021-09-26) 再帰型ロボット。目的は不明。2021-09-01 より観測。 連続取得時の間隔は数秒〜数分間、空けてくる。 取得は *.html のみ。画像は持っていかない。 今のところ、*.rpm を取っていくような挙動は見られない。

HTTPエンジンは独自のものと思われる。 Host:が最後についたり、Accept-Charset が普通とは異なっていたり、 Accept-Encoding に br (brotli) が最初に入っていたりと、 他のHTTPエンジンとはずいぶん感じが違う。

	ClientPTR: ec2-*.us-east-2.compute.amazonaws.com
	GET /path HTTP/1.1
	User-Agent:clark-crawler2/Nutch-1.19-SNAPSHOT
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3
	Accept-Charset:utf-8,iso-8859-1;q=0.7,*;q=0.7
	Accept-Encoding:br,gzip
	Host:host
	Connection:Keep-Alive
	
ClaudeBot

(2024-10-07) 再帰取得ロボット。 2024-04-19 より観測。 anthropic.com はAI屋なので、学習データ収集のためと思われる。 /robots.txt は読んでいて、従っているように見えるが、 画像も収集する。 アクセス間隔は数秒空けてくる。よいが、 巨大な .rpm も収集する。やめれ。

	GET /robots.txt HTTP/1.1
	accept:*/*
	user-agent:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)
	accept-encoding:gzip, br, zstd, deflate		(2024-05-11〜)
	host:host
	
CloudFlare-AlwaysOnline
(2019-03-25) サイトがオフラインになった時に備え、サイトの内容をキャッシュしておく サービスらしいです。 CloudFlareの顧客専用。 オフライン目的ならサイトの内容ページ(.html)を持っていきそうなんですが、 画像を持っていくものしか観測していません。 Referer: に正しいURLを埋めてくるロボットは珍しい。 ただ、これは画像取得の際にReferer:を見て正当リンクでなかったら拒否、 というロジックをかいぐぐるために 渡している、らしいです。

UAに入っているURLは https: にリダイレクトされるので、 CloudFlareの例によってブラウザによってはアクセスできないURLです。

	GET /image.url HTTP/1.1
	User-Agent:Mozilla/5.0 (compatible; CloudFlare-AlwaysOnline/1.0; +http://www.cloudflare.com/always-online) AppleWebKit/534.34
	Accept:*/*
	Referer:correct referrer URL
	Connection:Keep-Alive
	Accept-Encoding:gzip
	Accept-Language:en,*
	Host:host
	
Cloud mapping experiment. Contact research@pdrlabs.net
(2019-08-24) http://www.pdrlabs.net/
While there are academic projects (such as Censys.io) that do effectively the same thing that we're doing, these projects have limits of use on the data. We are an industry group using this data to help build products and services that are used to manage and monitor the performance and security of large-scale networks. Because we build commercial tools, we're unable to take advantage of existing datasets and have undertaken this project which uses the same techniques and has similar goals to academic projects.
Censys.io などと目的は似てるらしいのですが商用利用したいため 車輪を再発明したということです。 /robots.txt を読む、ということですが実際は読みません。 GET / だけを行う。(たまに HEAD / もする) アクセス間隔は緩慢で、数日おき〜数カ月おき。
	ClientPTR: ec2-NN-NN-NN-NN.compute-1.amazonaws.com
	GET / HTTP/1.1
	Host:I.P.addr
	User-Agent:Cloud mapping experiment. Contact research@pdrlabs.net
	Accept:*/*
	Accept-Encoding:gzip
	
Confluence
(2019-11-28) Confluence は AtlassianのCMS+グループウェアみたいなものですが、 アクセス理由は不明。作成したページにURLを貼るとプレビューの 取得でもするんでしょうか。色々APIもあるようなので、 APIを叩いて取得させている可能性もあり。

HTTP的には X-Confluence-HTTP-Stack-Depth:1 という謎のヘッダを渡してくる。

なお http://www.atlassian.com/software/confluence は https://www.atlassian.com/software/confluence へのリダイレクトで、 HTTP/1.1 非対応のブラウザ (リリース版のLynx2.8.8とか)では アクセスできない仕様。 Confluenceの営業ページなのでUser-Agentに関する資料は無し。

	GET /path HTTP/1.1
	X-Confluence-HTTP-Stack-Depth:1
	User-agent:Confluence/5.9.4 (http://www.atlassian.com/software/confluence)
	accept-charset:utf-8
	Host:host

	GET /favicon.ico HTTP/1.1
	X-Confluence-HTTP-Stack-Depth:1
	User-agent:Confluence/5.9.4 (http://www.atlassian.com/software/confluence)
	Host:host
	
[cyberresilience.io scanner]
(2022-09-29) 不明。GET / しかしない。UAは古めのFirefox偽装。 逆引きが正直申告なのはありがたい。 同時間帯に 25 番(smtp)ポートをスキャンしている感じはないので、 HTTP のみのスキャナかもしれない。 スキャン間隔は1〜2週間おき。

Accept-Encoding: UTF-8というのは間違い。 読んでいるサーバーは極小でしょうから気づかれてないだけでしょうけど。

	ClientPTR: portscanner-nyc1-NN.prod.cyberresilience.io
	ClientPTR: portscanner-fra1-NN.prod.cyberresilience.io
	GET / HTTP/1.1
	Host:i.p.ad.dr
	Accept:*/*
	Accept-Charset:UTF-8
	Accept-Encoding:UTF-8
	Accept-Language:*
	User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:79.0) Gecko/20100101 Firefox/79.0
	
DataForSeoBot
(2021-10-01) SEO屋のバックリンク調査用の再帰ロボット。 2021-10-01 より観測。 User-Agent 中の URLには、 自分から 自分で言うものではない。 もちろんバックリンク情報は無償では開示してない。

このロボットも画像は持っていかないが、 .rpm は全部吸い上げていく。前口上の割には頭悪い。
<A href="opera:"> があると BASEPATH/opera: を吸い上げようとする。頭悪い。

	ClientPTR: static.125.224.76.144.clients.your-server.de [144.76.224.125]
	GET /path HTTP/1.1
	Host:host
	Connection:close
	User-Agent:Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot)
	Accept-Encoding:gzip, deflate, br
	Accept-Language:*		(2022-07-05〜)
	If-Modified-Since:random past timedate	(2022-05-14〜)
	Upgrade-Insecure-Requests:1
	

というか、SEO屋というのは市井ではバックリンク情報を提供する 会社のことを指すようになったんでしょうかね。 本来は Search Engine Optimization (検索サイトで上位に表示されるようにアドバイスする)が 仕事のはずなんですが。

(2023-01-12)頭悪そうな割には If-Modified-Since: を送るようになってきました。 ただ、入れてくる時刻は Last-Modified: でも最終取得時刻でもない。

datagnionbot
(2019-11-04) HEADしかしない。 SNSに投稿された短縮 URL のリダイレクト情況を調べる、 とUA中のURLには書いてある。 何を調べたいのかよくわからない。

UA中の http://www.datagnion.com/bot.html は https://www.datagnion.com/bot.html へのリダイレクト。

/robots.txt は読まない。読まれたくなければ support[@]datagnion.comに連絡しろ、とある。

	ClientHost: dapr-kvm05.datagnion.com [94.130.53.35]
	HEAD /SNS-posted-path HTTP/1.1
	User-Agent:datagnionbot (+http://www.datagnion.com/bot.html)
	Connection:close
	Host:host
	Accept:text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
	
Datanyze
(2021-10-14) 当サイトには (間違ったURLを最初にアクセスされたのを除くと) / しか取得されていないので、目的はよくわからない。 /robots.txt を持っていった形跡はない。

関連については裏が取れなかったが、 https://www.datanyze.com/pricing によると ビジネス用のメールアドレス、電話番号のリストを売っているようなので、 そういう情報を集めようとしているのかもしれない。

ヘッダ類は器用に Chrome の真似をしている。

	ClientPTR: *.vultr.com
	GET / HTTP/1.0
	Host:host
	Proxy-Connection:close
	User-Agent:Mozilla/5.0 (X11; Datanyze; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Language:en-US,en;q=0.5
	Accept-Encoding:gzip, deflate
	DNT:1
	Referer:http://host
	Origin:http://host
	sec-ch-ua:" Not;A Brand";v="99", "Google Chrome";v="65", "Chromium";v="65"
	sec-ch-ua-mobile:?0
	sec-gpc:1
	Connection:close
	
[Datasift.com/bot]
(2020-04-15) http://datasift.com/bot.html は例によって https://datasift.com/bot.html に強制リダイレクト。最初からそう書け。 SNS等に書かれたURLのメタデータチェックをする、ということですが。 /robots.txt は読まない。 なんで Accept: に application/x-httpd-php が入っているのかは意味不明。 (※Apache HTTPdの内部でしか意味をなさないメタMIMEタイプ)
	ClientHost: sftNNN.sysms.net [185.20.6.NN]
	GET /path HTTP/1.1
	Host:host
	User-Agent:Mozilla/5.0 (TweetmemeBot/4.0; +http://datasift.com/bot.html) Gecko/20100101 Firefox/31.0
	Accept:text/*,application/xhtml+xml,application/xml,application/x-httpd-php
	Accept-Encoding:gzip
	
DecompilationBot
DongleEmulatorBot
Discordbot
(2019-09-08) Discordはボイス・テキストチャットアプリサービスらしいですが、 UA中にある https://discordapp.com はただの「ホームページ」で、 ロボットについての記述は無い。 たぶんテキストチャットに貼り付けられたURLのメタデータ収集を してるんだと思いますが、詳細不明。 /robots.txtは読まない。 https://discordapp.com は Accept-Language: で表示言語が切り替わる 凝ったつくりになっていますが、 ロボットのほうのHTTPヘッダは最低限のものしかついていない。
	ClientHost: *.35.bc.googleusercontent.com [35.*.*.*]
	GET /path HTTP/1.1
	User-Agent:Mozilla/5.0 (compatible; Discordbot/2.0; +https://discordapp.com)
	Host:host
	
DongleEmulatorBot
(2023-08-04) 不明。HEAD /robots.txt しかしない。 UA 中のURLには

Webcrawler

If my webcrawler bot annoys/abuses you/your website, please drop me a note: bot@yurichev.com

The webcrawler doesn't honor robots.txt. But so is the Internet Archive.

と書いてある(これで全文)が、Internet Archive (ia_archiver) は robots.txt は順守しているので、無知と言える。

UA は DecompilationBot, DongleEmulatorBot, ReverseEngineeringBot を 入り混ぜて使用。使い分けられ方は不明。

	ClientPTR: 98.ip-179-103-190.cdmx.mx.ipxon.net (2023-02-09)
	ClientPTR: li695-198.members.linode.com [88.80.187.198] (2023-07-22〜)
	HEAD /robots.txt HTTP/1.1
	Host:host
	User-Agent:Mozilla/5.0 (compatible; DecompilationBot/0.1; +https://torus.company/bot.html)
	User-Agent:Mozilla/5.0 (compatible; DongleEmulatorBot/0.1; +https://torus.company/bot.html)
	User-Agent:Mozilla/5.0 (compatible; ReverseEngineeringBot/0.1; +https://torus.company/bot.html)
	Accept-Encoding:gzip, deflate
	Accept:*/*
	Connection:keep-alive
	
D-RINE Spider

(2023-04-03) プライバシーに配慮しているという触れ込みの メタ検索エンジン用ロボット。 メタ検索エンジンは自力では末端サイトの情報は取りに行かないのが普通だが、 徐々に締め出されている ということで自力でも取りに行く、ようになったらしい。

オープンソースということだが、 提示されているGitHubのソースコード の User-Agent は searx/1.1.0 なので、 実質は公開されていないロボットを使っているものと思われる。

	GET /path HTTP/1.1
	Host:host
	Accept-Encoding:x-gzip, gzip, deflate
	User-Agent:drinespider/Nutch-1.19 (D-RINE Spider; www.d-rine.com/search/about; www.d-rine.com/contact)
	Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3
	Accept-Charset:utf-8,iso-8859-1;q=0.7,*;q=0.7
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Connection:close
	
DuckDuckBot-Https
(2018-11-02)

画像だけを取得しに来ます。 DuckDuckGo は 画像検索は行っていないので、将来の画像検索のための 準備活動? Referer: に正規のURLを渡してくるロボットは珍しい。

User-Agent に ' が付加されてしまっているのはご愛敬。

	GET /image-url.gif HTTP/1.1
	Referer: linked HTML
	User-Agent:'Mozilla/5.0 (compatible; DuckDuckBot-Https/1.1; https://duckduckgo.com/duckduckbot)'
	Accept:*/*
	Connection:Keep-Alive
	Accept-Encoding:gzip, deflate
	Accept-Language:en-US,*
	Host:host
	
[DuckDuckGo-Edg-collector]

(2024-10-22) DuckDuckGo は User-Agent: DuckDuckBot/1.1; ... で収集をしているかと思ってたんですが、 実際は Chrome Edgeに偽装した UA で収集を行っているようです。 つまり、robots.txt での特定のUAだけ許可、が仕様上、効かない。

偽装しているのはUAだけで、他のヘッダが無いので、 他のヘッダを収集していれば区別できないこともない。 アクセス元は Microsoft 管内なので、 Azureで動かしているのかもしれない。

	ClientAddr: 20.197.112.233 et al (Microsoft (Azure?))
	GET /echoserver.html HTTP/1.1
	User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36 Edg/128.0.0.0
	Host:host
	Connection:Keep-Alive
	no Accept:, Accept-Language, Accept-Encoding
	
Edge

(2018-10-12) Windows 10 に装備されている標準ブラウザ。 HTMLエンジンは Trident (MSIE) からのフォークのはずですが、 UAはChromeの真似をしています。 そんなに Chrome依存の Browser Sniffing って広く行われてるんですかね。

	Accept:text/html, application/xhtml+xml, image/jxr, */*
	Accept-Language:ja,fr-FR;q=0.7,fr;q=0.3
	User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.135 Safari/537.36 Edge/12.10240
	Accept-Encoding:gzip, deflate
	Host:host
	Connection:Keep-Alive
	
ELB-HealthChecker

(2024-03-08) AWS の Elastic Load Balancer が、 配下の実サーバの死活監視をするためのアクセス。 頻度は変えられるが、デフォルトは1分間隔の模様。 ちょっと頻繁かな?

Accept-Encoding: gzip, compressed というのは間違いだと思う。 (compressが正解) 今時 compress 使う人はいないのでどうでもよいんですが。

	GET / HTTP/1.1
	Host: 10.n.n.n
	Connection: close
	User-Agent: ELB-HealthChecker/2.0
	Accept-Encoding: gzip, compressed
	
Exabot-Thumbnails
(2020-11-22) 詳細不明。Exalead社の Exabot/3.0 とは全く異なる。 端末にインストールされる何かのようですが、単なるサムネール取得にしては アクセスが頻繁かつ連続・広範囲で、検索エンジンロボットのようにも見える。 /robots.txt は読まない。アクセス元はサーバではなく端末。

Konqueror っぽい User-Agent になってますが、他のヘッダが 本物とは全然違う ので、 単に詐称しているだけと考えられる。 Referer: も意味のないURLを渡してくる。 Accept-Encoding: windows-1252,utf-8;q=0.7,*;q=0.7 を渡す偽装検索エンジンロボット風のアクセスはよく見かけるので、 その構築キットを使っているのかもしれない。

	GET /path HTTP/1.1
	Referer: http://wrong.server.name
	Accept-Encoding:gzip, deflate
	User-Agent:Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Exabot-Thumbnails)
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Language:en-us;q=0.5,en;q=0.3
	Accept-Charset:windows-1252,utf-8;q=0.7,*;q=0.7
	Host:host
	Connection:Keep-Alive
	
[Expanse scanner]
(2022-07-18) 「セキュリティスキャナ」。 Palo Alto が買収した Expanse のスキャナと思われる。

スキャン間隔は数日に一回、/ だけを取得。 HTTPヘッダ類は最小限だが、 UAに4行にもなるような文字列を入れてくる。 https://expanse.co にはこのロボットに関する記述はない模様。

	ClientHost: NN.NN.NN34.bc.googleusercontent.com [34.NN.NN.NN]  (2021-02-14〜2022-04-25)
	ClientHost: [205.210.31.*] (paloaltonetworks.com)
	ClientHost: [198.235.24.*] (paloaltonetworks.com)
	GET / HTTP/1.1
	Host:host
	User-Agent:Expanse, a Palo Alto Networks company, searches across the global IPv4 space multiple times per day to identify customers&#39; presences on the Internet. If you would like to be excluded from our scans, please send IP addresses/domains to: scaninfo@paloaltonetworks.com
	
買収発表が2020/12/15なので、それ以前は別の名前で活動していたと 思われるのだが、見つけられず。

facebookexternalhit
(2019-12-11) FacebookにURLを貼るとプレビューが生成されるが、 そのときのアクセス。 最初の 512kB だけ取得しに来る。

User-Agent:中の URLは https: にリダイレクトされるが、 「古い」ブラウザは問答無用で「ブラウザーをアップデートしてください」 (https://www.facebook.com/unsupportedbrowser)に飛ばされる。 ので余計なJavaScriptとかを取り除いた ローカルコピー を用意しました。

参考文献:How To Blow Your Online Cover With URL Previews

	ClientAddr: (no PTR)
	GET /path HTTP/1.1
	Accept:*/*
	Accept-Encoding:deflate, gzip
	User-Agent:facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
	Range:bytes=0-524287
	Host:host
	Connection:close
	
FAST-WebCrawler
(2023-06-12) 不明。 UA中の http://www.alltheweb.com/help/webmaster/crawler にアクセスしても
HTTP/1.1 301 Moved Permanently
Location: http://search.yahoo.com/help/webmaster/crawler
	
で Yahoo.com のページに飛ばされるだけ。 301 Moved Permanently ということは、まともなロボット紹介ページを 書く気はないよ、ともとれる。 crawler@trd.overture.com には MX レコードもAレコードも無く、メールは不達。 発信源は digitalocean.com の配下で、一見 Yahoo!とは関係がない。
	GET / HTTP/1.1
	Host:host
	User-Agent:FAST-WebCrawler/3.8 (crawler at trd dot overture dot com; http://www.alltheweb.com/help/webmaster/crawler)
	Accept-Charset:utf-8
	Accept-Encoding:gzip
	Connection:close
	
fidget-spinner-bot

(2023-11-06) 不明な再帰ロボット。2023-10-27 から観測。 AWSの us-west-2 (Oregon) に展開。 初期のものは連続取得がひどかったが、今のものは5秒くらい 取得間隔を空けてくる模様。 画像は取得しない。*.html のみという渋い仕様。

	ClientPTR: ec2-NN-NN-NN.us-west-2.compute.amazonaws.com
	GET /path HTTP/1.1
	Connection:close
	Host:host
	User-Agent:test-bot	2023-10-26〜2023-10-30
	User-Agent:fidget-spinner-bot	2023-10-31〜
	User-Agent:thesis-research-bot	2023-11-07〜
	Accept-Encoding:gzip,deflate
	
fluid
(2021-10-01) おそらく逆リンク探索用ロボット。 2021/07/29 より観測。 通常のSEO屋のサービスと違い、無償である程度の バックリンク情報を提供しています。 http://www.leak.info/cgi-bin/leak.cgiの [FIND INCOMING LINKS] から CAPCHA の文字列を入力すれば検索できる。

当サイトでは再帰動作は確認されず、 /robots.txt の取得のみ観測。

	ClientPTR: salnikov1.serv-dns.ru [194.93.0.40]
	GET /robots.txt HTTP/1.0
	Host:host
	User-Agent:Mozilla/4.0 (compatible; fluid/0.0; +http://www.leak.info/bot.html)
	Accept:*/*
	
FxiOS
(2019-11-11) iOS用のFirefox ということだが、素 Mac OS X 用のものも散見される。 /favicon.ico の取得がかなりしつこく、 誤検知されやすいMobile Safari並み。

iPhone/iPad 版のものは、/favicon.ico の他になぜか /basepath/favicon.ico を取得しようとする。 (大昔にも同じことをするブラウザがあったはずだが、失念)

	GET /path/favicon.ico HTTP/1.1
	Host:host
	Accept:image/*;q=0.8
	Accept-Language:ja-jp
	Connection:keep-alive
	Accept-Encoding:gzip, deflate
	User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 13_1_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) FxiOS/19.1b16203 Mobile/15E148 Safari/605.1.15

	(素Mac OS Xらしきもの)
	GET /path HTTP/1.1
	Host:host
	Accept:*/*
	Accept-Language:ja-jp
	Connection:keep-alive
	Accept-Encoding:gzip, deflate
	User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15) AppleWebKit/605.1.15 (KHTML, like Gecko) FxiOS/20.1 Safari/605.1.15
	
[gdnplus.com scanner]
(2022-07-18) 不明。 / しか持って行かない。 Host: ヘッダすらついていないので、それでも収集できるデータ (Server: とか Date: か?)を収集しているものと思われる。 その割には収集間隔は頻繁で、数日おき。

https://gdnplus.com/about/には

Global Digital Network Plus scours the global public internet for data and insights.
としか書いておらず、目的については不明。

	GET / HTTP/1.0
	User-Agent:https://gdnplus.com:Gather Analyze Provide.
	Accept:*/*	(半分くらいの割合で、無い場合もあり)
	No Host:
	
GenomeCrawlerd

(2024-10-23) 2024-03-08より観測。 UA に余計な ' がついている。 UA中の記載によると、 インターネット上の APIエンドポイント (internet endpoint)の探索を行うらしい。 再帰型ではなく、いくつかのURLパスを決め打ちでアクセスしに来る。 /robots.txt 非対応。 1回のスキャンは数分間の間隔があく。

Host:I.P.ad.dr なので、 <VirtualHost>非対応。 正確なスキャンはできてない気もする。

	ClientPTR: *.eu-west-2.compute.amazonaws.com
	GET /favicon.ico HTTP/1.1
	GET /manage/account/login HTTP/1.1
	GET /index.html HTTP/1.1
	GET /+CSCOE+/logon.html
	GET /cgi-bin/login.cgi HTTP/1.1
	GET /login.jsp HTTP/1.1
	GET /doc/index.html HTTP/1.1
	GET / HTTP/1.1 
	Host:I.P.ad.dr
	User-Agent:'Mozilla/5.0 (compatible; GenomeCrawlerd/1.0; +https://www.nokia.com/networks/ip-networks/deepfield/genome/)'
	Accept:*/*
	Accept-Encoding:gzip
	
ggpht.com GoogleImageProxy
(2019-03-07) Gmail に画像を貼り付けたHTMLメールを送ると、 Googleの検疫Proxyを経由したURLになる、らしいです。
参考情報:Apache logs flooded with connections - “(via ggpht.com GoogleImageProxy)”

Via:とかはつかないので、本来のアクセス元は不明。 User-AgentもFirefox似で固定。

	GET /image HTTP/1.1
	Host:host
	Connection:keep-alive
	User-Agent:Mozilla/5.0 (Windows NT 5.1; rv:11.0) Gecko Firefox/11.0 (via ggpht.com GoogleImageProxy)
	Accept-Encoding:gzip,deflate,br
	Accept-Encoding:gzip, deflate, br	(2021/05/13-)
	
Google-Apps-Script
(2022-03-25) Google Apps ScriptUrlFetchApp.fetch() メソッドによるアクセス。 HTTPエンジンなので、用途については不定。 API上は カスタムHTTPヘッダを追加 することも可能だが、素では UA と Accept-Encoding: しかない模様。
	GET /path HTTP/1.1
	Host:host
	Connection:keep-alive
	User-Agent:Mozilla/5.0 (compatible; Google-Apps-Script; beanserver; +https://script.google.com; id: UAEmdDd-OJHkkUEp3wY0zxZyMNaEcLcqqfHg)
	Accept-Encoding:gzip, deflate, br
	
Googlebot

(2018-10-12) 再帰型検索エンジン用ロボット。 通常のUAでも十分汚いのに、 Googlebotがこんな汚いUAを使っているのは、 レンダリングエンジンに Chromeを使用 してるためのようです。 JavaScriptで<div>の中身を埋めているようなページが 増えてきたための仕方ない処置でしょうかね。

クローラにしては非常に珍しくIf-Modified-Since: を渡してくる。 帯域削減に非常に有効なのですが、ほとんどのロボットは対応していない。 ただ、Googlebot は そのドキュメントの Last-Modified: ではなく、 最後に取得した時刻を入れている模様。 Apache httpd ではそれでも動作するが、古い Netscape HTTPD とかは 完全一致でしかチェックしてなかったと思うので、 ちゃんと帯域削減できているかは Webサーバの実装依存。

	(2018-10-12時点)
	GET /path HTTP/1.1
	Host:host
	Connection:keep-alive
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	From:googlebot(at)googlebot.com
	User-Agent:Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)	通常版
	User-Agent:Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)	汚い版
	Accept-Encoding:gzip,deflate,br
	If-Modified-Since:date
	
	(2022-03-27時点)
	GET /path HTTP/1.1
	Host:host
	AMP-Cache-Transform:google;v="1..8"	ヘッダは2019-03-09より付与、この形式は 2021-08-06〜
	Connection:keep-alive
	Accept:text/html,application/xhtml+xml,application/signed-exchange;v=b3,application/xml;q=0.9,*/*;q=0.8
	From:googlebot(at)googlebot.com
	User-Agent:Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)	通常版
	User-Agent:Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.82 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)	汚い版
	Accept-Encoding:gzip, deflate, br
	If-Modified-Since:RFC1123 date of last crawl
	
Google+ web/snippet
(2019-10-02) (Wayback)https://developers.google.com/+/web/snippet/
Google+ にURLを貼り付けるとプレビューが表示されるらしいです。 そのプレビュー生成のためのアクセス。 /favicon.ico を持っていかない以外は普通のブラウザのアクセスと 一見あまり変わりないように見えたりします。 内部のレンダリングエンジンは Chrome headless を使っているのかも。

Google+ は 2019/05にサービス停止しているのですが、 それ以降もたまに観測されるのはなぜだろう。

	GET /content,image path HTTP/1.1
	Host:host
	Connection:keep-alive
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36 Google (+https://developers.google.com/+/web/snippet/)
	Accept-Encoding:gzip,deflate,br
	
googleweblight
(2019-09-03) Google の ページ軽量化サービス、 Web Light 変換プロクシを経由したもの。 http://googleweblight.com/i?u=URL で起動できる。 ケータイ端末での検索結果がこれ経由にされている場合もある。 スピード計測のための余計なJavaScriptが大量に追加されてくるので、 必ず軽くなるというわけでもない。

User-Agent などは元のブラウザに関係なく固定。 Accept-Languageくらいは素通ししてもいいんじゃないかと思うんですが。

	ClientHost: google-proxy-64-233-172-188.google.com [64.233.172.188]
	GET /path HTTP/1.1
	Host:host
	Accept-Language:en-US
	Connection:keep-alive
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	User-Agent:Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19
	Accept-Encoding:gzip,deflate,br
	X-Forwarded-For:client-ip-addr
	
GPTBot
(2023-08-09) OpenAI用の再起クローラ。 2023-08-09 より観測。 以前は画像は持って行かなかったが、2024年ころからのものは 画像もバイナリファイルも採集する。やめれ。 /robots.txt は最初に取得、 連続取得時は3秒間隔を空けてくる。行儀が良い。

UA中の https://openai.com/gptbot は https://platform.openai.com/docs/bots/ へのリダイレクト。 JavaScript/Cookie が使えないと 403 になる。 このページに載っているUAは実際のものとは微妙に違う (カッコの位置が違う, GPTBot/1.1 は使われていない) ので、 あまり真面目にメンテナンスされているページではなさそう。

	ClientIPA: 40.83.2.74 et al
	GET /textpath HTTP/1.1
	User-Agent:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
	User-Agent:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)	(2024-11-13〜)
	Accept-Encoding:gzip, deflate, br
	Accept-Encoding:gzip, br, deflate	(2024-05-26〜)
	Accept:*/*
	Host:host
	Connection:keep-alive
	

2024-05-26 からのものは Accept-Encoding の順番が変わっているが、 ;q= を付けない限り HTTP的には優先順は同じはず。 deflate で圧縮してくるサーバーがいたんだろうか?

gzip(gfe)
Googleの翻訳サービスを使った際によく観測されます。

Forensic log を取っていてもはっきりわからないんですが、たぶん間違って User-Agent: gzip(gfe) のように 使われているんではないかと。 本来なら Accept-Encoding: gzip(gfe)になるべきですが、 IIS が食えない らしい。

	User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.102 Safari/537.36 Viv/2.0.1309.37,gzip(gfe)
	User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0,gzip(gfe)
	User-Agent: Opera/9.80 (Windows NT 5.1) Presto/2.12.388 Version/12.18,gzip(gfe)
	
[Hello, World]
(2018-11-11) GPONルータの脆弱性スキャナ。 どういうわけか forensic_log が残らないので、下記ヘッダ類は 収集できたもののみです。 参考:ハニーポットのログ分析(2018/09/22)
	POST /GponForm/diag_Form?images/ HTTP/1.1
	User-Agent: Hello, World
	User-Agent: CarlosMatos/69.0
	User-Agent: Gemini/2.0
	Accept: */*
	Accept-Encoding: gzip, deflate
	
Hello World [rootlayer.net .bd]
(2022-04-19) 不明。2022-03-22 より観測。 バングラディシュ(.bd) のプロバイダ rootlayer.net に生息。 1時間に1回ほどの割合で、 / だけを取りに来る。 HTTPヘッダはHTTP/1.1に必要な最低限の物しかついていない。
	ClientPTR: 110-49-31-64.static.reverse.lstn.net [64.31.49.110] (2022-03-04〜03-25)
	ClientPTR: 103-178-237-76.hosted-by.rootlayer.net [103.178.237.76] (2022-04-10)
	ClientPTR: hosted-by.rootlayer.net [103.178.236.75] (2022-04-11〜)
	GET / HTTP/1.1
	Host:I.P.ad.dr:80
	User-Agent:Hello World
	
[hetzner.de fake Firefox robot]
(2019-09-19) 不明。hetzner.deの領域から、/robots.txt と .htmlを採りにくる。 間隔は1ヶ月に1回程度。 User-Agent は古めのFirefoxを詐称してくる。 他には以下のような特徴で判別できそうです: ドイツで動かしているのに Accept-Language:en-gb,en;q=0.5 なのが謎。 (Hetznerのホスティングを使ってるだけかもしれませんが) →[trendiction.de fake Firefox robot]
ClientHost: p161n4 [94.130.167.82]
GET /path HTTP/1.1
Accept-Charset:ISO-8859-1,utf-8;q=0.7,*;q=0.7
Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Cache-Control:max-age=0
User-Agent:Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.14) Gecko/20080508 Ubuntu/8.04 (hardy) Firefox/51.0.1 
User-Agent:Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.9b5) Gecko/2008032620 Firefox/52.6.0 
User-Agent:Mozilla/5.0 (X11; U; Linux i686; fr; rv:1.9.0.3) Gecko/2008092510 Ubuntu/8.04 (hardy) Firefox/52.4.1 
User-Agent:Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.11) Gecko/20080201 Firefox/52.7.3 
User-Agent:Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.0.2) Gecko/2008092318 Fedora/3.0.2-1.fc9 Firefox/53.0 
User-Agent:Mozilla/5.0 (X11; U; Linux i686; de; rv:1.9.0.9) Gecko/2009042113 Ubuntu/9.04 (jaunty) Firefox/52.7.4
Connection:close
Refresh-Cache:1
Accept-Language:en-gb,en;q=0.5
Pragma:no-cache
Host:host
Accept-Encoding:gzip
	
Hi
(2019-10-04) なんかのスキャナだと思われますが詳細不明。
要求がHTTP/1.1で Host: ヘッダが無いと Apache は forensic_log を 記録してくれないため、
[Thu Oct 03 23:18:10 2019] [error] [client 200.78.207.54] client sent HTTP/1.1 request without hostname (see RFC2616 section 14.23): /Pages/login.htm
下記ヘッダは収集できたもののみです。たぶんこれで全部だと思う。
	ClientAddr: various
	GET /Pages/login.htm HTTP/1.1
	User-Agent: Hi
	Accept: */*
	Accept-Language: en-us
	Cache-Control: max-age=0
	
[protected by hidemyip.com]
(2021-10-11) アクセス数が少ないのでよくわからんのですが、 たぶん Squid に設定を施しただけの匿名化プロクシだと思うんですが。 なぜ特徴のある User-Agent に書き換えているのかはよくわからない。 たぶん User-Agent:, Referer: だけを置き換えている。
	ClientAddr: [185.112.156.220] (mikrovps.net, .hu)
	GET /favicon.ico HTTP/1.1
	User-Agent:Mozilla/5.0 compatible; MSIE 9.0; Windows NT 4.1 Chrome/31.0.1229.79
	DNT:1
	Accept:original Accept:
	Referer:protected by hidemyip.com
	Accept-Encoding:gzip, deflate
	Accept-Language:en-US,en;q=0.9
	Host:host
	Cache-Control:max-age=259200
	
HTTP Banner Detection
(2018-10-14) UAに入っている https://security.ipip.netを見ても、 何を調べたいのかはさっぱりわからない。 Host: がIPアドレスなので、VirtualHostに拠らない何かを調べるんでしょう。 Server: ヘッダとか? 2018-10-08 までは Go-http-client/1.1のままでした。
	Client-PTR: scan-nn.security.ipip.net
	GET / HTTP/1.1
	Host:IP.Address
	User-Agent:Go-http-client/1.1	~2018-10-08
	User-Agent:HTTP Banner Detection (https://security.ipip.net)	2018-10-11~
	Connection:close
	
HTTrack

(2021-09-03) Webサイトのオフライン閲覧用のミラーツール HTTrack。 再帰動作をする。

/robots.txt は持っていくようだが、実際は 全く無視される。 巨大な .rpm とかも全部吸い上げていく。 /robots.txt は効かないので、httpd.conf などでのアクセス制限を 強く推奨。

	GET /path HTTP/1.1
	Referer:seemingly valid Referer
	Connection:keep-alive
	Host:host
	User-Agent:Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)
	Accept:text/html,image/png,image/jpeg,image/pjpeg,image/x-xbitmap,image/svg+xml,image/gif;q=0.9,*/*;q=0.1
	Accept-Language:en, *
	Accept-Encoding:gzip, identity;q=0.9
	
[unknown hz.zj.cn scanner 1]
(2022-09-16) 中国からの意図不明なスキャナ。 2020-04-23 より観測。 /, /robots.txt, /favicon.ico を半月に一回くらいの頻度で取りに来る。 常に Host: にIPアドレスをつけてくるので、 再帰型ロボットではないスキャナと考えられる。 UA は中華Chromeと、古いFirefoxを詐称している。 使い分けられ方は不明。 本物とは若干違うし、Accept-Languageがないので、 知っていれば検出はできる。
	ClientIPA: [183.136.225.*] [183.136.226.*]

	GET /favicon.ico HTTP/1.1
	Host:I.P.ad.dr:80
	User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE
	Accept:*/*
	Accept-Encoding:gzip
	Connection:close

	GET / HTTP/1.1
	Host:I.P.ad.dr:80
	User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:47.0) Gecko/20100101 Firefox/47.0
	Accept:*/*
	Connection:keep-alive
	
ia_archiver
(2019-09-01) Internet Archive (www.archive.org) の収集ロボット。 取得間隔は非常に緩慢。 正確な時期は忘れましたが2015年ごろから稼動ホストが 独自PTRを持つホストからAmazon AWS に移っています。
	ClientHost: *.compute-1.amazonaws.com
	GET /content HTTP/1.0
	Connection:close
	Host:host
	User-Agent:ia_archiver
	From:crawler@alexa.com
	
ICC-Crawler
(2020-05-01) 再帰収集ロボット。 UA中のURLは英語での説明だが、 日本語の説明書きはhttp://ucri.nict.go.jp/icccrawler.html にある。 「研究用です」以外に詳しい情報は無い。 もう少し掘ってみると、 日本語コーパス構築用の Heritrix ロボットが元になっている、とある。 Accept-Language:ja からもその意図は読み取れる。

/robots.txt の取得はきっちり1日に1回。

もっぱら .html を取得し、画像は持っていきませんが、 .rpm は取得する。謎。 If-Modified-Since を渡してくる。珍しい。 (トラヒック低減のためには非常に有効ですが、実装がめんどくさいので 対応ロボットは多くない)

	ClientHost: gw.ucri.jgn-x.jp [202.180.34.186]
	GET /path HTTP/1.1
	User-Agent:ICC-Crawler/2.0 (Mozilla-compatible; ; http://ucri.nict.go.jp/en/icccrawler.html)
	Accept:text/html;q=0.9,*/*;q=0.5
	Accept-Language:ja
	If-Modified-Since:Tue, 06 Nov 2001 16:53:42 GMT
	Host:host
	Connection:close
	
Iframely
(2022-03-12) 2022-01-06より観測。 メディア埋め込みサービス用?のデータ取得ロボット、とある。 再帰型ではない。 他人のメディアファイル類を自分のページに埋め込む ために、メタデータ収集やデータキャッシュ、変換を行う、とある。

/robots.txt は読まない。 メタデータ収集のためか、/favicon.ico の取得も行う点が他のロボットと違う。 (※/favicon.icoの取得有無でのロボット判別は効かない)

ソースコードを見る限り、 UAに埋め込まれるURLは動的のようだが、 実際に観測しているのは下記のもののみ。

	ClientHost: ec2-*.compute-1.amazonaws.com, http-3-NN-NN-NN.iframely.com (AWS region)
	GET /path HTTP/1.1
	user-agent:Iframely/1.3.1 (+https://iframely.com/docs/about) Atlassian
	accept:*/*
	accept-language:en-US;q=0.9,en;q=0.7,*;q=0.5
	host:host
	accept-encoding:gzip,deflate,br
	Connection:keep-alive

	GET /favicon.ico HTTP/1.1
	user-agent:Iframely/1.3.1 (+https://iframely.com/docs/about)
	host:host
	accept:*/*
	accept-encoding:gzip,deflate,br
	Connection:close
	no Accept-Language
	
ImageFetcher
(2019-01-02) 画像加工プロクシ。 http://images.weserv.nl/?url=host/path.jpg などとリクエストを出すと代理で画像を取得する。 サイズ変更なども可能。

Via: や X-Forwarded-For: がつかないので、どこのクライアントから 取得しようとしたのかはわからない。 画像以外は読めないので、通常の匿名プロクシとしては使用不可。

	User-Agent:Mozilla/5.0 (compatible; ImageFetcher/8.0; +http://images.weserv.nl/)
	Host:host
	No Via:, X-Forwarded-For:
	
ImagesiftBot
(2024-01-02) *.available.above.net からの正体不明再帰クローラは ImagesiftBot と判明。画像検索エンジンらしい。 →[unknown br,gzip robot] 珍しく If-Modified-Since に対応。

https://imagesift.com/about では、 /robots.txt に User-Agent: ImagesiftBot と書けば 制御はできる、と書かれているが、 画像ではなく *.html を採集する時は Chrome に偽装してくるので、 完全対応はしていない。 ImagesiftBot を名乗るようになったのは 2023-11-24以降だが、 その後も Chrome偽装 による取得は*.html, 画像とも観測されている。 完全に "ImagesiftBot" には移行していない。 つまり仕様上は /robots.txt に User-Agent: ImagesiftBot と書いても効果はない。

	※HTML取得時は古めの Chrome に偽装
	ClientPTR: 64.124.8.NN.available.above.net [64.124.8.NN]
	GET /path.html HTTP/1.1
	User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3
	Accept-Charset:utf-8,iso-8859-1;q=0.7,*;q=0.7
	Accept-Encoding:br,gzip
	Host:host
	Connection:Keep-Alive
	
	(2023-11-24〜)
	※画像取得時は ImagesiftBot を名乗る、場合もある
	ClientPTR: 64.124.8.NN.available.above.net [64.124.8.NN]
	GET /path HTTP/1.1
	User-Agent:Mozilla/5.0 (compatible; ImagesiftBot; +imagesift.com)
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3
	Accept-Charset:utf-8,iso-8859-1;q=0.7,*;q=0.7
	If-Modified-Since:Tue, 14 Nov 2023 06:12:42 GMT
	Accept-Encoding:br,gzip
	Host:host
	Connection:Keep-Alive
	
img2dataset
(2023-07-27) 高速画像収集専用クローラ。 AIの学習用に、となっているが、 最終的にどのような意図で使用しているのかは利用者によるので不明。 User-Agent:の img2dataset; の部分が設定可能

/robots.txt には対応しておらず、X-Robots-Tag: ヘッダによる制御のみ。

	ClientPTR: ec2-NN-NN-NN-NN.compute-1.amazonaws.com
	GET /~kabe/linux/c7-i586/snap6.jpg HTTP/1.1
	Accept-Encoding:identity
	Host:host
	User-Agent:Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:72.0) Gecko/20100101 Firefox/72.0 (compatible; img2dataset; +https://github.com/rom1504/img2dataset)
	Connection:close
	
[inf-net.ru unknown robot]
(2020-04-11) 不明。再帰型ロボット。コンテンツ系だけ取得し、画像は持っていかない。 /robots.txt も持っていかない。

同一アドレス帯では、偽装yandex.ruのロボット も動いているので、それと関係しているのかもしれない。

この Accept: は Chrome 世代のブラウザのものの真似。 MSIE 6.0 の頃は application/xhtml+xml は発明されていなかったので、 Accept: を収集していればすぐに区別はつく。

	ClientHost: [5.188.211.*] (inf-net.ru)
	GET /path HTTP/1.1
	Connection:close
	User-Agent:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Host:host
	
[internet-census.org scanner]
(2019-09-05) https://www.internet-census.org/
Internet Census Group seeks to measure the global Internet with non-intrusive data collection techniques in order to analyze trends and benchmark security performance across a broad range of industries.

We provide some of this data to system operators so they can remediate any issues.

とはいっても調査結果が公表されているとかいうわけでもない。

/robots.txt は読まない。 スキャンされたくなければ optout@internet-census.org に連絡せよ、とある。 IoT機器は/robots.txtは持ってないのでまぁしょうがないのかもしれませんが。

User-Agent はChrome偽装だが、他のヘッダ類がChromeとは違うので 他のヘッダを集めていれば区別はつく。 スキャナはZMapを使っているらしいです。

	ClientAddr: survey.internet-census.org [128.14.134.134]
	GET / HTTP/1.1
	Host:I.P.ad.dr
	User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36
	Accept:*/*
	Accept-Encoding:gzip
	
InternetMeasurement

(2022-09-25)ポートスキャナ。2022-02-23 より観測。 3日に1回、/ だけを取りに来る。

以前はユーザ登録しないとデータ閲覧はできなかったようだったが、 今は https://driftnet.io/ からスキャン結果を閲覧できる。

逆引きと UA をちゃんと設定しているのは評価できる。

	ClientPTR: *.internet-measurement.com
	GET / HTTP/1.1
	Host:I.P.ad.dr
	User-Agent:Mozilla/5.0 (compatible; InternetMeasurement/1.0; +https://internet-measurement.com/)
	Connection:close
	Accept:*/*
	Accept-Encoding:gzip
	
[JuziBrowser]
(2019-01-16) Drupal の脆弱性スキャナ。 Botnetを通して使われるので、クライアントアドレスは違うものから 連続してアクセスが来ます。

偽Referer: の他に Origin: もつけてくる。 User-Agent に識別可能な文字列を入れてくるスキャナは珍しい。

	GET /?q=node/add HTTP/1.1
	Host:host
	Connection:Keep-Alive
	User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0; JuziBrowser)
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Language:en-US,en;q=0.5
	Accept-Encoding:gzip, deflate
	DNT:1
	Referer:http://host/
	Origin:http://host/
	
KZ BRAIN Mobile
(2018-11-10)
<meta name="description" lang="ja" content="KZ BRAIN Mobile(ケーズブレイン モバイル)は、PCサイトをモバイル端末向けに変換するサイトです。[URL] http://servermobile.net" />
X-Forwarded-For: ヘッダなどにつけるのが一般的なクライアントIPアドレスが User-Agentの末尾につく。 判別ロジックを組んでおかないとUA統計情報が汚れるかも。 目立たないが User-Agent は設定で何種類かに設定可能。
	Host:host
	User-Agent:Mozilla/5.0 (compatible; KZ BRAIN Mobile; http://servermobile.net) @client-ip-addr デフォルト、Mozilla/5.0
	User-Agent:DoCoMo/2.0 SH905i(c100;TB;W24H16) [kzm @client-ip-addr] DoCoMo
	User-Agent:KDDI-SA3A UP.Browser/6.2.0.13.1.4 (GUI) MMP/2.0 [kzm @client-ip-addr]	au by KDDI
	User-Agent:SoftBank/1.0/912SH/SHJ002 Browser/NetFront/3.4 Profile/MIDP-2.0 Configuration/CLDC-1.1 [kzm @client-ip-addr]	Softbank
	User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 5_1 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9B179 Safari/7534.48.3 [kzm @client-ip-addr]	iPhone
	User-Agent:Mozilla/5.0 (Linux; U; Android 2.1-update1; ja-jp; SonyEricssonSO-01B Build/2.0.B.0.138) AppleWebKit/530.17 (KHTML, like Gecko) Version/4.0 Mobile Safari/530.17 [kzm @client-ip-addr]	Android
	Connection:close
	Accept-Encoding:gzip
	Accept-Charset:Shift_JIS,utf-8;q=0.7,*;q=0.7
	Accept-Language:ja
	
l9explore
(2022-08-19) 脆弱性スキャナ。 公開されているものは l9explore/1.2.2 だが、 開発元と思しき領域からは l9explore/1.3.0 も 観測されているので、 そのうち公開されるのか、ローカルに秘匿したままなのか、今後に期待。 公開されているツールなので、開発元以外からのアクセスも散見されるが、 ほとんどは開発元からのアクセス。 2022-07-13 までは Go-http-client/1.1 のままでした。
	ClientPtr: probe-ca001.rand0.leakix.org [143.198.136.88]
	ClientPtr: probe-nl001.rand0.leakix.org [161.35.86.181]
	ClientPtr: probe-ny002.rand0.leakix.org [161.35.188.242]
	GET /vulnerability-path HTTP/1.1
	Host:I.P.ad.dr
	User-Agent:l9explore/1.3.0
	Accept-Encoding:gzip
	Connection:close

	Lkx-TraversalHttpPlugin を使う場合だけ、UAに +https: が入る
	GET /cgi-bin/.%2e/%2e%2e/%2e%2e/%2e%2e/%2e%2e/%2e%2e/%2e%2e/%2e%2e/%2e%2e/etc/hosts HTTP/1.1
	Host:I.P.ad.dr
	User-Agent:Lkx-TraversalHttpPlugin/0.0.1 (+https://leakix.net/, +https://twitter.com/HaboubiAnis)
	Accept-Encoding:gzip
	Connection:close
	
libfetch
FreeBSD や NetBSD に付属してくる fetch プログラムのもの。 FreeBSD では fetch libfetch/2.0 の場合もあるようですが、 単なる libfetch/2.0 は NetBSD のもののような気がする。
	GET /path HTTP/1.1
	Host:host
	User-Agent:libfetch/2.0
	
line-poker
(2019-12-11) LINEにURLを貼り付けるとプレビューが生成されますが、 そのときのアクセス。 facebookexternalhit を詐称。 何故か最初は初めの1バイトだけを取得し、 次に1MB分を取得します。
参考文献:LINEのメッセージにURLを貼り付けて送った際にイメージやタイトルを表示する方法

そうか、Inktomi→Yahoo→Apacheと譲渡されたTraffic Serverは 未だに Client-ip: という非標準ヘッダを追加するのか…

	ClientAddr: [147.92.nn.nn] (no PTR) (LINE Corporation)
	GET /path HTTP/1.1
	Accept:*/*
	Accept-Language:en-US,en;q=0.8,*;q=0.6
	User-Agent:facebookexternalhit/1.1;line-poker/1.0
	Accept-Charset:utf-8
	X-Forwarded-For:10.115.91.212, 10.115.19.73
	Range:bytes=0-0		1回目
	Range:bytes=0-1048576	2回目
	Host:host
	Accept-Encoding:gzip
	Client-ip:10.115.19.73
	Connection:close
	Via:http/1.1 poker[11f368de-e039-42f5-9eea-faa86272baa4] (ApacheTrafficServer/7.1.5)
	
Linespider
(2019-11-02)(2023-03-08更新) LINE用の検索エンジン用ロボット。 再帰型。 .rpm もごっそり取得していく。やめろ。

UA 中の +https://lin.ee/4dwXkTH は https://help2.line.me/linesearchbot/web/?contentId=50006055&lang=en へのリダイレクト。

アクセス元はLINEの本元韓国の検索エンジン Naver (→Yeti) の逆引きがつく。 韓国の検索エンジンなのに Accept-Language:ja-JP になっているのが謎。

	ClientPTR: crawl.203-104-154-NNN.web.naver.com [203.104.154.NNN]
	ClientPTR: crawl.147-92-NN-NN.search.line-apps.com [147.92.NN.NN] (2020-07-11〜)

	User-Agent:Mozilla/5.0 (compatible;Linespider/1.1;+https://lin.ee/4dwXkTH)
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Host:host
	Connection:Keep-Alive
	Accept-Encoding:gzip,deflate
	Accept-Language:ja-JP,ja;q=0.8,en-US;q=0.6,en;q=0.4

	(2020-03-08〜 UAに空白がつくようになった)
	User-Agent:Mozilla/5.0 (compatible; Linespider/1.1; +https://lin.ee/4dwXkTH)
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Host:host
	Connection:Keep-Alive
	Accept-Encoding:gzip,deflate
	Accept-Language:ja-JP,ja;q=0.8,en-US;q=0.6,en;q=0.4

	(2022-08-12〜 コンテンツ取得時)
	GET /path HTTP/1.1
	User-Agent:Mozilla/5.0 (compatible; Linespider/1.1; +https://lin.ee/4dwXkTH)
	Host:host
	Connection:Keep-Alive
	Accept-Encoding:gzip,deflate
	Accept:*/*
	Accept-Charset:utf-8,*;q=0.3
	Accept-Language:ja-JP,ja;q=0.8,en-US;q=0.6,en;q=0.4
	
Linespider, Mobile Safari disguised
(2022-04-02) Linespider は Mobile Safari に偽装した 収集活動も行っているようです。 2021-09-11 より観測。 ヘッダの順番が違うので、通常の Linespider とは別物と思われます。 現在のところ GET / のみしか観測していないので、収集が目的ではない 可能性もありますが。
	ClientPTR: crawl.147-92-153-NN.search.line-apps.com [147.92.153.NN]
	GET / HTTP/1.1
	User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3
	Accept-Language:ja-JP,ja;q=0.8,en-US;q=0.6,en;q=0.4
	Cache-Control:max-age=0
	Accept-Encoding:gzip, deflate, sdch
	Host:host
	Connection:Keep-Alive
	

参考:本物の Mobile/13B143 Safari/601.1 のヘッダ:

	GET /path HTTP/1.1
	Host:host
	Connection:keep-alive
	Upgrade-Insecure-Requests:1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 12_4_1 like Mac OS X) AppleWebKit/607.3.9 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1
	Accept-Language:ja-jp
	Accept-Encoding:gzip, deflate
	
ltx71
(2020-08-31) 再起取得型ロボット。アクセスは緩慢。 http://ltx71.com/ は 珍しくhttps:へのリダイレクトではないが、 「研究用です」以外の詳しい情報は無い。

Accept: に HTMLと JavaScript 以外は欲しくない、と宣言しているのに *.rpm を取得していくのは謎。

	ClientHost: 1.2.202.35.bc.googleusercontent.com [35.202.2.1]
	GET /path HTTP/1.1
	Host:host
	Accept:text/html, text/*, application/x-javascript, application/javascript, application/ecmascript
	Connection:close
	Accept-Encoding:gzip
	User-Agent:ltx71 - (http://ltx71.com/)
	
MADBbot
(2021-01-17) 不明。/robots.txt と / しか取得しない。 UA中の https://madb.zapto.org/bot.html は 403 で内容なし。 https://madb.zapto.org/ は Ubuntu のApache2デフォルトページが出てくる。 そのくせ/robots.txt には Disallow: / とか用意してあるので (Ubuntuのデフォルトに当然そんなものは無い) 微妙に悪意を感じる。 HTTPSの証明書は Let's Encrypt 発行の CN=madb.zapto.org の証明書が入っている。

Accept-Encoding:x-gzip, gzip, deflate は、 陽にそういう設定を書かないとこうならないはずなので、 何かのサンプルプログラムをコピペして使っているのかもしれない。

	ClientPTR: ec2-NN-NN-NN-NN.us-west-2.compute.amazonaws.com 
	GET / HTTP/1.1
	Host:host
	Accept-Encoding:x-gzip, gzip, deflate
	User-Agent:MADBbot/0.1 (Gathering webpages for data analytics; https://madb.zapto.org/bot.html; ma-db-crawl@googlegroups.com)
	Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3
	Accept-Charset:utf-8,iso-8859-1;q=0.7,*;q=0.7
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Connection:close
	
Mail.RU_Bot
(2021-06-29) おそらく Mail.ruの検索エンジン用ロボット。 Accept-Languageから推察されるように、 ロシア語系のページしか持っていかないらしく、 当サイトでは画像と / の取得しか観測していない。再帰型かは不明。

珍しく User-Agentの一覧を公開している。 観測しているものとUA中の URL は食い違っているが。 逆引きが *.mail.ruでないものは偽者だ と述べているが、Mail.RU_Botを詐称する奴なんているのだろうか?

なぜか /robots.txt 取得時は Accept-Encoding: gzip, deflate を つけてこない。確かに圧縮している人はいないだろうが、 なぜわざわざヘッダを削って送信してくるのだろう?

	/robots.txt 取得時
	GET /robots.txt HTTP/1.0
	Host:host
	User-Agent:Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/Img/2.0; +http://go.mail.ru/help/robots)
	Accept:*/*
	Accept-Language:ru,be;q=0.7,en;q=0.7,kk;q=0.7,uk;q=0.7,*;q=0.1
	Connection:close
	No Accept-Encoding

	画像取得時
	GET /image HTTP/1.1
	Host:host
	User-Agent:Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/Img/2.0; +http://go.mail.ru/help/robots)
	Accept:*/*
	Accept-Language:ru,be;q=0.7,en;q=0.7,kk;q=0.7,uk;q=0.7,*;q=0.1
	Accept-Encoding:gzip, deflate
	Referer:http://go.mail.ru/search_images
	Connection:close

	/robots.txt 取得時
	GET /robots.txt HTTP/1.0
	Host:host
	User-Agent:Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/2.0; +http://go.mail.ru/help/robots)
	Accept:*/*
	Accept-Language:ru,be;q=0.7,en;q=0.7,kk;q=0.7,uk;q=0.7,*;q=0.1
	Connection:close
	No Accept-Encoding

	/ 取得時
	GET / HTTP/1.1
	Host:host
	User-Agent:Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/2.0; +http://go.mail.ru/help/robots)
	Accept:*/*
	Accept-Language:ru,be;q=0.7,en;q=0.7,kk;q=0.7,uk;q=0.7,*;q=0.1
	Accept-Encoding:gzip, deflate
	Connection:close
	
ManicTime
(2019-12-10) ManicTime は 自分がPC上で何をしていたかを記録してくれるツールで、 訪ねたWebページの faviconを表示する 機能のために /favicon.ico を取得するようです。 なので、通常のブラウザのアクセスの数秒後に /favicon.ico を 取りに来るような挙動になる。 しかし、 / も取得しようとしている理由は不明。
	GET /favicon.ico HTTP/1.1
	User-Agent:ManicTime/4.3.5.0
	Accept:image/*
	Host:host
	Connection:Keep-Alive

	GET / HTTP/1.1
	User-Agent:ManicTime/4.3.5.0
	Accept:text/html
	Host:host
	
Mastodon
(2018-11-14) 分散型Twitter。一般サーバーにアクセスしにくるのは リンクチェックやメタデータ収集のためだと思われますが、 なまじ分散型のため色々なところから集中的にアクセスが来る。
	HEAD path HTTP/1.0
	GET path HTTP/1.0
	User-Agent:http.rb/3.2.0 (Mastodon/2.4.4; +https://site)
	Host:host
	Date:rfc1123 date
	Accept-Encoding:gzip
	Connection:close
	Content-Length:0
	
MauiBot
(2021-02-09) 再帰型ロボット。2021-02-08 より観測。 取得は5秒おきくらいに間隔を空けてくるのは評価できる。 が、画像は持っていかないが、巨大な .rpm ファイルは全部持っていく。 へたくそ。 目的も不明だし、ブロックしてもいいんじゃないでしょうか。
	ClientPTR: ec2-nn-nn-nn-nn.compute-1.amazonaws.com
	GET /path HTTP/1.1
	From:crawler.feedback+dc@gmail.com
	Host:host
	Connection:Keep-Alive
	User-Agent:MauiBot (crawler.feedback+dc@gmail.com)
	Accept-Encoding:gzip,deflate

	(2021-04-07~)
	ClientPTR: ec2-nn-nn-nn-nn.compute-1.amazonaws.com
	GET /path HTTP/1.1
	From:crawler.feedback+wc@gmail.com
	Host:host
	Connection:Keep-Alive
	User-Agent:MauiBot (crawler.feedback+wc@gmail.com)
	Accept-Encoding:gzip,deflate
	
Mediatoolkitbot
(2022-04-15) おそらく SNS に投稿されたURLをチェックするロボット。 取得間隔は緩慢で、執筆時点では3回しか観測していない。 /robots.txt は1回しか読まれていない。 UAには URL が含まれていないが (昔はあったのかもしれない)、 説明は https://www.mediatoolkit.com/robot にある。 ヘッダ的には Accept-Encoding: に、今は誰も使っていない compress が 含まれている。

「何のため」は、セールストーク的な長めの2文だけで、

Briefly explained, Mediatoolkit bot is an Internet bot that systematically browses the web. It searches through more than 100 million web sources for Mediatoolkit, an online media monitoring tool used all across the world by experts in marketing, PR and other, various industries.
	GET /path HTTP/1.1
	User-Agent:Mediatoolkitbot (complaints@mediatoolkit.com)
	Accept-Encoding:gzip, identity, compress, deflate
	Host:host
	Accept:text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
	
[scanner as MetaSr Sogou browser]
(2019-11-11) MetaSr てのは 中国の Sogou browser (搜狗高速浏览器) のUser-Agentのようなのですが、 観測しているのはすべて PHP などの脆弱性スキャナ。 本物のChromiumブラウザベースのものなら もっとまともなヘッダを渡してくるはず。 ヘッダのパターンは何種類かあり。 ランダムに切り替えるUAのリストに入っているのかもしれない。
	GET / HTTP/1.1
	Content-Type:application/x-www-form-urlencoded
	User-Agent:Mozilla/5.0 (Windows NT 5.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0
	Host:I.P.ad.dr
	Connection:Keep-Alive
	Cache-Control:no-cache

	GET / HTTP/1.1
	Accept-Encoding:gzip,deflate
	Accept-Charset:ZGllKEBtZDUoSGVsbG9waHBTdHVkeSkpOw==	(die(@md5(HellophpStudy));)
	User-Agent:Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0
	Host:I.P.ad.dr
	Connection:Keep-Alive
	Cache-Control:no-cache

	GET / HTTP/1.1
	Connection:close
	Accept:*/*
	Accept-Language:zh-cn
	Referer:http://I.P.ad.dr/
	User-Agent:Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0
	Host:I.P.ad.dr
	

本物のSogou browserも、 预取引擎加速 (ビッグデータを活用し最適なページをプリフェッチ) という個人情報だだ洩れの危なっかしい機能がついていますが。

Mobile Safari (auxfiles)
(2018-10-22) Mobile Safari は存在しないアイコンファイルを大量に リクエストしに来るので、ロボット類と一緒に統計を取っていると 簡単にアクセス数が上位に来てしまいます。 Mobile Safari は極端なので、統計では 素のブラウジングとアイコンファイル要求を分けています。 なお User-Agent は .html取得時とは違う。
	GET /apple-touch-icon-120x120-precomposed.png HTTP/1.1
	GET /apple-touch-icon-120x120.png HTTP/1.1
	GET /apple-touch-icon-precomposed.png HTTP/1.1
	GET /apple-touch-icon.png HTTP/1.1
	GET /apple-touch-icon-152x152-precomposed.png HTTP/1.1
	GET /apple-touch-icon-152x152.png HTTP/1.1
	Host:host
	Accept:*/*
	Accept-Language:ja-jp
	Connection:keep-alive
	Accept-Encoding:gzip, deflate
	User-Agent:MobileSafari/604.1 CFNetwork/978.0.7 Darwin/18.7.0
	
[Microsoft Trident^2 checker]
(2018-11-11) マイクロソフトからの逆引きのないアクセス。 Referer: にBingの検索結果らしきものをつけてきますが、 ついてこない場合もあり。 更新チェッカらしき挙動にも見えますが、詳細不明。
	Client-IP: [23.101.169.3]
	Client-IP: [52.162.211.179] (2019-06~)
	Accept:*/*
	Referer:http://www.bing.com/search?q=keywords&form=MSNH14&sc=8-4&sp=-1&qs=n&sk=
	Accept-Language:en-US
	Accept-Encoding:gzip, deflate
	User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;  Trident/5.0)
	Host:host
	Connection:Keep-Alive
	
Microsoft Office Word 2014
(2022-07-14) MS Word の「開く」のダイアログで、ファイル名ではなく http://.../ なURLを直接入力すると、 を発行し、そのあと固まる。 タスクマネージャから殺す必要がある。 WebDAVに対応したURLならなんか面白いことができるんだろうか。 HTTP的には謎なヘッダを結構つけてくる。
	OPTIONS /echoserver.html/ HTTP/1.1	1,3回目
	HEAD /echoserver.html HTTP/1.1		2,4回目
	Connection:Keep-Alive
	Authorization:Bearer
	User-Agent:Microsoft Office Word 2014
	X-Office-Major-Version:16
	X-MS-CookieUri-Requested:t
	X-FeatureVersion:1
	Accept-Auth:badger,Wlid1.1,Bearer
	X-MSGETWEBURL:t
	X-IDCRL_ACCEPTED:t
	Host:host
	
MTRobot
(2021-04-02) ドイツのSEO屋 Metrics Tools の再帰型ロボット。 ドイツなのにかぜか Metriks ではない。 取得は日に10アクセス程度。 当サイトでは 2021-02-04 から観測しているが、 サービス自体は 2016/02 から開始しているので、 以前は別のUAだったか、*.de なサイトのみを集めていたのか。 ちょっと調査したくらいでは不明だった。

ドイツ語にしか対応していなさそうなのだが、 Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3 が謎。 他でも見かけるので、何かのHTTPエンジンのデフォルトなのかもしれない。

	ClientPTR:static.NN.NN.NN.NN.clients.your-server.de
	GET /path HTTP/1.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3
	Host:host
	Connection:Keep-Alive
	User-Agent:MTRobot/0.2 (Metrics Tools Analytics Crawler; https://metrics-tools.de/robot.html; crawler@metrics-tools.de)
	Accept-Encoding:gzip,deflate
	
Neevabot
(2021-05-07) 検索エンジン用ロボット、だと思われるのだが、 ユーザ登録しないと検索サービスは受けられない模様。

Neeva権利章典 では 既存のテクノロジー会社は無期限に個人情報を保持解析している ことに対する反発から Neeva を作った、みたいな事がかかれているが、 じゃあ Neeva は具体的にどうするのか、については何も書かれていない。 個人情報収集に対するアンチテーゼ検索エンジンは DuckDuckGoQwantify/Bleriot があるが、 それとの違いもよくわからない。

このロボットも *.rpm をごっそり持っていこうとする。 ロボット作る人は拡張子ホワイトリストベースで取得制御してほしい。

	ClientPTR: ec2-50-NN-NN-NN.compute-1.amazonaws.com 
	ClientPTR: 54-161-41-102.neevabot.com [54.161.41.102]
	ClientPTR: 100-26-127-17.neevabot.com [100.26.127.17] 2022-02-21〜
	GET /image.gif HTTP/1.1
	Host:host
	User-Agent:Mozilla/5.0 (compatible; Neevabot/1.0; +https://neeva.com/neevabot)
	Accept-Encoding:gzip, deflate, br
	
netEstate NE Crawler
(2022-08-17) ドイツの検索エンジン用ロボット。 .de/.at/.shしか採集しない ということらしく、当サイトでは /robots.txt と / の採集しか観測されていない。 2019-08-27 から観測されているが、当サイトはドイツ語圏サイトでないためか、 取得間隔は数カ月おきと非常に緩慢。
	ClientPTR: bardolino.netestate.de [81.209.177.145]
	GET / HTTP/1.1
	Accept-Encoding:gzip
	Accept-Language:de,en,*
	Host:host
	Connection:Keep-Alive
	User-Agent:netEstate NE Crawler (+http://www.website-datenbank.de/)
	
NetSystemsResearch
(2019-08-14) nsrbotの後継と思われる。 3日に1回くらい、 / だけを取得しに来る。 UAは正直申告とSafari偽装の2種類がある。 よくあるインターネット上のデバイス調査だと思われるが、 詳細は netsystemsresearch.com をみてもさっぱりわからない。 なおこのサイトは JavaScript が動かないとコンテンツが表示されない。

nsrbotと違い、Host:ヘッダが無い。 HTTPエンジンは違うっぽい。なんで無いのかは不明。

	ClientPTR: NN.NN.NN.NN.netsystemsresearch.com
	GET / HTTP/1.0
	User-Agent:NetSystemsResearch studies the availability of various services across the internet. Our website is netsystemsresearch.com
	User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3602.2 Safari/537.36	偽装版
	User-Agent:Mozilla/5.0(WindowsNT6.1;rv:31.0)Gecko/20100101Firefox/31.0	2019/01に短期間だけ観測
	Accept:*/*
	
Nimbostratus-Bot
(2019-12-08) おそらく Cloud System Networks の Stratus サービスの観測ロボット。 「ハイブリッドクラウドの稼動情況をレポート」云々と書いてあるが 中身の無いセールストークしか書いてないので何だかよくわからない。 頼んでもいないのになんでこちらのサイトにアクセスしに来るのかは不明。 / のみ、数日〜1ヶ月おきくらいに取得しに来る。
	ClientAddr: 209.17.NN.NN.rdns.cloudsystemnetworks.com [209.17.NN.NN] 
	GET / HTTP/1.1
	Host:host
	User-Agent:Mozilla/5.0 (compatible; Nimbostratus-Bot/v1.3.2; http://cloudsystemnetworks.com)
	
"nlpproject.info research"
(2018-12-16) 2018-11-21 以降に観測。2週間に1度くらいのアクセス。 / 以外は取得しません。http://nlpproject.info/ は繋がらないので、 詳細については不明。

User-Agent に " が含まれていると、 Apacheのログには \"nlpproject.info research\" として残ることに注意。

	clienthost: ip199.124-113-93.ddnet.ro [93.113.124.199]
	GET / HTTP/1.0
	User-Agent:"nlpproject.info research"
	Accept:*/*
	
nsrbot
(2018-11-30) たぶんIoT機器かどうかを調べているロボット。 一ヶ月に1回くらいのアクセス頻度。 IoT機器かどうかを調べるならいっそ /robots.txt の取得でも よさそうな気はしますが。 →後継:NetSystemsResearch
	GET / HTTP/1.1
	Host:I.P.Ad.dr:80
	User-Agent:Mozilla/5.0 (compatible; nsrbot/1.0; &#44;http://netsystemsresearch.com)
	
Odin

(2024-09-28) 不明。2023/12/27に初観測。 Host: にIPアドレスが入ってくるので、 おそらく「セキュリティスキャナ」。 半月に1回程度、5セットのアクセスをしてくる。

UA中のURLはhttps://docs.getodin.com/about-odin にリダイレクトされるが、 Page not found。 https://www.getodin.com/ は https://www.odin.io/ にリダイレクトされる。 脆弱性検査の検索ができるらしい。怪しい。

	POST /sdk HTTP/1.1
	GET /odinhttpcallranddigit10 HTTP/1.1
	GET /HNAP1 HTTP/1.1
	GET /evox/about HTTP/1.1
	GET / HTTP/1.1
	Host:I.P.ad.dr
	User-Agent:Mozilla/5.0 (compatible; Odin; https://docs.getodin.com/)
	Accept:*/*
	Accept-Encoding:gzip
	
OPR
(2018-10-16) Opera ブラウザ。 今の Opera は WebKitベースですが、UAはほとんど Chrome のままで、 末尾にOPRとつく ようです。 本サーバの統計ではOperaとは数えずChromeとして数えています。 PrestoエンジンベースでないOperaはOperaと呼べないと思う。
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
	User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36 OPR/55.0.2994.44
	Host:host
	
[unknown PaloAlto recursive robot 1]
(2023-08-25) はっきりとはわからないが、PaloAlto社所有ネットレンジからの 再帰クローラ。 /robots.txt取得時は/robots.txt?1692596062877と キャッシュ無効化を試みてくる。 User-Agent: は完全に Chrome 偽装だが、他のヘッダが欠けているので、 本物の Chrome との区別は容易。

PaloAltoネットレンジ以外からも似たようなアクセスはあるので、 何かのプラグインの可能性もある。

	ClientIPA 65.154.226.NN
	GET /robots.txt?1692596062877 HTTP/1.1
	Host:host
	User-Agent:Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36
	Accept-Encoding:gzip
	No Accept:, Accept-Charset:, Accept-Language:
	
PaperLiBot
(2019-08-24) Content curation service と言ってますが、要は更新チェッカのようです。 キーワードもしくはURLを指定して外部サイトを監視し、 更新されたら「新聞」をメールやツイートで発行する。

ただ、当サイトに対し定期的な「新聞」を設定した人はまだいないようで、 単発のアクセスばかりで更新間隔等は不明。

/robots.txt は読まない。 採集されたくなければ「contact us」としか書かれていない。

	ClientAddr: nsNNNNNN.ip-37-187-NNN.eu [37.187.NNN.NNN]
	GET /contentpage HTTP/1.1
	Host:host
	Accept-Encoding:gzip, deflate
	Connection:keep-alive
	User-Agent:Mozilla/5.0 (compatible; PaperLiBot/2.1; https://support.paper.li/entries/20023257-what-is-paper-li)
	Accept-Language:en;q=0.8, *
	Accept:*/*
	
pc2m
(2019-12-08) PHPで書かれた、ケータイ用にHTMLを変換するゲートウェイプロクシ。 「最新版」は「コエガワリ」サービス (http://pc2m.org/) で提供されてはいるが、自分で pc2m-0.9.22.10.zip (ja.osdn.net) を入手して自分所有の httpd 上で動かすのが基本。 一応 CentOS 7でも動く。 User-Agent に記載されているURLは2011年以降不達のまま。
	GET /path HTTP/1.1
	Host:host
	User-Agent:Mozilla/5.0 (compatible; PEAR HTTP_Request class; http://www.rcdtokyo.com/pc2m/)
	Connection:close
	Accept-Encoding:gzip
	Accept-Charset:Shift_JIS,utf-8;q=0.7,*;q=0.7
	Accept-Language:ja
	
PerplexityBot

(2024-08-19) 自称、検索エンジン用の再帰型ロボット。 2024-08-02 より観測。 UA 中の URL では robots.txt に対応している、と謳っているが、 実際には robots.txt を収集した形跡なし。 UA 中のURLはCloudFlareの向こう側で、ブラウザによってはアクセスできない。 のでローカルコピー

立ち入り禁止区域には入ってきてないので、robots.txt は 別のUAで取りに来ているのか、 他から供給を受けているのかもしれない。 クラスタで動いているらしく、同一URLに対し連続して違うクライアントから アクセスが来る。意図は不明。 アクセス間隔は数秒〜数時間と緩慢。

なお、現在(2024-09)、UA中のURLを押しても https://docs.perplexity.ai/home にリダイレクトされるだけで、 ロボットに関する 情報 は無くなった。

珍しく If-Modified-Since: や If-None-Match: をつけてくる。 サーバ側の Last-Modified: ではなく、最終収集日をつけてくる模様。

	GET /path HTTP/1.1
	Host:host
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7
	Accept-Encoding:gzip, deflate, br
	Accept-Language:en-US,en;q=0.9
	upgrade-insecure-requests:1
	User-Agent:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://docs.perplexity.ai/docs/perplexity-bot)
	If-Modified-Since:Last-Retrieved-Date
	Cache-Control:no-cache
	Connection:keep-alive
	

If-Modified-Sinceで追いかけていると、収集活動は以前(2023-11〜)は PerplexityBot/1.0 を名乗らず、ChromeやFirefoxに偽装した 収集活動をしていた模様。 このころのロボットはGET行の次がHost:ではなくAccept:になっているので、 HTTPエンジンは違うものを使用していたものと思われる。

	(2024-07-12)
	GET /path HTTP/1.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7
	Accept-Encoding:gzip, deflate, br
	Accept-Language:en-US,en;q=0.9
	upgrade-insecure-requests:1
	User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:109.0) Gecko/20100101 Firefox/116.0
	Host:host
	Cache-Control:no-cache
	Connection:keep-alive

	(2024-06-29)
	GET /path HTTP/1.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7
	Accept-Encoding:gzip, deflate, br
	Accept-Language:en-US,en;q=0.9
	upgrade-insecure-requests:1
	User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.6.6 Safari/605.1.1
	Host:host
	Cache-Control:no-cache
	Connection:keep-alive
	
PetalBot
AspiegelBot

Photon
(2021-01-14) WordPress用の 画像キャッシュサービス。 2ヶ月に一回くらい、画像だけを取りに来る。 HTTPエンジンは PHP の cURLそのまま使用。 /robots.txt には対応してない。
	ClientHost:[192.0.nn.nn] (automattic.com 管内)
	GET /image_path HTTP/1.1
	Host:host
	User-Agent:Photon/1.0
	Accept:*/*
	
[pindc.ru unknown robot]
(2021-10-09) 不明な再帰型ロボット。2017-02-14 より観測。 取得間隔は数秒、空けてくるので行儀はよいほう。 /robots.txt を持っていった形跡はないが、 立ち入り禁止区域へは入ってきていない。

この Accept: は Chrome 等でも使われている内容だが、 User-Agent の MSIE 6 (Windows XP) の時代には まだ XHTML は発明されていなかったので、 ヘッダを採集していれば偽物だと容易に判別がつく。

	ClientAddr: [5.188.211.N], [188.143.232.N] (pindc.ru)
	GET /path HTTP/1.1
	Connection:close
	User-Agent:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Host:host
	
PocketImageCache
(2020-02-23) 詳細不明。さほど人気があるわけでもない画像をピンポイントで 1カ月おきくらいの間隔でチェックしに来る。 robots.txt非対応。
	ClientPTR: ec2-NN-NN-NN-NN.compute-1.amazonaws.com
	GET /image-url HTTP/1.1
	Accept-Encoding:gzip
	Connection:close
	Host:host
	Accept:image/*;q=0.9,*/*;q=0.1
	User-Agent:PocketImageCache/1.0
	
PocketParser
(2019-12-06) 複数デバイス間でのブックマーク共有・内容保存サービス Pocket で、 内容を取得するためのアクセスと思われる。 内容を保存してオフラインで見る機能もあるのだが、 .html の取得だけでインライン画像は取得しない。 謎の X-Pocket-Parser:1 ヘッダを渡してくる。
	GET /path HTTP/1.1
	Host:host
	User-Agent:PocketParser/2.0 (+https://getpocket.com/pocketparser_ua)
	Accept:*/*
	Accept-Encoding:gzip,deflate
	X-Pocket-Parser:1
	
PostmanRuntime
(2020-08-25) Postman は Web APIのデバッグ環境ツールのようなのですが、 大量にドキュメントがある 割には何をどう使うのかがよくわからない。 User-Agent: PostmanRuntime は Postman Runtime としてGithubにホスティングされている、HTTPエンジン部分の物。

当サイトに対し系統だった何かを作った人はいないようで、 GET / と /favicon.ico 以外は観測していない。 /favicon.ico を取ろうとするのも謎だし、 そもそも観測されること自体が謎だったりするんですが。

	ClientPTR: *.gae.googleusercontent.com
	GET /favicon.ico HTTP/1.1
	Accept:*/*
	Accept-Encoding:gzip, deflate
	Cache-Control:no-cache
	User-Agent:PostmanRuntime/7.19.0
	Connection:close
	Host:host
	
[pptechnology.cc .uk scanner]
(2023-01-27) 不明なスキャナ。Host: IPアドレスなので、 脆弱性スキャナの類と思われる。 アクセス頻度は高く、日に数回。 発信元はたまに変わるが、 pptechnology.cc (.uk) からのアクセスで観測される。

UAは Chromium Edge 偽装だが、 Accept-Language:en US,en;q=0.9,sv;q=0.8 が特徴的。 en_US になってない。sv(スウェーデン語)が入っているのも謎。

	GET / HTTP/1.1
	User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36 Edg/90.0.818.46
	Accept-Encoding:gzip, deflate, gzip, deflate
	Accept:*/*
	Connection:keep-alive
	X-Requested-With:XMLHttpRequest
	Content-Type:application/x-www-form-urlencoded; charset=UTF-8
	Accept-Language:en US,en;q=0.9,sv;q=0.8
	Host:I.P.ad.dr
	

pptechnology.ccのホームページには cgi-bin/ と user14/ しかなく、設定放置気味なサイトがあるのみ。

初観測は 2021-11-04。初めのころは Mobile Safari 偽装で、 /dispatch.asp のみをスキャンしていた。 このころはアクセス元は rootlayer.net だったので、追い出された?

	ClientPTR: hosted-by.rootlayer.net [45.137.21.9]
	GET /dispatch.asp HTTP/1.1
	User-Agent:Mozilla/5.0 (iPad; CPU OS 7_1_2 like Mac OS X; en-US) AppleWebKit/531.5.2 (KHTML, like Gecko) Version/4.0.5 Mobile/8B116 Safari/6531.5.2
	Accept-Encoding:gzip, deflate, gzip, deflate
	Accept:*/*
	Connection:keep-alive
	X-Requested-With:XMLHttpRequest
	Content-Type:application/x-www-form-urlencoded; charset=UTF-8
	Accept-Language:en US,en;q=0.9,sv;q=0.8
	Host:I.P.ad.dr
	
Project 25499
(2019-09-15) 「セキュリティスキャナ」。 http://project25499.com/には アクセス頻度は数ヶ月に一回。 通常は / だけを取りに来るが、 /mproxy や /pic.ico の取得も観測例あり。 上記ページにはアクセス元のIPアドレスとDNS PTR一覧も書いてあるが、 必ずしも scannerNN.project25499.com に 逆引きできているわけではない。

なお project25499.com のドメインはGoDaddyの DomainsByProxy.com 経由で 取得されているので、本当の所有者は不明。 AmhertSecの資料によると、 マルウェアリポジトリ MalShareも運営している Silas Cutler (Silent Sigma Foundation) ということのようですが。

	ClientAddr: [157.230.216.203] 
	ClientPtr: scannerNN.project25499.com
	GET / HTTP/1.1
	Host:I.P.add.dr
	User-Agent:Mozilla/5.0 Project 25499 (project25499.com)
	
User-Agent に正直申告しているぶんだけましとは言えるかもしれない。 (ShodanはChrome偽装)

Project Patchwatch
(2022-06-29) 「研究用」「セキュリティスキャナ」。 2022/04/07 より、一か月に1回程度の観測。 GET /, Host:IPアドレス しかしない。 やっていることは Shodan と同じ。 たぶん Webサーバのバージョンを観測している。

Project Patchwatch のページには プロジェクトは 2022/02 まで行う、とあるが、 2022/06 でも依然稼働中。

	GET / HTTP/1.1
	Host:I.P.ad.dr
	User-Agent:'Mozilla/5.0 project_patchwatch'
	Accept:*/*
	Accept-Encoding:gzip
	
Qwantify/Bleriot

(2019-07-30) 検索エンジン用ロボット。 アメリカのプライバシー情報集めまくりの検索エンジンの アンチテーゼとしてフランスで設立。

ただ巡回頻度は非常に緩慢なため、検索結果は少なめ。 当サイトにも何度か来てますがデータベースには入っていないっぽい。

	GET /popular URL HTTP/1.1
	Host:host
	User-Agent:Mozilla/5.0 (compatible; Qwantify/Bleriot/1.1; +https://help.qwant.com/bot)
	Accept:*/*
	

(2022-04-04) 2020-02-07 より、/favicon.ico と / の取得しか観測されなくなりました。 /robots.txt は持っていきません。

	GET /favicon.ico HTTP/1.1
	User-Agent:Qwantify/1.0
	Accept:*/*
	Accept-Encoding:gzip
	Host:host
	Cache-Control:max-age=21600
	

2021-03-15 から PTR がつくようになりました。
ClientPTR: qwantbot-154-171-187-NN.qwant.com [194.187.171.NN]

2021-04-29 から Mozilla/5.0 がつくようになりました。 あいかわらず /favicon.ico と / しか持っていきません。 そんなに Mozilla/5.0 化って効果あるんでしょうかね… 不要な browser sniffing するサイトがいかに多いということでしょうか。 また、 https://help.qwant.com/bot への URL が抹消されています。

	GET /favicon.ico HTTP/1.1
	User-Agent:Mozilla/5.0 (compatible; Qwantify/1.0; +https://www.qwant.com/)
	Accept:*/*
	Accept-Encoding:gzip
	Host:host
	Cache-Control:max-age=21600
	

https://www.qwant.com/ で検索をかけてもランダムな文字列のサイトしか 検索結果に出てこないんですが、役に立ってるんだろうか?

[research.sorengard.com .git/config scanner]
(2019-01-18) 不明。1日数回、/.git/config を採集しようとする。 WebのコンテンツをGitで展開している場合、 このファイルには Gitのマスターサイトが書かれているので、 元データのありかを検知しようとしている? 改ざんが目的なのかどうかは不明。

いずれにせよ、./CVS/ とか ./RCS/ とかと同様、./.git/ は .htaccess などで保護しておくのは必須です。

	ClientAddr: research.sorengard.com [89.248.174.141]
	GET /.git/config HTTP/1.1
	User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36
	Host:ip.addr
	
ReverseEngineeringBot
DongleEmulatorBot
optout.scanopticon.com
(2022-07-24) 「セキュリティスキャナ」。 2021-06-30 より観測。 取得間隔は3日に1回。 /fuN3 だけを取得する。(2021/09/12に一回だけ、/ を観測) /fuN3 が何のバックドアかまでは調べきれなかった。

https://optout.scanopticon.com/には Optout のフォームと、「脆弱性を見つけた場合は連絡する」 と書いてあるが、本当かどうかは不明。 サービスサイトは https://www.scanopticon.com/ になる予定のようだが、観測されてから1年経った2022-07現在でも "Coming Soon" のまま。

UAは Chrome 偽装だが、Host: すらついていないので判別は比較的容易。

	ClientPTR:optout.scanopticon.com [172.104.138.223]
	GET /fuN3 HTTP/1.0
	User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36
	Accept:*/*
	No Host:, Accept-Language:, Accept-Encoding
	
Scrapy

(2019-07-21) Pythonでのクローラ構築キット。 クライアントは自分で実行できるが、 /robots.txt での制御は中央集権らしく、/robots.txtを持っていく頻度は 非常に少ない。

User-Agent は設定で変えられるが、デフォルトは settings/default_settings.py
	USER_AGENT = f'Scrapy/{import_module("scrapy").__version__} (+https://scrapy.org)'
	

恐ろしいことに配布は pip install でのみで、ソースコードのtarball等は提供されていない。

なんで Accept-Language: en なのかはよくわからない。

	GET /robots.txt HTTP/1.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Language:en
	User-Agent:Scrapy/1.6.0 (+https://scrapy.org)
	Accept-Encoding:gzip, deflate
	Host:host
	
search.marginalia.nu
(2022-08-25) 検索エンジン用ロボット。 2021-09-01 より観測。 個人ベースで運用されていて、 オープンソース。 実装は Java。あまり外部のライブラリに頼っていない感じ。

User-agent (一貫してUser-Agentではない) は echo "search.marginalia.nu" > /var/lib/wmsa/conf/user-agent で設定しているらしい。

/ を HEAD してから /robots.txt を取得するなど、 若干非同期的な実装をしている模様。 取得間隔は割と緩慢なほう。

観測されてから1年経つが、まだ再帰的な動作が観測されず、 特定のURLを繰り返し取得している。

	ClientPTR:h-81-170-128-52.a258.priv.bahnhof.se [81.170.128.52]
	GET /content-path HTTP/1.1
	User-agent:search.marginalia.nu
	Accept-Encoding:gzip
	Host:host
	Connection:Keep-Alive
	
SeekportBot
Seekport Crawler

Seekport Crawler
(2019-11-07) 検索エンジンhttp://seekport.com/ (ドイツ語)用のロボットだと思われるのだが、 当サイトには http:/// しか取りに来ないため再帰型かどうかも わからない。

タイミング的に、GET / してから GET /robots.txt する。 ロボットは全拒否しているサイトでも持っていかれてしまうんだろうか。

	ClientHost: static.181.172.216.95.clients.your-server.de [95.216.172.181]
	GET / HTTP/1.1
	GET /robots.txt HTTP/1.1
	Host:host
	Connection:Keep-Alive
	User-Agent:Mozilla/5.0 (compatible; Seekport Crawler; http://seekport.com/)
	Accept-Encoding:gzip,deflate
	

(2020-08-27) その後、/robots.txt は取得しなくなりました。 User-Agent こそ同じ(最後の")"が欠けているが)ですが、 ヘッダの順番が違うので HTTPエンジンは違うっぽい。 どうも SNSに書き込まれた URL を狙って取りに来る感じ。 http://seekport.com/ での検索結果に Facebook や Twitter の カウント数が出ている。 ドイツ語用のロボットのはずなのに Accept-Language: en なのが謎。

	(2020-07-20〜)
	ClientHost: crawl2-NN.oi.tb.007ac9.net [95.217.*.*] 
	GET /path HTTP/1.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Language:en
	User-Agent:Mozilla/5.0 (compatible; Seekport Crawler; http://seekport.com/	←missing ")"
	Host:host
	

(2022-07-14) その後、ヘッダ類は迷走。 2021-05-10 からは、シングルクオート付きの UA をつけるようになる。 ヘッダの順番が違うので HTTPエンジンは変更になったものと思われる。 とりあえず Type C と名前を付ける。

	ClientPTR: crawl2-NN.oi.tb.007ac9.net [95.217.228.NN]
	GET /path HTTP/1.1
	Host:host
	Connection:keep-alive
	Pragma:no-cache
	Cache-Control:no-cache
	User-Agent:'Mozilla/5.0 (compatible; Seekport Crawler; http://seekport.com/'
	Accept:image/webp,image/apng,image/*,*/*;q=0.8
	Referer:http://vega.pgw.jp/~kabe/WWW/browsers/opera964.html
	Accept-Encoding:gzip, deflate
	
なお、 static.NN.NN.NN.NN.clients.your-server.de のほうでは 試験版が動いているらしく、たまに Mozilla/5.0 (compatible; Seekport Crawler; http://seekport.com/) だけのものが観測されている。

2021-06-28 から、HTTPエンジンが先祖返りしたものが混入。 Type D とする。 ノードによって UA のカッコが欠けているものとそうでないもの、 Type C のものが入り混じっている。

	GET /path HTTP/1.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Language:en
	User-Agent:Mozilla/5.0 (compatible; Seekport Crawler; http://seekport.com/)
	User-Agent:Mozilla/5.0 (compatible; Seekport Crawler; http://seekport.com/
	Host:host
	

2022-06-25から、SeekportBot を 名乗るようになる。 また、 /robots.txt を取得するようになる。 ただし間隔は緩慢。1か月おきくらい。 ヘッダ構造から Type D の後継品と思われる。Type E としよう。 この日から、Type C, Type D は消滅。

	ClientPTR: crawl1-NNN.oi.tb.007ac9.net [135.181.136.NNN]
	GET /robots.txt HTTP/1.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Language:en
	User-Agent:Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)
	Host:host
	

UA中の https://bot.seekport.com

Bot Type: Good (always identifies itself)
と自称しているのは非常にあざとい。 この書き方は Adsbot と同じだが、真似か? 詐称・偽装するかどうかは問題ではないだろうが。

SemrushBot

(2018-10-12) 再帰クローラ。 広告やバックリンク調査に使われているようですが、 一般公開されているサービスではないようです。

クラスタで動いているっぽいのですが、メンバー間での連携がイマイチで、 同じURLを複数のメンバーが取得したりします。 取得間隔も頻繁で、迷惑な部類に入るロボットです。 UAに入っているURLは CloudFlare 配下なので、ブラウザによっては開けません。

	Accept:text/html
	Accept-Encoding:gzip,deflate
	Connection:close
	User-Agent:Mozilla/5.0 (compatible; SemrushBot/2~bl; +http://www.semrush.com/bot.html)
	
SEOkicks
(2021-06-06) バックリンクチェックのための再帰ロボット。 2021/02/07 より観測。 普段は /robots.txt と / を月に2回程度チェックしに来るだけだが、 たまに再帰動作をする。間隔は2〜5秒程度空けてくるようだ。

他のSEO屋と違い、無償である程度のバックリンクチェック結果の 検索は提供されている。 https://www.seokicks.de/ (英語版はhttps://en.seokicks.de/) で URLを入力して [Backlinks suchen] を押すとバックリンクが検索できる。

このロボットも .rpm や .exe を除外対象にせず持っていく。 いいかげん再帰ロボット作る人は学習して欲しい。

	GET / HTTP/1.1
	Accept-Encoding:gzip,deflate
	From:robot@seokicks.de
	Connection:Close
	Accept:text/html,text/plain
	Host:host
	User-Agent:Mozilla/5.0 (compatible; SEOkicks; +https://www.seokicks.de/robot.html)
	
serpstatbot
(2023-12-20) SEO屋の再帰型ロボット。 2022-07-05 より観測。 多分バックリンク情報だけを取得している。 取得間隔は数秒空けてくる。比較的行儀は良い。 バイナリの取得もしない。

UA中のURLはロボットの説明専用のドメインで、 サービスURLはhttps://serpstat.com/pay/ にある。 もちろん無償ではデータは開示していない。(お試し30日期間はある)

	ClientPTR: static.124.68.76.144.clients.your-server.de [144.76.68.124]
	GET /path HTTP/1.1
	User-Agent:serpstatbot/2.1 (advanced backlink tracking bot; https://serpstatbot.com/; abuse@serpstatbot.com)
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3
	Host:host
	Connection:Keep-Alive
	Accept-Encoding:gzip
	
SERPtimizerBot

(2022-05-10) UA中の URLには SEO用のツール だと書かれているが、実際はただのリンクチェッカ。

観測例では、週1回程度の頻度でチェックしに来ている。 1秒間隔くらいで、最初は Apacle-HttpClient, 2回目に SERPtimizerBot を 名乗る。なぜ2回アクセスしに来るのかは不明。 ヘッダの順番などが全然違うので、HTTPエンジンは異なるものと思われる。

	ClientPTR: vps35712.alfahosting-vps.de [178.20.100.33]

	1回目
	GET /path HTTP/1.1
	Host:host
	Connection:Keep-Alive
	User-Agent:Apache-HttpClient/4.5.13 (Java/11.0.16)
	Accept-Encoding:gzip,deflate

	2回目
	GET /path HTTP/1.1
	Accept-Encoding:gzip
	User-Agent:Mozilla/5.0 (compatible; SERPtimizerBot; +http://serptimizer.com/serptimizer-bot)
	Cache-Control:no-cache
	Pragma:no-cache
	Host:host
	Accept:text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
	Connection:keep-alive
	
SeznamBot
(2019-09-06) User-Agent に書かれているURLはhttps:な検索ページに誘導されます。 SeznamBot自体の説明は https://napoveda.seznam.cz/en/full-text-search/seznambot-crawler/ にある。

汎用検索エンジン用ロボットのはずなのだが、 当サイトでは画像を取得するものしか観測していない。 UA詐称で*.htmlを取得したような形跡もないし、どこから*.htmlの 供給を受けているんだろう?

	ClientHost: fulltextrobot-77-75-78-171.seznam.cz [77.75.78.171]
	GET /image-url HTTP/1.1
	Host:host
	Accept:*/*
	Accept-Language:cs
	User-Agent:Mozilla/5.0 (compatible; SeznamBot/3.2; +http://napoveda.seznam.cz/en/seznambot-intro/)
	Accept-Encoding:gzip, deflate
	Connection:keep-alive
	
[shodan.io]
(2019-01-06) IoTデバイススキャナ。 User-Agent では判別不能なのですが、幸いなことに クライアントPTRは常に *.census.shodan.io なので、これで アクセス制御や判別が可能です。 ハッキング対象の探索にも使われるので、 自分でIoT機器を抱えている場合はファイアウォールで 探査トラヒックを叩き落とすことが推奨されます。
	clienthost:*.census.shodan.io
	GET / HTTP/1.1
	Accept-Encoding:identity
	Host:I.P.Addr
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	User-Agent:Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36

	GET /sitemap.xml HTTP/1.1
	GET /.well-known/security.txt HTTP/1.1
	Host:I.P.Addr
	Accept-Encoding:identity

	GET /favicon.ico HTTP/1.1
	Host:I.P.Addr
	Connection:keep-alive
	Accept-Encoding:gzip, deflate
	Accept:*/*
	User-Agent:python-requests/2.13.0
	
ShortLinkTranslate
(2019-09-25) ウィルスバスター(OfficeScan) に搭載されている Trendツールバーの「Webページ内のリンクの安全性を表示」機能 によるチェックらしいです。 アクセス元はウィルスバスターが導入されている当のクライアント。 HTTPヘッダ類は最小限。
参考文献:ShortLinkTranslateというユーザエージェントのアクセスログ
	GET /path HTTP/1.1
	User-Agent:ShortLinkTranslate
	Host:host
	
Silk
(2018-11-22) "Silk"には2種類あり、 まぁ両方ともWebKitベースなわけですが。 "Silk"だけでマッチさせるとVita用のもマッチしてしまうので、 !/Playstation/.test(navigator.userAgent)でフィルタすべし とAmazonのサイトには書いてあります。
	Amazon Silk
	Host:host
	Connection:keep-alive
	User-Agent:Mozilla/5.0 (Linux; Android 5.1.1; KFGIWI) AppleWebKit/537.36 (KHTML, like Gecko) Silk/70.4.2 like Chrome/70.0.3538.80 Safari/537.36
	Accept:image/webp,image/apng,image/*,*/*;q=0.8
	Accept-Encoding:gzip, deflate
	Accept-Language:ja-JP,ja;q=0.9,en-US;q=0.8,en;q=0.7
	
	PS Vita Silk
	Host:host
	Accept:*/*
	Accept-Encoding:gzip,deflate
	User-Agent:Mozilla/5.0 (PlayStation Vita 3.69) AppleWebKit/537.73 (KHTML, like Gecko) Silk/3.2
	Accept-Language:ja-JP
	
SkypeUriPreview
(2019-09-20) 新しいSkypeでは画像を貼ったときだけでなく、 URL を貼り付けるとそのサイトのプレビュー画像が出るらしいです。 そのプレビュー取得用エージェント。 アクセス元はMicrosoftの所有領域ですが、一貫して逆引きPTRが無い。
	ClientAddr: [52.114.*.*] (Microsoft region, no PTR)
	GET /path HTTP/1.1
	User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) SkypeUriPreview Preview/0.5
	Host:host
	Connection:Keep-Alive
	
Slackbot

(2018-11-02) 投稿URLのメタデータチェッカ。 <HEAD> のメタデータだけを取得したいためか、 Range:bytes=0-32768 で最初の32kB+1だけを取得しに来ます。 律儀にこういう実装をしているロボットは珍しい。

	GET /path HTTP/1.1
	Range:bytes=0-32768
	User-Agent:Slackbot-LinkExpanding 1.0 (+https://api.slack.com/robots)
	Accept:*/*
	Accept-Encoding:gzip,deflate
	Host:host
	Cache-Control:max-age=259200
	Connection:keep-alive
	
SMTBot

(2019-08-02) http://www.similartech.com/ を読むと 「マーケティング用の強力なツール」 を提供しているということですが、 きっちり2ヶ月に一回、/robots.txt と / だけを読みにくるロボットで どの程度のデータが集められるのかは疑問。

HTTPヘッダがCamel-Caseになってない。ちょっと特徴的。

	GET / HTTP/1.1
	host:host
	connection:keep-alive
	accept-encoding:gzip,deflate
	accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	user-agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36 (compatible; SMTBot/1.0; +http://www.similartech.com/smtbot)
	
socialmediascanner.eset.com
(2019-08-23) https://socialmediascanner.eset.com
eset Social Media Scanner
Protect your Twitter profiles against dangerous links.
Protect your timeline and lists
とあるので、Twitterに投稿されたURLを検疫しているんでしょうきっと。 ただ、数時間を置いて何度も何度も取りに来るので、閲覧の度に チェックしている? /robots.txt は読まない。まぁそうでしょうね。 User-Agent は Chrome 完全偽装。

なお https://socialmediascanner.eset.com は JavaScript が動かないと内容は一切出てこない。

参考文献: ESET Social Media Scanner FAQ
Scanner機能自体は各自のPCにインストールするもののようですな。

	ClientHost: h3-xxx0N-v.eset.com [91.228.167.NN]
	GET /path HTTP/1.0
	User-Agent:Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.16 Safari/537.36
	Host:host
	Accept:*/*
	Referer:https://socialmediascanner.eset.com
	
Sogou web spider
中国のGoogleのパクり検索エンジン Sogou のロボット。 再帰型ではなく、誰かが踏んだページを狙って取りに来るので、URLは どこからか供給を受けている模様。中国版のChromium派生ブラウザからとか? If-Modified-Since を出すロボットも律儀だが、これもGoogleのまね?
	ClientPtr: sogouspider-NNN-NN-NNN-NNN.crawl.sogou.com
	GET / HTTP/1.1
	Host:host
	Accept:*/*
	Accept-Language:zh-cn
	Accept-Encoding:gzip,deflate
	User-Agent:Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
	Connection:close

	GET /path HTTP/1.1
	Host:host
	Accept:*/*
	Accept-Language:zh-cn
	Accept-Encoding:gzip,deflate
	User-Agent:Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
	Connection:close
	If-Modified-Since:Fri, 27 Oct 2017 10:48:29 GMT
	
で、2020-02-05 までは上記のように判別しやすい、 ロボット挙動についてのリンクも含まれている User-Agent を渡していたんですが、

2020-02-07 から Mobile Safari偽装をするようになったようです。 判別方法は Client PTR しかなくなりました。 ヘッダの順番が本物のMobile Safariとは違いますが、 CGIでの判別は PTR と Accept-Language によるしかないでしょう。

	ClientPtr: sogouspider-NNN-NN-NNN-NNN.crawl.sogou.com
	GET /path HTTP/1.1
	Host:host
	Accept-Language:zh-cn
	Accept-Encoding:gzip,deflate
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 9_3 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13E198 Safari/601.1
	
[sparqnet.net scanner]
(2018-10-14) 「セキュリティスキャナ」? 月に数回の緩慢なスキャンをしに来る。 普通はGET / HTTP/1.1だけだが、たまに違うrequestを 出してくることもある。
	\xfbo\xe7\xad\xbb\xdax\xdf`j\x1f[\xf8\xf6\x9b\x05\xbcVH\xe3\x9cr
	GET //./.././.. HTTP/1.1
	GET / HTTP/1.1
	GET /. HTTP/1.1
	Host:IP.Addr
	User-Agent:Mozilla/5.0
	Accept:*/*
	Accept-Encoding:gzip
	
Spawning-AI
(2023-06-20) /ai.txt スキャナ。AWS に生息。 頻度は1〜2日に1回。

UA は「生成系AI」を名乗っているが、 実際はそうとは思えない。

GET /ai.txt?t=1687050283.303184 のように、 time_t 時刻を付加したURLを掘ろうとする。渡されるタイムスタンプは なぜか数十分前のものになっている。 単なるキャッシュ回避策には思えない。何らかの記録用?

	ClientPTR: ec2-*.us-east-2.compute.amazonaws.com
	GET /ai.txt?t=1687177767.754558 HTTP/1.1		(2023-05-27〜)
	GET /.well-known/ai.txt?t=1685581319.607587 HTTP/1.1	(2023-06-01〜)
	Host:host
	User-Agent:Spawning-AI
	Accept:*/*
	Accept-Encoding:gzip, deflate
	
special_archiver
(2019-09-01) Internet Archive は 一応、URL中の画像の収集も行っているので、その収集のための ロボットだとは思うのですが。 なぜ ia_archiverarchive.org_bot でないのかは不明。 アクセス間隔は非常に緩慢。
	ClientAddr: crawl860.us.archive.org [207.241.225.144]
	GET image-url HTTP/1.0
	Connection:Close
	Referer:correct referrer, sometimes
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Host:host
	User-Agent:Mozilla/5.0 (compatible; special_archiver/3.1.1 +http://www.archive.org/details/archive.org_bot)
	
SpiderLing
(2018-12-24) 多言語コーパス作成のための収集ロボットらしいですが、 当サイトのように http:/// には内容が無いサーバーを漁っても 何の意味もないような気がしますが。

UAに入っているURLは実際は https: にリダイレクトされるので、 ブラウザによっては見えません。

	GET / HTTP/1.1
	Host:host
	User-Agent:Mozilla/5.0 (compatible; SpiderLing (a SPIDER for LINGustic research); +http://nlp.fi.muni.cz/projects/biwec/)
	Connection:close
	
Steeler
(2020-08-11) うちにも来るようになりました Steeler。再帰取得型ロボット。 取得間隔は数秒間隔を空けてくるし、割と行儀は良いほうです。 If-Modified-Since, If-None-Match にも対応。珍しい。 Referer: に正しい値(サイト外からのを含む)を入れてくるロボットは非常に珍しい。

しかしUA中に含まれているURLを見ても、「何のため」は

While we intend to gather as many published documents as possible to study various social phenomena,
この1行だけ。残りは Robot Exclusion Protocol の説明。 これだけではなんで画像も一生懸命取得していくのか全くわからない。 詳細は発表論文を見れ、ってこと?

	GET /path|image HTTP/1.1
	Host:host
	From:crawler@tkl.iis.u-tokyo.ac.jp
	User-Agent:Mozilla/5.0 (compatible; Steeler/3.5; http://www.tkl.iis.u-tokyo.ac.jp/~crawler/)
	Referer:correct referrer URL
	If-None-Match:previous ETag:
	If-Modified-Since:previous Last-Modified:
	Accept:text/*, */*
	Accept-Language:ja,en
	Accept-Encoding:gzip,deflate
	Connection:close
	
[stretchoid.com]
(2019-09-15) 「セキュリティスキャナ」。 http://www.stretchoid.com/には 自分のIPアドレス領域を除外する入力フォームがあるのみ。 zgrabを使っているクライアントはどこも怪しいことは否めませんが、 stretchoid.comに関しては以下のような情報もあります:
	ClientPtr: zg-YYmmx-N.stretchoid.com 
	GET / HTTP/1.1
	GET /manager/text/list HTTP/1.1
	GET /manager/html HTTP/1.1
	Host:I.P.ad.dr
	User-Agent:Mozilla/5.0 zgrab/0.x
	Accept:*/*
	Accept-Encoding:gzip
	
SurdotlyBot
(2021-04-04) 「セキュリティスキャナ」。 http://sur.ly/bot.html には 「spam発信源のセキュリティ状況を調べるため」とあるが、 そのために http:/// を取得する理由はよくわからない。 当サイトは / にコンテンツが無いのでこれ以外のアクセスが無いが、 リンクがあれば favicon.ico や関連 .js も持っていくのかもしれない。

当サイトでは 2018-05-19 より観測。 当時は /robots.txt には対応していなかった。 現状、/ の取得は1ヶ月に1回程度。 http://sur.ly/bot.html では /robots.txt に対応しているような 書き方がされているが、実際に持っていく間隔は非常に緩慢 (半年に1回程度)な上、/ を取得してから /robots.txt を取得するので、 実質対応していない。

	ClientPTR: ec2-NN-NN-NN-NN.compute-1.amazonaws.com
	GET / HTTP/1.1
	Host:host
	User-Agent:Mozilla/5.0 (compatible; SurdotlyBot/1.0; +http://sur.ly/bot.html)
	Accept-Charset:ISO-8859-1,utf-8;q=0.8,*;q=0.7
	Accept-Encoding:gzip, deflate
	Accept-Language:en-US,en;q=0.8
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9
	Connection:keep-alive
	Keep-Alive:3
	
[super-seo-guru.com Referer spam]
(2019-08-24) Referer: spamキット。
jot 100 1 | while read i; do
	curl -s --include --head http://super-seo-guru.com/ | grep Location:
done
	
すると、http://seo2.*/ のリダイレクト先URLがランダムで出てくる。 実際のIPアドレスは[62.112.9.56]で一定、 PTR はserver42-vm07.openfrost.com, 証明書は CN=projectb.icctech.org 。 ので、 広告したいドメインをReferer:を公開しているサイト経由で無理やり 広告するためのものと思われる。 アクセス元は一定しないので、ブラウザのプラグインか何かかもしれない。
	ClientAddr: various
	GET / HTTP/1.1
	User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.143 Safari/537.36
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Referer:http://super-seo-guru.com
	Connection:Keep-Alive
	Accept-Encoding:gzip
	Accept-Language:various
	Host:host
	
Swisscows Favicons
(2023-06-30) 2022-12-06 より観測。 https://swisscows.com/ は DuckDuckGo と同様の匿名性検索エンジンですが、 関係については不明。 GET / と GET /favicon.iso だけを行う。頻度は数か月に一回。 traceparent: ヘッダをつけてくる。毎回違う。
	ClientIP: [146.185.78.169]
	GET /favicon.ico HTTP/1.1
	Host:host
	User-Agent:Swisscows Favicons
	Accept:text/html, application/xhtml+xml, application/xml; q=0.9, image/avif, image/webp, */*; q=0.8
	Accept-Language:en-US, en; q=0.9
	Accept-Encoding:gzip, deflate, br
	traceparent:00-7b2f088c1fb1bac6ece841c118b3c8db-a6b7c7ffc5ac8daa-00
	
tchelebi
(2022-05-13) 脆弱性スキャナ。2021-01-08より観測。 一か月おきくらいに / のみをスキャンしに来る。 robots.txt には当然ながら非対応。 スキャンされたくなければ 45.155.146.0/24をブロックせよ とあるが、実際に観測しているのは piri211.tchelebi.io [45.155.126.211] で、ネットブロックが違う。

大した情報は必要としてないはずなのに、 なんで Mozilla/5.0 を名乗っているのかは不明。 そんなに Mozilla/5.0 に反応するサイトって多いんだろうか。

	ClientPTR: piri211.tchelebi.io [45.155.126.211]
	GET / HTTP/1.1
	Host:I.P.ad.dr
	User-Agent:Mozilla/5.0 (compatible; tchelebi/1.0; +http://tchelebi.io)
	Accept:*/*
	Accept-Encoding:gzip
	

(2023-06-19) Google Computing Cloud からのアクセスも 観測されるようになりました。看板倒れ。

	ClientPTR: 168.136.67.34.bc.googleusercontent.com [34.67.136.168]
	GET / HTTP/1.1
	Host:I.P.ad.dr
	User-Agent:Mozilla/5.0 (compatible; tchelebi/1.0; +http://tchelebi.io)
	Accept:*/*
	Accept-Encoding:gzip
	
thesis-research-bot
fidget-spinner-bot

[ThinkPHP scanner]
(2019-10-03) 中国製のPHPフレームワーク、ThinkPHPの脆弱性を 探索しているスキャナ。 どういうわけか常に判別可能な User-Agent を渡してきます。 ("Firefox/3.6)"と、括弧が余分)
	GET /TP/public/index.php HTTP/1.1
	GET /TP/index.php HTTP/1.1
	GET /thinkphp/html/public/index.php HTTP/1.1
	GET /html/public/index.php HTTP/1.1
	GET /public/index.php HTTP/1.1
	GET /TP/html/public/index.php HTTP/1.1
	GET /elrekt.php HTTP/1.1
	GET /index.php HTTP/1.1
	GET / HTTP/1.1
	Host:IP.ad.dr
	User-Agent:Mozilla/5.0 (Windows; U; Windows NT 6.0;en-US; rv:1.9.2) Gecko/20100115 Firefox/3.6)
	Connection:close
	Accept-Encoding:gzip
	
threatpulse
(2019-12-09) BlueCoat ThreatPulse はクラウドベースのURLフィルタ・検疫プロクシですが、 StackExchangeの記事が 思いもかけず詳しい。

HTTPヘッダ的には BlueCoat プロクシサーバに似るが、 Via:threatpulse というのは HTTP的には間違い。 Via:1.1 threatpulse でないといけない。 まぁここを真面目に解析して何かするのはBlueCoat自身だけなので 問題ないといえば問題ないのかもしれませんが。

	Via:threatpulse
	X-Forwarded-For:original.IP.ad.dr
	Cache-Control:max-stale=0
	Connection:Keep-Alive
	Pragma:no-cache
	X-BlueCoat-Via:hex16-identifier
	
[unknown AWS Tokyo crawler]
(2022-04-09) 不明。2017-04-22 より観測。 外部からリンクされているURLを狙って取りにきていた。 再起動作っぽくはなかったが、2022-04-09 から再起動作を観測。 AWS の東京リージョンで動いており、 Referer: https://www.google.co.jp/ 固定なので、 日本の誰かが動かしているものと考えられる。

古めの Chrome に偽装しているが、User-Agent: と Referer: (要は Apache httpd の combined ログに残るもの) だけ偽装し、 ほかのヘッダはつけていない。 Googleからの検索から来たように見せかけるために Referer: https://www.google.co.jp/ 固定にしているのが 非常にあざとく感じる。 Accept: も Chrome のものとは違う。

	ClientPTR: ec2-NN-NN-NN-NN.ap-northeast-1.compute.amazonaws.com (AWS 東京リージョン)
	GET /path HTTP/1.1
	User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.93 Safari/537.36
	Referer:https://www.google.co.jp/
	Host:host
	Accept:text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
	Connection:keep-alive
	No Accept-Language, Accpet-Encoding, Accept-Charset
	
trendictionbot
(2019-09-16) http://www.trendiction.com/
Social media monitoring and social analytics
とあるので、よくある商標モニタ用ロボットだとは思うのですが、 .html は取得せず、/robots.txt と 画像しか持っていきません。

画像取得時は、存在しそうでしてないURLをReferer: に渡してきます。 Referer:不在時にアクセスが弾かれる対策? 対象サイトのURLを渡す等、もっと簡単な回避法もありそうですが、 なんでこんな凝った実装しているのかは不明。 Referer: spamの可能性もなくはない。

	ClientAddr: p18n13.trendiction.de [144.76.23.110] etc
	GET /imageurl HTTP/1.1
	Accept-Charset:ISO-8859-1,utf-8;q=0.7,*;q=0.7
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Cache-Control:max-age=0
	User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64; trendictionbot0.5.0; trendiction search; http://www.trendiction.de/bot; please let us know of any problems; web at trendiction.com) Gecko/20170101 Firefox/67.0
	Referer:semi-existent referrer
	Connection:close
	Refresh-Cache:1
	Accept-Language:en-gb,en;q=0.5
	Pragma:no-cache
	Host:host
	Accept-Encoding:gzip
	
[trendiction.de fake Firefox robot]
(2018-09-19) trendictionbotは画像しか 持っていきませんが、 .htmlの取得は古めのFirefoxに偽装して取りにくるようです。 [hetzner.de fake Firefox robot] とヘッダが酷似しているので、trendictionbotは trendiction.de と hetzner.de(ホスティング)で動作させている のかもしれない。

User-Agent は古めのFirefoxを詐称してくる。 他には以下のような特徴で判別できそうです:

ドイツで動かしているのに Accept-Language:en-gb,en;q=0.5 なのが謎。

	ClientHost: p150n13.trendiction.de [88.99.195.206] et al
	GET /content.html HTTP/1.1
	Accept-Charset:ISO-8859-1,utf-8;q=0.7,*;q=0.7
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Cache-Control:max-age=0
	User-Agent:Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.4) Gecko/20070531 Firefox/54.0
	User-Agent:Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.0.8) Gecko/2009032600 SUSE/3.0.8-1.1.1 Firefox/52.7.3
	User-Agent:Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.1.2) Gecko/20090803 Firefox/51.0
	Connection:close
	Refresh-Cache:1
	Accept-Language:en-gb,en;q=0.5
	Pragma:no-cache
	Host:host
	Accept-Encoding:gzip
	
[tvt.net.cn /editBlackAndWhiteList RCE]
(2019-10-11) Shenzhen TVT Digital Technology の組込機器の RCE (Remote Code Execution) のスキャン。 にある PoC (Proof of Concept) コードをみんなコピペして使ってるらしく、 観測しているものはすべて User-Agent: ApiTool
	POST /editBlackAndWhiteList HTTP/1.1
	Accept-Encoding:identity
	Content-Length:586
	Accept-Language:en-us
	Host:I.P.ad.dr
	Accept:*/*
	User-Agent:ApiTool
	Connection:close
	Cache-Control:max-age=0
	Content-Type:text/xml
	Authorization:Basic YWRtaW46ezEyMjEzQkQxLTY5QzctNDg2Mi04NDNELTI2MDUwMEQxREE0MH0=
	(admin:{12213BD1-69C7-4862-843D-260500D1DA40})
	
2019/12/19 から、User-Agent: Help というのも観測されるようになりました。 Content-Length が微妙に違う。
	POST /editBlackAndWhiteList HTTP/1.1
	Accept-Encoding:identity
	Content-Length:587
	Accept-Language:en-us
	Host:I.P.ad.dr
	Accept:*/*
	User-Agent:Help
	Connection:close
	Cache-Control:max-age=0
	Content-Type:text/xml
	Authorization:Basic YWRtaW46ezEyMjEzQkQxLTY5QzctNDg2Mi04NDNELTI2MDUwMEQxREE0MH0=
	
Twingly Recon-Klondike

Twingly は ブログ専門の検索エンジン のようなのですが、 なぜブログを保持していない当サイトにアクセスが来たのかは不明。

よくわからない URL をプローブしに来る。 /robots.txt 対応 と書かれているが、 実際には全く読まない。 検索されたくないブログも持っていかれてしまうんだろうか。

	ClientPTR: ec2-18-203-243-240.eu-west-1.compute.amazonaws.com [18.203.243.240]
	GET /1111/feed/ HTTP/1.1
	GET /rss/ HTTP/1.1
	GET / HTTP/1.1
	User-Agent:Twingly Recon-Klondike/1.0 (+https://developer.twingly.com)
	Connection:close
	Host:host
	Content-Length:0
	
Twitterbot
(2019-11-08) おそらくTwitterに URL が投稿された際にチェックしに来るロボット。 目的は不明だが、非標準なHTTPヘッダを大量につけてくる。 (Zipkinフレームワークのヘッダ?)
	ClientHost: r-199-59-150-181.twttr.com [199.59.150.181]
	GET /robots.txt HTTP/1.1
	X-B3-SpanId:hex16
	User-Agent:Twitterbot/1.0
	Finagle-Ctx-com.twitter.finagle.Retries:0
	X-B3-Sampled:false
	X-B3-Flags:2
	Host:host
	X-B3-ParentSpanId:hex16
	X-B3-TraceId:hex16
	No Accept-Encoding, Accept

	GET /targetpath HTTP/1.1
	X-B3-SpanId:hex16
	User-Agent:Twitterbot/1.0
	Finagle-Ctx-com.twitter.finagle.Retries:0
	Accept:*/*
	X-B3-Sampled:false
	X-B3-Flags:2
	Host:host
	X-B3-ParentSpanId:hex16
	Accept-Encoding:gzip, deflate
	X-B3-TraceId:hex16
	
um-LN [ubermetrics-technologies.com]
(2019-11-02) ソーシャルメディアなとに貼り付けられた URL をチェックしに来る。 こういう普通のチェッカは素直に GET しにくるだけだが、 なぜか um-LN は HEAD → /robots.txt → GET しに来る。 Accept: は HEAD の時にしかつけてこないので、 サイトによってはGET時にちゃんと取得できてないのではという気もする。
	ClientPtr: static.NN.NN.NN.NN.clients.your-server.de

	HEAD /path HTTP/1.1
	User-Agent:Mozilla/5.0 (compatible; um-LN/1.0; mailto: techinfo@ubermetrics-technologies.com; Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.1
	Host:host
	Accept:text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
	Connection:keep-alive

	GET /robots.txt HTTP/1.1
	Host:host
	Connection:Keep-Alive
	User-Agent:Mozilla/5.0 (compatible; um-LN/1.0; mailto: techinfo@ubermetrics-technologies.com; Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.1
	Accept-Encoding:gzip,deflate

	GET /path HTTP/1.1
	Host:host
	Connection:Keep-Alive
	User-Agent:Mozilla/5.0 (compatible; um-LN/1.0; mailto: techinfo@ubermetrics-technologies.com; Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.1
	Accept-Encoding:gzip,deflate
	
[VirusTotal scanner]
(2019-10-09) https://www.virustotal.com/gui/ の ウィルスチェックサービスのチェッカ。 指定したURLを入力してチェックできるように見えるが、 実際はクロール済、データベースに登録済のURLのみ結果が出る。 User-Agent: は User-Agent: が余計なこと以外は Firefox偽装。 Referer:は固定。 ヘッダの順番も本物とは違うし、 POSTでもないのに 謎の Content-Type:application/x-www-form-urlencoded をつけてくる。
	ClientHost: d4.49.caa1.ip4.static.sl-reverse.com [161.202.73.212]
	GET / HTTP/1.1
	Accept-Encoding:identity
	Accept-Language:en
	Host:host
	User-Agent:User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0
	Connection:close
	Referer:https://www.virustotal.com/en/
	Content-Type:application/x-www-form-urlencoded
	

(2023-07-03) 2023-06-04 から、User-Agent: User-Agent: ではなくなりました。 Referer:, Content-Type はなくなり、 Chromium Edge に偽装。 HTTPエンジンは交換されたものと思われる。

	ClientPTR: ec2-3-133-98-NN.us-east-2.compute.amazonaws.com [3.133.98.NN]
	GET /path HTTP/1.1
	Host:host
	Accept:*/*
	Accept-Encoding:gzip, deflate
	User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36 Edg/96.0.1054.43
	
Wayback Save Page
(2019-09-01) Internet Archive の下端にある Save Page (今そのページを保存)を起動すると、 https://web.archive.org/save/URL で そのページを代理取得して、余計なJavaScriptを付加してレンダリングする。 Via:に特徴的な記録を残すが、X-Forwarded-for: の類は残さない。 一発URLのみだが匿名プロクシとして使えるかもしれない。
	ClientPTR: wwwb-appNN.us.archive.org
	GET /path HTTP/1.1
	Accept:browser original
	Accept-Charset:browser original
	Accept-Language:browser original
	User-Agent:browser original
	User-Agent:Mozilla/5.0 (compatible; archive.org_bot; Wayback Machine Live Record; +http://archive.org/details/archive.org_bot)	User-Agentが無かった場合
	Via:HTTP/1.0 web.archive.org (Wayback Save Page)
	Connection:close
	Host:host
	Accept-Encoding:gzip,deflate
	No X-Forwarded-For
	
webprosbot
(2022-03-15) 不明。2021-08-13 より、HEAD / と GET / のみを散発的に観測。 この当時は /robots.txt を読んでいないので、 検索すると方々の /robots.txt で Disallow: webprosbot にされている。 (/robots.txt 読んでなかったので意味ないですが)

2022-03-15 から観測しているものは /robots.txt を取得しているが、 依然 GET / のみなので意図が不明。

	ClientHost: ec2-NN-NN-NN.eu-west-1.compute.amazonaws.com
	GET /robots.txt HTTP/1.1
	Host:host
	User-Agent:webprosbot/2.0 (+mailto:abuse-6337@webpros.com)
	Connection:close
	
WorksOgCrawler
(2022-12-21) 詳細は不明だが、多分サムネール生成用ロボット。 LINE WORKS (NAVER WORKS) 用? なぜか HEAD -> GET -> GET する。 HEAD の時には UA は Java/ のまま。 HTTP的には Pinpoint- で始まるヘッダを大量につけてくる。 なんだろう、Kafkaのプラグイン? Accept-Language: ko固定なのはあまりよろしくないのでは。
ユーザーエージェント情報に関して
	ClientIPA: 211.249.40.* (dreamline.co.kr)

	HEAD /path HTTP/1.1
	Accept:text/html
	Pinpoint-TraceID:cvapi02.ncsone-eq0sz^1671541700119^4012243
	Pinpoint-SpanID:-8744669647234554155
	Pinpoint-pSpanID:-6662013965512372121
	Pinpoint-Flags:0
	Pinpoint-pAppName:NCS_HOME_OPEN_GRAPH
	Pinpoint-pAppType:1010
	Pinpoint-Host:host
	Cache-Control:no-cache
	Pragma:no-cache
	User-Agent:Java/1.8.0_161
	Host:host
	Connection:keep-alive

	GET /path HTTP/1.1
	Accept-Encoding:gzip
	User-Agent:facebookexternalhit/1.1; Mozilla/5.0 (compatible; WorksOgCrawler/1.0.0;)
	Accept-Language:ko
	Accept:text/html
	Pinpoint-TraceID:cvapi02.ncsone-eq0sz^1671541700119^4012243
	Pinpoint-SpanID:-192219640814989944
	Pinpoint-pSpanID:-6662013965512372121
	Pinpoint-Flags:0
	Pinpoint-pAppName:NCS_HOME_OPEN_GRAPH
	Pinpoint-pAppType:1010
	Pinpoint-Host:host
	Cache-Control:no-cache
	Pragma:no-cache
	Host:host
	Connection:keep-alive

	GET /path HTTP/1.1
	Accept-Encoding:gzip
	User-Agent:Mozilla/5.0 (compatible; WorksOgCrawler/1.0.0;) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36
	Accept-Language:ko
	Accept:text/html
	Pinpoint-TraceID:cvapi02.ncsone-eq0sz^1671541700119^4012243
	Pinpoint-SpanID:-868310285688737567
	Pinpoint-pSpanID:-6662013965512372121
	Pinpoint-Flags:0
	Pinpoint-pAppName:NCS_HOME_OPEN_GRAPH
	Pinpoint-pAppType:1010
	Pinpoint-Host:host
	Cache-Control:no-cache
	Pragma:no-cache
	Host:host
	Connection:keep-alive
	
wp_is_mobile
(2022-06-02) WordPress の脆弱性のスキャナは普段から多数観測されますが、 User-Agent: wp_is_mobileAccessPress Themes のバックドアスキャナ。 User-Agent: と Cookie: でバックドアが起動される。 理由は不明だがこのスキャナは referer: www.bing.com も固定でつけてくる。
	GET /wp-booking.php HTTP/1.1
	Host:host
	Connection:keep-alive
	Accept-Encoding:gzip, deflate
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
	User-Agent:wp_is_mobile
	Accept-Language:en-US,en;q=0.9,fr;q=0.8
	Cache-Control:max-age=0
	referer:www.bing.com
	Cookie:b6c7f4bc046cc515687e9381975c6e0b=66e70d37e21ebc3540741373ae51059b;
	Upgrade-Insecure-Requests:1
	
Y!J-WSC
(2023-11-30) Yahoo!Japan が動かしている目的不明の再帰ロボット。 2023-08-01より観測。 UA中の https://yahoo.jp/3BSZgF は https://support.yahoo-net.jp/PccSearch/s/article/H000007955 へのリダイレクト。

クローラーについて

ウェブページを巡回し、コンテンツを収集・蓄積するシステムを「クローラー」を呼びます。Yahoo! JAPANでは、次のようなユーザーエージェントを持ったクローラーが、検索サービスでの利用や研究、開発などの目的で、ウェブページの収集と蓄積を行っています。
  • Y!J-BRU/VSIDX
  • Y!J-BRW
  • Y!J-ASR
  • Y!J-MMP/dscv
  • Y!J-WSC

Y!J の検索出力は Googlebot なので、直接の検索用ではなさそうではあるが。 *.rpm も吸い上げていく。やめれ。

	ClientPTR: crawl.182-22-30-NN.yahoo-net.jp [182.22.30.NN]
	GET /path-including-binary HTTP/1.1
	User-Agent:Mozilla/5.0 (compatible; Y!J-WSC/1.0; +https://yahoo.jp/3BSZgF)
	Host:vega.pgw.jp
	Connection:Keep-Alive
	Accept-Encoding:gzip,deflate
	Accept:*/*
	Accept-Language:ja-JP,ja;q=0.8,en-US;q=0.6,en;q=0.4
	Sec-Fetch-Dest:document
	Sec-Fetch-Mode:navigate
	Sec-Fetch-Site:none
	
[Yahoo!Japan unknown image acquision]
(2019-07-28) /robots.txt は取得しない。画像ファイルばかりを間欠的に取得する。 画像検索自体はY!Jが使っているGoogleにも備わっているので、 別のサービスの準備?
	GET /image_file HTTP/1.1
	Host:host
	Accept-Encoding:gzip
	Connection:keep-alive
	Accept:*/*
	User-Agent:Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/525.13 (KHTML, like Gecko) Chrome/0.A.B.C Safari/525.13 (Yahoo!Japan)
	
[yahoo-net.jp image proxy]

(2018-10-12) 詳細不明。画像だけを取得する。 UAは色々なものが見られるので、画像proxyか何かのような気もする。 サムネール表示変換?

	ClientIPa: exproxy0NN.pf.news.kks.yahoo-net.jp [183.79.92.1NN]
	GET /path_of_image HTTP/1.1
	Host:host
	User-Agent:variable
	(no other headers)
	
Yahoo! Slurp
(2019-09-20) 2019/05/26 を最後に観測されなくなりました。 http://www.yahoo.com/ の収集ロボットは、 "useragentstring.com" で検索すると 現在はbingbot になっているようです。

Referer: として http://host を渡してくる。 また、渡した覚えのない Cookie を渡してくる。 クッキーを食わない物は拒否するサーバーか何かの アクセスコントロールの回避用だろうか?

	ClientHost: edge.lax02.as64271.net [161.129.38.254]
	GET /path HTTP/1.1
	Host:host
	User-Agent:Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Charset:windows-1252,utf-8;q=0.7,*;q=0.7
	Accept-Encoding:gzip, deflate
	Accept-Language:en-us;q=0.5,en;q=0.3
	Cookie:a=1
	Referer:http://host
	
[fake yandex.ru robot]
(2019-09-14) ロシアの検索エンジン yandex.ru の通常の再帰クローラは YandexBot ですが、 どうも通常のブラウザに偽装した収集活動もしているようです。 User-Agent だけでは完全偽装で区別つかないが、 Referer: に取得URLそのものをつけてくるのと、 Accept-Language: がつかないので区別が付けられないこともない。 Accept: は Chrome と同じ。 少なくとも下記のアドレス領域は yandex.ru の所有なので、 ロボットとみてほぼ間違いないでしょう。 User-Agent はかなり種類があるので、ブラウザのプラグインから 起動されているのかもしれない。
	ClientAddr [5.188.*.*], [84.201.128.0 - 84.201.191.255], other .ru region
	GET /path HTTP/1.0
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
	User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36 OPR/55.0.2994.44	various
	Referer:http://host/path
	Host:host
	Connection:close
	No Accept-Language
	

通常のブラウザはReferer:に取得URLそのものを入れることはない。 が、Lynxは例外でリロード時にReferer:に同じURLが入る。 滅多にありませんが。

Yeti
(2019-09-11) 韓国の検索エンジン Naver のロボット。 Accept-Charset や Accept-Language には韓国語優先の指定が入っています。 当サイトでのアクセス間隔は非常に緩慢(1ヶ月に1回くらい)なので 再帰型かどうかはまだわからない。 (旧:nabot)
	ClientPtr: crawl.NN-NN-NN-NN.web.naver.com
	GET /path HTTP/1.1
	Host:host
	Connection:Keep-Alive
	User-Agent:Mozilla/5.0 (compatible; Yeti/1.1; +http://naver.me/spd)
	Accept-Encoding:gzip,deflate
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Charset:windows-949,utf-8;q=0.7,*;q=0.3
	Accept-Language:ko-KR,ko;q=0.8,en-US;q=0.6,en;q=0.4
	
YisouSpider
(2024-02-15) Yahoo!の中国語版検索サイト Yisou のロボットかと思われる。 Y!のロボットは bingbot なので、 中国用に別ロボットが必要だったのかもしれない。 Y!が捨てた Slurp ロボットとの関係は 不明だが、なさそう。

画像も取得する。 .html取得時と画像取得時でヘッダ構造がだいぶ違うので、 違うサービスを並列で動かしているのかもしれない。 .html取得時の UA や accept-language がなんか投げやりな感じ。

	GET path HTTP/1.1
	Accept-Encoding:gzip, deflate
	Host:host
	Upgrade-Insecure-Requests:1
	User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36
	accept:*/*
	accept-language:zh-CN,zh;q=0.9
	Connection:close
	
	GET /image_url HTTP/1.1
	Accept:*/*
	Accept-Encoding:gzip
	Accept-Language:zh-CN,zh-TW;q=0.9,zh;q=0.8,en;q=0.7
	Host:host
	Referer:proper referrer
	User-Agent:YisouSpider
	Connection:close
	
YouBot
(2023-12-18) 再帰型検索エンジン用ロボット。 2023-02-26 より観測。 UA中のURLは検索ページで、YouBotの記述については https://about.you.com/youbot/ にある。JavaScriptとCookieを食えないと403 Deniedになる。 robots.txtは守っているように見える。 取得間隔は数分〜数時間おき。 クラスタで動いているのか、同一URLを2重取りしたりする。
	GET /path HTTP/1.1
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Language:en
	User-Agent:YouBot (+http://www.you.com)
	Accept-Encoding:gzip, deflate
	Host:host
	
[unknown your-server.de bot]
(2022-04-13) 不明な再帰ロボット。2020-10-30 より観測。 ヘッダ類は Chrome にほぼ完全偽装しているが、 Accept-Encoding:br, gzip が独特。 →Bravebot

/robots.txt は読まないが、 今のところ立入禁止区域には入ってきていない。 取得間隔は日に1〜2回と緩慢。

*.clients.your-server.de では MJ12bot, DataForSeoBot も動いているのでややこしい。

	ClientPTR: static.NN.NN.161.5.clients.your-server.de [5.161.NN.NN]
	GET /path HTTP/1.1
	Host:host
	User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36
	Accept-Language:en-US,en;q=0.9
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	DNT:1
	Connection:keep-alive
	Accept-Encoding:br, gzip
	
参考:本物の Chrome/84 のヘッダ:
	GET /path HTTP/1.1
	Host:host
	Connection:keep-alive
	Upgrade-Insecure-Requests:1
	User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
	Referer:referrer
	Accept-Encoding:gzip, deflate
	Accept-Language:ja,en-US;q=0.9,en;q=0.8
	
[youtube-dl]
(2019-12-26) この Mozilla/5.0 (X11; Linux x86_64; rv:10.0) Gecko/20150101 Firefox/47.0 (Chrome) というUAは Firefox のものではなく、 youtube-dl などの 動画ダウンローダに設定されているもののようです。 観測しているものは HEAD → GET しているが、 Accept-Encoding: がなぜか違う。
	HEAD /path HTTP/1.1
	Host:host
	Connection:close
	User-Agent:Mozilla/5.0 (X11; Linux x86_64; rv:10.0) Gecko/20150101 Firefox/47.0 (Chrome)
	Accept-Charset:ISO-8859-1,utf-8;q=0.7,*;q=0.7
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Language:en-us,en;q=0.5
	Accept-Encoding:gzip, deflate

	GET /path HTTP/1.1
	Host:host
	Connection:close
	User-Agent:Mozilla/5.0 (X11; Linux x86_64; rv:10.0) Gecko/20150101 Firefox/47.0 (Chrome)
	Accept-Charset:ISO-8859-1,utf-8;q=0.7,*;q=0.7
	Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
	Accept-Language:en-us,en;q=0.5
	Accept-Encoding:*
	
Zoombot
(2022-08-24) Zoom チャットのURLプレビュー機能と思われる。 通常のプレビュー機能は /robots.txt も一応チェックした後に 素直に GET しに来るが、Zoombotはアクセスが少々くどい。
  1. ターゲットをHEADで確認
  2. /robots.txt取得
  3. ターゲット取得
  4. HEAD /favicon.ico
  5. HEADが失敗してても GET /favicon.ico

ヘッダの構造からするに、okhttp はともかく /robots.txt 取得と本文取得では違う HTTP エンジンを使っている模様。

    ClientPTR: 170-114-10-202.zoom.us [170.114.10.202]
  1. 一回目のアクセス HEAD /~kabe/linux/zip-unicode/utf-8.html HTTP/1.1 x-zm-b3:6305d8ac01cbaf52003b05af9630ad24-003b05af964c7286-1-003b05af9630ad25 Host:host Connection:Keep-Alive Accept-Encoding:gzip User-Agent:okhttp/4.9.3
  2. /robots.txt 取得 GET /robots.txt HTTP/1.1 Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3 Accept-Charset:utf-8,ISO-8859-1;q=0.7,*;q=0.7 Accept-Encoding:x-gzip, gzip Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Host:host Connection:Keep-Alive User-Agent:Mozilla/5.0 (compatible; Zoombot/1.0; +https://zoom.us; crawler@domain.com)
  3. 本文取得 GET /contentpath HTTP/1.1 User-Agent:Zoombot Host:host Accept:text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2 Connection:keep-alive
  4. /favicon.ico チェック HEAD /favicon.ico HTTP/1.1 Host:host Connection:Keep-Alive Accept-Encoding:gzip User-Agent:okhttp/4.9.3
  5. /favicon.ico 取得 GET /favicon.ico HTTP/1.1 Host:host Connection:Keep-Alive Accept-Encoding:gzip User-Agent:okhttp/4.9.3

かべ@sra-tohoku.co.jp