]>
[unknown above.net robot] adidxbot admantx-* adscanner (seocompany.store) Adsbot Adsbot (seostar.co) adscanner (seoscanners.net) AguseScan AlexaMediaPlayer [unknown alibaba.com .cn scanner] [Alkonavt checker] AlphaBot Amazonbot Applebot [Apple Messages preview] archive.org_bot [archive.ph archiver] [archive.today scraper] AspiegelBot [aws fake Chrome scanner] axios BaiduSpider [fake] Barkrowler best-proxies.ru bingbot BLEXBot [BlueCoat refresh] Bluecoat の /notify bnf.fr_bot Bravebot [unknown br,gzip robot] Bytespider CCBot CensysInspect [unknown centurylink.com crawler] Chatwork LinkPreview v1 CheckMarkNetwork Chrome-Compression-Proxy Cincraw clark-crawler2 ClaudeBot CloudFlare-AlwaysOnline Cloud mapping experiment. Contact research@pdrlabs.net Confluence [cyberresilience.io scanner] DataForSeoBot datagnionbot Datanyze [Datasift.com/bot] DecompilationBot Discordbot DongleEmulatorBot D-RINE Spider DuckDuckBot-Https [DuckDuckGo-Edg-collector] Edge ELB-HealthChecker Exabot-Thumbnails [Expanse scanner] facebookexternalhit FAST-WebCrawler fidget-spinner-bot fluid FxiOS [gdnplus.com scanner] GenomeCrawlerd ggpht.com GoogleImageProxy Google-Apps-Script Googlebot Google+ web/snippet googleweblight GPTBot gzip(gfe) [Hello, World] Hello World [rootlayer.net .bd] [hetzner.de fake Firefox robot] Hi [protected by hidemyip.com] HTTP Banner Detection HTTrack [unknown hz.zj.cn scanner 1] ia_archiver ICC-Crawler Iframely ImageFetcher ImagesiftBot img2dataset [inf-net.ru unknown robot] [internet-census.org scanner] InternetMeasurement [JuziBrowser] KZ BRAIN Mobile l9explore libfetch line-poker Linespider Linespider, Mobile Safari disguised ltx71 MADBbot Mail.RU_Bot ManicTime Mastodon MauiBot Mediatoolkitbot [scanner as MetaSr Sogou browser] Mobile Safari (auxfiles) [Microsoft Trident^2 checker] Microsoft Office Word 2014 MTRobot Neevabot netEstate NE Crawler NetSystemsResearch Nimbostratus-Bot "nlpproject.info research" nsrbot Odin OPR [unknown PaloAlto recursive robot 1] PaperLiBot pc2m PerplexityBot PetalBot Photon [pindc.ru unknown robot] PocketImageCache PocketParser PostmanRuntime [pptechnology.cc .uk scanner] Project 25499 Project Patchwatch Qwantify/Bleriot [research.sorengard.com .git/config scanner] ReverseEngineeringBot optout.scanopticon.com Scrapy search.marginalia.nu SeekportBot Seekport Crawler SemrushBot SEOkicks serpstatbot SERPtimizerBot SeznamBot [shodan.io] ShortLinkTranslate Silk SkypeUriPreview Slackbot SMTBot socialmediascanner.eset.com Sogou web spider [sparqnet.net scanner] Spawning-AI special_archiver SpiderLing Steeler [stretchoid.com] SurdotlyBot [super-seo-guru.com Referer spam] Swisscows Favicons tchelebi thesis-research-bot [ThinkPHP scanner] threatpulse [unknown AWS Tokyo crawler] trendictionbot [trendiction.de fake Firefox robot] [tvt.net.cn /editBlackAndWhiteList RCE] Twingly Recon-Klondike Twitterbot um-LN [ubermetrics-technologies.com] [VirusTotal scanner] Wayback Save Page webprosbot WorksOgCrawler wp_is_mobile Y!J-WSC [Yahoo!Japan unknown image acquision] [yahoo-net.jp image proxy] Yahoo! Slurp [fake yandex.ru robot] Yeti YisouSpider YouBot [unknown your-server.de bot] [youtube-dl] Zoombot ( 187 entries )
$Revision: 1.235 $ $Date: 2024-12-29 12:35:18+09 $
UA は Chrome 完全偽装だが、
Accept-Encoding: x-gzip, gzip, deflate
が特徴的なので、
ヘッダを集めていれば判別はしやすい。
ほかのヘッダも、なんでそんな値なのかがよくわからない。
ClientPTR: 64.124.8.NN.available.above.net [64.124.8.NN] GET /content-path HTTP/1.1 Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3 Accept-Charset:utf-8,iso-8859-1;q=0.7,*;q=0.7 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Encoding:x-gzip, gzip, deflate User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36 Host:host
(2022-10-03)
2022-07-22 から、If-Modified-Since:
での
帯域節約を行うようになりました。珍しい。
ただ、入れてくる日付はリプライヘッダの
Last-Modified:
ではなく、
最後に取得した日付を入れてくる。
Googlebotの真似をしているのか (Googleも間違っている)、
単に Last-Modified:
をデータベースに入れていないのか、は不明。
最近は動的サイトが増えているので、Last-Modified:
が
つかないサイトも多いとは思いますが。
ClientPTR: 64.124.8.NN.available.above.net [64.124.8.NN] GET /path HTTP/1.1 If-Modified-Since:RFC1123-date-of-last-crawl Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3 Accept-Charset:utf-8,iso-8859-1;q=0.7,*;q=0.7 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Encoding:x-gzip, gzip, deflate User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36 Host:host
adidxbot 単体では /robots.txt には対応していないように見えてしまうが、 たぶん bingbot と共用。 HTTPヘッダの並びは bingbot と同じなので、HTTPエンジンは共用と思われる。
GET /path HTTP/1.1 Cache-Control:no-cache Connection:Keep-Alive Pragma:no-cache Accept:*/* Accept-Encoding:gzip, deflate From:bingbot(at)microsoft.com Host:host User-Agent:Mozilla/5.0 (compatible; adidxbot/2.0; +http://www.bing.com/bingbot.htm)
ページを自然言語処理解析して分類し、最適な 広告を配信するために使う、そうです。 なので、基本的には広告を出しているようなページの所有者が 陽に要求を出してクロールさせるもの。 広告を出してないページには基本的に来ないはずですが、 なんででしょうね…
User-Agentはadmantx-environmentということで、 不定のようです。 /robots.txt には対応してません。 「/robots.txtで禁止されているページに対する要求は来ないはずだ」 というよくわからん理屈で未対応。 単に対応させるのがめんどくさかっただけのように思える。
ClientHost: loft11332.dedicatedpanel.com [85.25.237.52] GET /path HTTP/1.1 Accept-Encoding:gzip User-Agent:admantx-euaspb/3.1 (+http://www.admantx.com/service-fetcher.html) Host:host Accept:text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2 Connection:keep-aliveこのアクセスの直後に、http:/// に対するChrome詐称アクセスも観測されるが、 目的や詐称理由は不明。 Accept: からHTTPエンジンは同じものだと推察される。
ClientHost: loft9361.dedicatedpanel.com [188.138.75.77] GET / HTTP/1.1 Accept-Encoding:gzip User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Host:host Accept:text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2 Connection:keep-alive
ClientAddr: malta2467.startdedicated.de [85.93.88.91] GET /imageURL HTTP/1.1 User-Agent:Mozilla/5.0 (compatible; adscanner/)/1.1 (http://seocompany.store; spider@seocompany.store) Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3 Host:host Accept-Encoding:gzip Via:http/1.1 localhost[UUID] (ApacheTrafficServer/7.1.2)
2019-10-29 を最後に途絶え、後継らしき seoscanners.net に代わっています。
HTTPエンジン的には
Referer: http://host/
固定なのがあざとく感じる。
/path/content.html
を持って行ったあと、
リンクは無いのに /path/
も持っていこうとするのも
不審な感じ。
ClientPTR:xx-xx-xx-xx.hosted.static.webnx.com GET /path HTTP/1.1 Host:host User-Agent:Mozilla/5.0 (compatible; Adsbot/3.1) Referer:http://host/ Accept:text/html Connection:close Accept-Encoding:gzip
こちらの Adsbotは 2021-02-28 を最後に途絶え、下の Adsbot (seostar.co) に交代した模様。
Bot Type: Goodと自称しているのは非常にあざとい。
目的は SEO のための逆リンク探知らしいが、 契約しないとデータはくれない模様。
以前のAdsbotと比べると、Adsbot/3.1
の文字列自体は継承されているが、
ヘッダの順番が違うのでHTTPエンジンは変更されていると思われる。
Referer:http://host/ 固定 というわざとらしい点は継承。
/path/file を取った後に /path/ を取る癖は無くなっている。
ClientPTR:ip-216-18-204-196.seostar.co [216.18.204.196] GET /path HTTP/1.1 Host:host User-Agent:Mozilla/5.0 (compatible; Adsbot/3.1; +https://seostar.co/robot/) Accept:*/* Connection:close Accept-Encoding:gzip Referer:http://host/ 固定
User-Agent: 文字列が、なんか取っ散らかっている感じ。 この形式は adscanner (seocompany.store) と同じなので、後継と思われる。 Mozilla/5.0 が頭とカッコの中にある。よくわからない。 キャッシュプロキシは Traffic Server から Squid に変えている雰囲気。
なお、UA中の URL を (JavaScript有効なブラウザで) 踏むと、 www.qfind.net に飛ばされ、派手な偽ウィルス感染警告が出ます。 踏まないことを推奨。 (サイトを乗っ取られてるだけかもしれませんが)
https://seoscanners.net [103.224.182.253]:443 に入っているSSL証明書には SubjectAltNames が大量に入ってますが、seoscanners.net が ありません。
MXの park-mx.above.com [103.224.212.34]:25 には、 ホスト名がデフォルトの localhost の go-smtpdが そのまま入ってます。RCPT TO: に対し常に 250 を返すので、 spider@seoscanners.net が不達アドレスかどうかの確認もできない。 というかまともなメールプロバイダはこんなメールサーバで運転したりしない。 色々怪しすぎる。
ClientPTR: malta2nnn.startdedicated.de [85.25.185.mmm] GET /image HTTP/1.1 User-Agent:Mozilla/5.0 (compatible; adscanner/)/1.0 (Mozilla/5.0 (compatible; seoscanners.net/1.0; +spider@seoscanners.net); http://seoscanners.net; spider@seoscanners.net) Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3 Accept-Encoding:gzip Host:host Cache-Control:max-age=259200 Connection:keep-alive
AguseScan
を含んだSafari詐称UA。
なぜか Accept-Language: en,*。UAの通知だけが目的?
ClientAddr:plnnnn.agnnnn.nttpc.ne.jp 1回目 GET / HTTP/1.1 User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/534.34 (KHTML, like Gecko) AguseScan Safari/534.34 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Encoding:gzip Accept-Language:en,* Host:host Connection:keep-alive 2回目 GET / HTTP/1.1 User-Agent:Mozilla/5.0 (X11; U; Linux x86_64; ja-JP) AppleWebKit/533.3 (KHTML, like Gecko) Qt/4.8.0 Safari/533.3 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Connection:Keep-Alive Accept-Encoding:gzip Accept-Language:ja-JP,en,* Host:host 3回目 GET / HTTP/1.0 Host:host Connection:close
/stream/live.php
を直接叩きに来る
GET /stream/live.php HTTP/1.1 Host:I.P.ad.dr User-Agent:AlexaMediaPlayer/2.1.4676.0 (Linux;Android 5.1.1) ExoPlayerLib/1.5.9 Accept-Encoding:gzip, deflate Accept:*/* Connection:keep-alive
/sitemap.xml
があればなんか違うアクセスが来るんだろうか?
ClientAddr:[8.219.nn.nn] (alibaba.com .cn singapore) GET / HTTP/1.0 Host:I.P.ad.dr GET / HTTP/1.1 User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36 Host:I.P.ad.dr Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3 Accept-Encoding:gzip, deflate Accept-Language:zh-CN,zh;q=0.9 Connection:close GET /robots.txt HTTP/1.1 User-Agent:fasthttp Host:I.P.ad.dr GET /sitemap.xml HTTP/1.1 User-Agent:fasthttp Host:I.P.ad.dr
ClientIPa: 5.188.210.* GET /path HTTP/1.0 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8 User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36 OPR/55.0.2994.44 User-Agent:Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36 Kinza/4.7.2 Referer:http://host/path Host:host ClientIPa: 5.188.210.* Keep-Alive:15 Connection:keep-alive User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36 Accept:*/* Content-Type:application/x-www-form-urlencoded
robots.txt を読むとは書かれているが、実際は全く読まない。
ClientIPa: [23.237.4.26] (no PTR) GET / HTTP/1.0 Host:host User-Agent:Mozilla/5.0 (compatible; AlphaBot/3.2; +http://alphaseobot.com/bot.html) Accept:text/html Connection:Keep-Alive
UA中の https://developer.amazon.com/support/amazonbot は動的サイトで、 ブラウザの Accept-Language により別のURLへ飛ばされる場合もあり。 Last-Modified: がつかないので、いつから存在したURLなのかは不明。 用途は (Amazon) Alexa の検索結果の向上のため、など、とある。
挙動は比較的おとなしく、取得は5〜10秒ほどの間隔を空けてくる。
画像は持っていかないが、どう考えても Alexa の役には立たない .rpmはごっそり取得していく。頭悪い。 .rpmを除外リストに入れていないロボット多すぎ。 →(20241217) 2021/05/01 の初出時のみだった模様。 その後、.rpmの取得は観測されていない。
ClientPTR: ec2-NN.NN.NN.NN.compute-1.amazonaws.com GET /path HTTP/1.1 From:amazonbot@amazon.com Host:host Connection:Keep-Alive User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Accept-Encoding:gzip,deflate Accept:, Accept-Language: なし
(2024/12/17) 2024/12/13 から、User-Agent が変わっています。 何かのまねというわけでもない。
GET /path HTTP/1.1 Connection:close Host:host User-Agent:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36 Accept-Encoding:gzip,deflate Accept:, Accept-Language: なし
どこからURLの供給を受けているのかは不明。 AppleはGoogleとは距離を置いているので、 Googleから供給を受けているとは考えにくい。 Mobile SafariがAppleに検索結果を横流ししてるんだろうか?
HTTPヘッダが Camel-Case になってないのが特徴的。 http://www.apple.com/go/applebot は 301リダイレクトでhttps://www.apple.com/go/applebot へ、 さらに https://support.apple.com/kb/HT6619 へ リダイレクトされます。
Client: 17-NN-NN-NN.applebot.apple.com [17.NN.NN.NN] accept-encoding:gzip, identity host:host accept:*/* user-agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Applebot/0.1; +http://www.apple.com/go/applebot)2020-06-30 から、 Accept-Language, Accept を追加するようになりました。 Accept-Lanugage: ja-jp ですが、アクセスドメインのTLDだけ見ているとすれば 意味ないような (無しのほうがまだ使える情報が取れるはず)
GET /path HTTP/ 1.1 Accept-Language:ja-jp Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 accept-encoding:gzip,identity host:host user-agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
GET /path HTTP/1.1 GET /favicon.ico HTTP/1.1 GET /apple-touch-icon-precomposed.png HTTP/1.1 GET /apple-touch-icon.png HTTP/1.1 Host:host Proxy-Connection:keep-alive Upgrade-Insecure-Requests:1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_1) AppleWebKit/601.2.4 (KHTML, like Gecko) Version/9.0.1 Safari/601.2.4 facebookexternalhit/1.1 Facebot Twitterbot/1.0 Accept-Language:ja-jp Accept-Encoding:gzip, deflate Connection:keep-alive
ClientAddr: crawl835.us.archive.org [207.241.229.33] GET /path HTTP/1.0 Connection:Close Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Host:host User-Agent:Mozilla/5.0 (compatible; archive.org_bot +http://www.archive.org/details/archive.org_bot)
FAQのページはなぜか 広告もなく、すごく見やすい。 「人間の真似をするものなので、/robots.txt に対応してません」というのは 危なっかしい前提ではある。 (第三者がAPIで採集指示を出したらどうなるんだ?)
採集には Chrome Headless を使っているのか、 ヘッダ類やアクセスパターンは Chrome/92 と全く同じで判別不能。 アクセス元のIPアドレスでしか判別できないかも。
ClientPTR: 179.43.151.41 [179.43.151.41] ClientPTR: 37.1.202.102 [37.1.202.102] GET /path HTTP/1.1 Host:host Connection:keep-alive Upgrade-Insecure-Requests:1 User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9 Accept-Encoding:gzip, deflate Accept-Language:en-US,en;q=0.9
スキャン時には X-Forwarded-For をつけますよ となっているが、実際はついてこない。
(2024-09.11) 再帰型ではないとうたっているが実際は再帰型のWebアーカイバロボット。 URL指示は人間が出すからと理由で robots.txt には 非対応 を明記。 画像、favicon.icoも収集する、 ただ、取得間隔は非常に緩慢で、1URL/月程度。
ヘッダ類はその時代のChromeを完全偽装。 識別にはアクセス元しか方法がない。 たまにホスティング業者を変えてくる。 2024-03-21〜現在2024-09-11 は vmd110945.contaboserver.net [109.123.229.250] (contabo.de) を使用。 また、通常の GET の他に、ポートスキャンも行い、access_log には 408 エラーコードを残す。
ClientPTR: vmd110945.contaboserver.net [109.123.229.250] (2024-03-21〜) GET /path HTTP/1.1 Host:host Connection:keep-alive Upgrade-Insecure-Requests:1 User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.4853.256 Safari/537.36 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9 Accept-Encoding:gzip, deflate Accept-Language:en-US,en;q=0.9
(2022-04-08) Googleから締め出された Huawei の検索エンジン用 再帰ロボット。 2019-09-24 からそれらしきアクセスを観測。 このころは /robots.txt 非対応。 .rpm のようなバイナリも吸い上げていくので、バイナリ関連はサーバ側での ブロックを推奨。
最初は、主に中国製 Android を偽装した収集活動を行っていたようです。 UAは4種類くらいを使用。 UAの空白になんとなく無頓着な点が中国っぽい。 この当時は、逆引きが ecs-159-138-NN-NN.compute.hwclouds-dns.com [159.138.NN.NN] でした。
ClientPTR: ecs-159-138-NN-NN.compute.hwclouds-dns.com [159.138.NN.NN] GET /path HTTP/1.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:zh-CN,zh;q=0.9 Referer: ←最初は空のReferer: だった時期がある User-Agent:Mozilla/5.0 (Linux; Android 7.0; FRD-AL00 Build/HUAWEIFRD-AL00; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/53.0.2785.49 Mobile MQQBrowser/6.2 TBS/043602 Safari/537.36 MicroMessenger/6.5.16.1120 NetType/WIFI Language/zh_CN User-Agent:Mozilla/5.0(Linux;Android 5.1.1;OPPO A33 Build/LMY47V;wv) AppleWebKit/537.36(KHTML,link Gecko) Version/4.0 Chrome/42.0.2311.138 Mobile Safari/537.36 Mb2345Browser/9.0 User-Agent:Mozilla/5.0(Linux;Android 5.1.1;OPPO A33 Build/LMY47V;wv) AppleWebKit/537.36(KHTML,link Gecko) Version/4.0 Chrome/43.0.2357.121 Mobile Safari/537.36 LieBaoFast/4.51.3 User-Agent:Mozilla/5.0(Linux;U;Android 5.1.1;zh-CN;OPPO A33 Build/LMY47V) AppleWebKit/537.36(KHTML,like Gecko) Version/4.0 Chrome/40.0.2214.89 UCBrowser/11.7.0.953 Mobile Safari/537.36 Connection:Close Host:host Accept-Encoding:gzip,deflate
2020-01-07 〜 2020-03-05: この期間から Squid キャッシュを経由させるようになったようで、 特徴的な Via: と X-Forwarded-For: がつくようになりました。 2020-03-03 から、同じ hwclouds-dns.com でも ecs-114-119-NN-NN.compute.hwclouds-dns.com [114.119.NN.NN] といった逆引きがつきます。 /robots.txt を読むようになったのは 2020-02-05 になってから。
ClientIPA: [114.119.NN.NN] GET /path HTTP/1.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 User-Agent:Mozilla/5.0 (Linux; Android 7.0; FRD-AL00 Build/HUAWEIFRD-AL00; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/53.0.2785.49 Mobile MQQBrowser/6.2 TBS/043602 Safari/537.36 MicroMessenger/6.5.16.1120 NetType/WIFI Language/zh_CN User-Agent:Mozilla/5.0 (iPad; CPU OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53 User-Agent:Mozilla/5.0(Linux;Android 5.1.1;OPPO A33 Build/LMY47V;wv) AppleWebKit/537.36(KHTML,link Gecko) Version/4.0 Chrome/42.0.2311.138 Mobile Safari/537.36 User-Agent:Mozilla/5.0(Linux;Android 5.1.1;OPPO A33 Build/LMY47V;wv) AppleWebKit/537.36(KHTML,link Gecko) Version/4.0 Chrome/42.0.2311.138 Mobile Safari/537.36 Mb2345Browser/9.0 User-Agent:Mozilla/5.0(Linux;Android 5.1.1;OPPO A33 Build/LMY47V;wv) AppleWebKit/537.36(KHTML,link Gecko) Version/4.0 Chrome/43.0.2357.121 Mobile Safari/537.36 User-Agent:Mozilla/5.0(Linux;Android 5.1.1;OPPO A33 Build/LMY47V;wv) AppleWebKit/537.36(KHTML,link Gecko) Version/4.0 Chrome/43.0.2357.121 Mobile Safari/537.36 LieBaoFast/4.51.3 User-Agent:Mozilla/5.0(Linux;U;Android 5.1.1;zh-CN;OPPO A33 Build/LMY47V) AppleWebKit/537.36(KHTML,like Gecko) Version/4.0 Chrome/40.0.2214.89 Mobile Safari/537.36 User-Agent:Mozilla/5.0(Linux;U;Android 5.1.1;zh-CN;OPPO A33 Build/LMY47V) AppleWebKit/537.36(KHTML,like Gecko) Version/4.0 Chrome/40.0.2214.89 UCBrowser/11.7.0.953 Mobile Safari/537.36 Accept-Language:ja-JP,en;q=0.8,zh;q=0.1 Accept-Encoding:gzip,deflate Host:host Via:1.1 squid.test (squid/3.5.20) X-Forwarded-For:10.179.3.28 Cache-Control:max-age=259200 Connection:keep-alive
2020-03-05 から AspiegelBot を名乗るようになります。 なんとなくUAの空白に無頓着な点は継承。 すぐに 2020-03-06 から Android詐称に変わっています。
ClientPTR:ecs-114-119-NN-NN.compute.hwclouds-dns.com [114.119.NN,NN] GET /path HTTP/1.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 User-Agent:Mozilla/5.0 (compatible;AspiegelBot) 2020-03-05のみ User-Agent:Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; AspiegelBot) Accept-Language:ja-JP,en;q=0.8,zh;q=0.1 Accept-Encoding:gzip,deflate Host:host Via:1.1 squid.test (squid/3.5.20) X-Forwarded-For:10.179.3.19 Cache-Control:max-age=259200 Connection:keep-alive
2020-04-10 から、逆引きが ecs-114-119-NN-NN.compute.hwclouds-dns.com から 114-119-NN-NN.aspiegelbot になります。 この逆引きは TLDに無いので、正引きは失敗します。
ClientPTR: 114-119-NN-NN.aspiegelbot [114.119.NN.NN] GET /path HTTP/1.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 User-Agent:Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; AspiegelBot) Accept-Language:ja-jp,en;q=0.8,zh;q=0.1 Accept-Encoding:gzip,deflate Host:host Via:1.1 squid.test (squid/3.5.20) X-Forwarded-For:10.179.3.154 Cache-Control:max-age=259200 Connection:keep-alive
2020-05-21 から、逆引きが *.aspiegel.com になり、 PetalBot を名乗るようになります。 /robots.txt は 持っていきますが、 従っていない という情報もあり。
GET /path HTTP/1.1 ClientPTR: petalbot-114-119-NN-NN.aspiegel.com [114.119.NN.NN] Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 User-Agent:Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://aspiegel.com/petalbot) Accept-Language:ja-jp,en;q=0.8,zh;q=0.1 Accept-Encoding:gzip,deflate Host:host Via:1.1 squid.test (squid/3.5.20) X-Forwarded-For:10.179.80.180 Cache-Control:max-age=259200 Connection:keep-alive
2020-06-28〜2021-01-11 の期間は、 なぜか Mozilla/5.0 詐称が消え、UA の空白に無頓着な点に逆戻り。
ClientPTR: petalbot-114-119-NN-NN.aspiegel.com [114.119.NN.NN] GET /robots.txt HTTP/1.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 User-Agent:(compatible;PetalBot;+https://aspiegel.com/petalbot) Accept-Language:ja-jp,en;q=0.8,zh;q=0.1 Accept-Encoding:gzip,deflate Host:host Via:1.1 squid.test (squid/3.5.20) X-Forwarded-For:10.179.4.193 Cache-Control:max-age=259200 Connection:keep-alive
2021-01-13 から、特徴的だった Via: と X-Forwarded-For: が消えました。
ClientPTR: petalbot-114-119-NN-NN.aspiegel.com [114.119.NN.NN] GET /robots.txt HTTP/1.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 User-Agent:(compatible;PetalBot;+https://aspiegel.com/petalbot) Accept-Language:ja-jp,en;q=0.8,zh;q=0.1 Accept-Encoding:gzip,deflate Host:host Cache-Control:max-age=259200 Connection:keep-alive
2021-03-11 から逆引きが *.petalsearch.com になります。
ClientPTR: petalbot-114-119-NN-NN.petalsearch.com [114.119.NN.NN] GET /robots.txt HTTP/1.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 User-Agent:(compatible;PetalBot;+https://aspiegel.com/petalbot) 2021-03-11にだけ観測 Accept-Language:ja-jp,en;q=0.8,zh;q=0.1 Accept-Encoding:gzip,deflate Host:host Cache-Control:max-age=259200 Connection:keep-alive
2022-03-24 から、UA の空白がまともになりました。 また、Accept-Language から zh がなくなっているものが 混じるようになりました。 なお、UA中の https://webmaster.petalsearch.com/site/petalbot は、 JavaScript がないと一切 内容 が表示されません。 問題があれば petalbot@huawei.com に連絡しろ、とある。
ClientPTR: petalbot-114-119-NN-NN.petalsearch.com [114.119.NN.NN] GET /path HTTP/1.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 User-Agent:Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot) Accept-Language:ja-jp,en;q=0.8 Accept-Encoding:gzip, deflate Host:host Cache-Control:max-age=259200 Connection:keep-alive
(2023-01-11) 2023-01-01 から、サーバ名部分が 12桁のランダム16進数の Via: をつけるようになりました。なぜかは不明。 ランダムにすると自分かどうかがわからなくなるので、 意図がいまいちわからない。 純正の Squid はこんな感じで
src/HttpHeader.cc : HttpHeader::addVia() buf.appendf("%d.%d %s", ver.major, ver.minor, ThisCache);ホスト名匿名化機能なんかないので、 頑張って改造したんでしょうなぁ
GET /path HTTP/1.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 User-Agent:Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot) Accept-Language:ja-jp,en;q=0.8 Referer:correct referrer Accept-Encoding:gzip, deflate Host:host Via:1.1 randhex12 (squid/5.7) X-Forwarded-For:10.179.80.178 Cache-Control:max-age=259200 Connection:keep-alive
(2023-08-25)
2023-05-17 から、Squidの改造はやめたようです。
Via: 1.1 localhost (Squid/5.7)
になっています。
2023-06-10 から、Via: に正常なホスト名がつくようになりました。
ClientPTR: petalbot-114-119-134-NN.petalsearch.com [114.119.134.NN] GET /path HTTP/1.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 User-Agent:Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot) Accept-Language:ja-jp,en;q=0.8 Referer:correct Referer: Accept-Encoding:gzip, deflate Host:host Via:1.1 sin3-tysearch-crawler-178-18-173 (squid/5.7) X-Forwarded-For:10.179.80.166 Cache-Control:max-age=259200 Connection:keep-alive
clienthost: ec2-nn-nn-nn-nn.compute-1.amazonaws.com User-Agent:User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31 Host:host Connection:Keep-Alive
(2024-09-28) 汎用HTTPエンジンなので、用途は不定。 2024-09-27より観測しているのは HEAD しかしないので 更新チェッカと思われる。 /robots.txt 非対応。 取得間隔が数秒おきで、かなり目だつ。せめて毎5分くらいにしてくれ…
HEAD /~kabe/WWW/agentgripes.html HTTP/1.1 Accept:application/json, text/plain, */* User-Agent:axios/1.7.7 Accept-Encoding:gzip, compress, deflate, br Host:vega.pgw.jp Connection:keep-alive no Accept-Language
ロボットにはブラウザのUAをつけましょう という参考文献もある。凶悪。
純正 Baiduspider:
ClientPTR: baiduspider-NN.NN.NN.NN.crawl.baidu.com GET /path HTTP/1.1 Host:host Connection:close User-Agent:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) Accept-Encoding:gzip Accept-Language:zh-cn,zh-tw Accept:*/*
ただ、現在観測できているものは、Baiduspiderを偽装し Torネットワークを介した「セキュリティスキャナ」ばかりです。
GET / HTTP/1.1 Host:I.P.ad.dr User-Agent:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) Connection:close Accept:*/* Accept-Encoding:gzip no Accept-Language
BaiduSpider
だけのものは完全に偽物です。
偽装 UA リストの中にでも入っているんだろうか。
GET /path HTTP/1.1 User-Agent:BaiduSpider Accept-Encoding:gzip, deflate Host:host:80 X-Forwarded-For:I.P.ad.dr
https://babbar.tech/crawler にある「何のため」は
We are crawling the web in order to measure it by calculating some helpfull metrics (popularity, trust, categorization).これだけ。
ClientPtr: crawl-beta-8.babbar.eu [62.210.189.2] ClientPtr: crawl-dev-2.babbar.eu [154.54.249.16] (2020-09-02〜) GET /path HTTP/1.1 From:tech@babbar.tech Accept:text/html;q=0.95,text/*;q=0.9,*/*;q=0.8 Accept-Language:* Accept-Charset:* Host:host Connection:Keep-Alive User-Agent:Mozilla/5.0 (compatible; Barkrowler/0.9; +https://babbar.tech/crawler) Accept-Encoding:gzip,deflate
(2022-07-19) Accept-Language:*, Accept-Charset:* は害しかないと判断したのか、 2022-06-15 からこれらのヘッダはなくなりました。 UA はそのまま。
ClientPTR: crawl-dev-4.babbar.eu [154.54.249.18] ClientPTR: crawl-prodd4-3.babbar.eu [154.54.249.195] GET /path HTTP/1.1 From:tech@babbar.tech Accept:text/html;q=0.95,text/*;q=0.9,*/*;q=0.8 Host:host Connection:Keep-Alive User-Agent:Mozilla/5.0 (compatible; Barkrowler/0.9; +https://babbar.tech/crawler) Accept-Encoding:gzip,deflate
(2023-01-11) 匿名プロクシスキャナ。 2022-12-16 より観測。スキャン頻度は数か月に一回と緩慢。 http://fingerprints.bablosoft.com/ でアクセス検査しているが、 best-proxies.ru との関連はなさそう。そのうち検知・ブロックされて 別の検知URLに乗り換える可能性も考えられる。
この手のスキャナは UA だけ偽装したものが多いが、 正直に宣言しているのは評価できる。
CONNECT fingerprints.bablosoft.com:443 HTTP/1.1 Host:fingerprints.bablosoft.com:443 Proxy-Connection:keep-alive User-Agent:Mozilla/5.0 (Windows NT 6.1; rv:16.0) Gecko/20100101 Firefox/16.0 (+https://best-proxies.ru/faq/#from) GET http://fingerprints.bablosoft.com/ip?Z71655590380Q1 HTTP/1.1 Host:fingerprints.bablosoft.com Cookie:Z71655590380Q1 User-Agent:Mozilla/5.0 (Windows NT 6.1; rv:16.0) Gecko/20100101 Firefox/16.0 (+https://best-proxies.ru/faq/#from) Referer:https://google.com/ Content-Type:application/x-www-form-urlencoded Content-Length:9 Connection:close
通常版 ClientPtr: msnbot-NN-NN-NN-NN.search.msn.com GET /path HTTP/1.1 Cache-Control:no-cache Connection:Keep-Alive Pragma:no-cache Accept:*/* Accept-Encoding:gzip, deflate From:bingbot(at)microsoft.com Host:host If-Modified-Since:RFC1123 date If-None-Match:"ETag value" User-Agent:Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
Mobile Safari 詐称版 ClientPtr: msnbot-NN-NN-NN-NN.search.msn.com GET /path HTTP/1.1 Cache-Control:no-cache Connection:Keep-Alive Pragma:no-cache Accept:*/* Accept-Encoding:gzip, deflate From:bingbot(at)microsoft.com Host:host User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
UA中の http://webmeup-crawler.com/ はロボットについての説明だが、 「何のため」は
BLEXBot assists internet marketers to get information on the link structure of sites and their interlinking on the web, to avoid any technical and possible legal issues and improve overall online experience.これだけ。 売りのバックリンクチェックサービスは https://webmeup.com/ にあるが、 そこへのリンクすらない。 無料でもバックリンクチェックはできるが、ドメイン毎の大まかな概要だけ。 Angular.JS で書かれているので JavaScript非対応ブラウザだと 悲惨な画面になる。
ClientHost: ninja-crawler39.webmeup.com [94.130.34.225] GET /htmlpath HTTP/1.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 User-Agent:Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/) Host:host Connection:Keep-Alive Accept-Encoding:gzip,deflate
Mozilla/4.0 (compatible;)
が使われる。
Cache-Control: max-stale=0
を付加するといった
特徴も昔と変わっていない。
GET /contentpath HTTP/1.1 Host:host User-Agent:Mozilla/4.0 (compatible;) Accept:text/html, */* Accept-Encoding:identity Cache-Control:max-stale=0 Connection:Keep-Alive X-BlueCoat-Via:hex16
Referer:http://host/notify-Notify_Warning1-Type3?base64-68;base64-44 Referer:http://host/notify-Caution_Notification?base64-60;base64-44 Via:1.1 proxyhost Cache-Control:max-stale=0 Connection:Keep-Alive X-BlueCoat-Via:hex16
本サーバへのアクセスは画像取得だけ観測のため、 再帰型かどうか、/robots.txtを無視しているかどうかも不明。 本来はフランス語・フランスドメインの収集だけを行うはず、らしい。
Referer: には正しい、参照されているURLを渡してくる。珍しい。 当サイトに来ているのは、某.frなページに画像だけ貼り付けられている ための模様。
ClientAddr: [194.199.7.28] (Bibliotheque Nationale de France) GET /image HTTP/1.0 From:robot@bnf.fr Connection:Close Referer:Correct Referer Accept:text/xml, application/xml, application/xhtml+xml, text/html; q=0.9, text/plain; q=0.8, image/png, */*; q=0.5 Accept-Language:fr, en; q=0.3 Host:host User-Agent:Mozilla/5.0 (compatible; bnf.fr_bot; +https://www.bnf.fr/fr/capture-de-votre-site-web-par-le-robot-de-la-bnf)
(2024-10-20) 当サイトには /robots.txt の取得しか観測されていない。 検索サイトのデータベースには当サイトが載っているので、 サイトデータ採集は何か別のものに偽装しているものと思われる。 https://search.brave.com/help/brave-search-crawlerには、 Googlebotに偽装しているような書かれ方をしているが、 確認はできなかった。
収集は、Accept-Encoding:br, gzip
が共通の
[unknown your-server.de bot]
かもしれない。
ClientPTR: static.235.37.27.37.clients.your-server.de [37.27.37.235] GET /robots.txt HTTP/1.1 Host:host User-Agent:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Bravebot/1.0; +https://search.brave.com/help/brave-search-crawler) Chrome/W.X.Y.Z Safari/537.36 Accept-Language:en-US,en;q=0.9 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 DNT:1 Connection:keep-alive Accept-Encoding:br, gzip
珍しく If-Modified-Since に対応している。 付けてくる時刻は Last-Modified: ではなく最後に取得した時刻の模様。
GET /path HTTP/1.1 User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3 Accept-Charset:utf-8,iso-8859-1;q=0.7,*;q=0.7 If-Modified-Since:time-of-last-crawl Accept-Encoding:br,gzip Host:host Connection:Keep-Alive
当サイトでは 2020-09-27 より観測。 /robots.txt での立ち入り禁止区域へは入ってきていないが、 守っていない という情報もあり。 理由は不明だが、Referer: にランダムな URL を入れてくる場合がある。 アクセス頻度は緩慢だが、.rpm は持っていく。自主的にやめてほしい。
https://zhanzhang.toutiao.com/ にアクセスしても検索ボックスはない。 ユーザー登録しないと検索させてくれないのかもしれない。
ClientPTR: bytespider-NN-NN-NN-NN.crawl.bytedance.com GET /image HTTP/1.1 Host:host User-Agent:Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/) Accept:*/* Referer:random URL
2022-05-29 から毛色の違うものを観測。頻度は少ない。 HTTP ヘッダの構造が違うので、全く異なる用途のものと思われる。
ClientPTR: bytespider-110-249-202-163.crawl.bytedance.com [110.249.202.163] GET / HTTP/1.1 host:I.P.ad.dr user-agent:Mozilla/5.0 (compatible; Bytespider; https://zhanzhang.toutiao.com/) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.0.0 Safari/537.36 accept:*/* Connection:Keep-Alive(2023-06-20) 2022-06-04 を最後に PTR: bytepider-*.crawl.bytedance.com からのアクセスは途絶え、 2023-05-18 から AWS からの収集に切り替わっている。 UA中の https://zhanzhang.toutiao.com/ への言及は 2023-06-15 からなくなり、メールアドレスのみ。
ClientPTR: ec2-*.ap-southeast-1.compute.amazonaws.com GET /path HTTP/1.1 host:host accept-language:en-US,en;q=0.5 user-agent:'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Mobile Safari/537.36'Bytespider;https://zhanzhang.toutiao.com/ (2023-05-18〜2022-05-31まで) user-agent:Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; spider-feedback@bytedance.com) (2023-06-15〜) accept:image/webp,image/apng,image/*,*/*;q=0.8 accept-encoding:gzip, deflate Connection:Keep-Alive
(2024-10-20) 2024-03-25 から、似ているがヘッダがCamel-Case化しました。 HTTPエンジンを交換したものと思われる。 Accept: も微妙に違う。
GET /path HTTP/1.1 Host:host Content-Length:0 Upgrade-Insecure-Requests:1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/heif,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7 User-Agent:Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko)Mobile Safari/537.36 (compatible; Bytespider; spider-feedback@bytedance.com) Accept-Encoding:gzip, deflate Accept-Language:en-US,en;q=0.5
GET / HTTP/1.1 User-Agent:CCBot/2.0 (https://commoncrawl.org/faq/) Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:en-US,en;q=0.5 Host:host Connection:Keep-Alive Accept-Encoding:gzip
ClientPTR: scanner-NN.ch1.censys-scanner.com GET / HTTP/1.1 Host:IPaddr:80 GET / HTTP/1.1 Host:IPaddr User-Agent:Mozilla/5.0 (compatible; CensysInspect/1.1; +https://about.censys.io/) Accept:*/* Accept-Encoding:gzip
この偽装Chromeのバージョンは2022年後半の物なので、 その時期に作られたロボットと思われる。
.rpm も取得していく。あまり頭がよくない。 Chromeに偽装しているので、簡単にアクセス制御フィルタが書けない。
ClientIPA: 205.169.39.63 (centurylink.com) GET /path HTTP/1.1 Host:host User-Agent:Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36 Accept-Encoding:gzip No Accept-Language, Accept-Encoding
Accept-Language:ja,en;q=0.9
は
コンテンツ取得時だけで、
/robots.txt 取得時はつかない。なぜかは不明。
ClientPTR: ec2-NN-NN-NN-NN.ap-northeast-1.compute.amazonaws.com (AWS 東京リージョン) GET /robots.txt HTTP/1.1 User-Agent:Chatwork LinkPreview v1 Host:host Accept:text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2 Connection:keep-alive GET /content-path HTTP/1.1 Accept-Language:ja,en;q=0.9 User-Agent:Chatwork LinkPreview v1 Host:host Accept:text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2 Connection:keep-alive
(2022-12-09)
2022-11-08 から、Accept: */*
になりました。
そんなに効果あるのかな。
ヘッダの順番も微妙に違う。
GET /path HTTP/1.1 Accept-Language:ja,en;q=0.9 User-Agent:Chatwork LinkPreview v1 Accept:*/* Host:host Connection:keep-alive
HEAD / しか観測していません。取得間隔も数か月間隔。 /robots.txt に対応しているとなっていますが /robots.txt を持って行った形跡なし。 興味があるサイトかどうか判定してから持っていくのかもしれませんが。
/robots.txt (Robot Exclusion Protocol)のことを "Googlebot specification" と書いているので、 RXPの名称や規定が Googlebot以前からあったことを知らない人が 書いているのかもしれない。
ClientHost:ec2-18-224-45-26.us-east-2.compute.amazonaws.com HEAD / HTTP/1.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 User-Agent:CheckMarkNetwork/1.0 (+http://www.checkmarknetwork.com/spider.html) Host:host Connection:keep-alive
ClientPtr: google-proxy-66-NN-NN-NN.google.com GET /path HTTP/1.1 Host:host Accept:image/webp,image/apng,image/*,*/*;q=0.8 Accept-Encoding:gzip, deflate Accept-Language:ja-JP,ja;q=0.9,en-US;q=0.8,en;q=0.7 Forwarded:for=IPv4addr|"[IPv6addr]" Save-Data:on Scheme:http Via:1.1 Chrome-Compression-Proxy X-Forwarded-For:IPv4 or IPv6 addr Connection:keep-alive User-Agent:Mozilla/5.0 (origin header?) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/origin.version Mobile Safari/537.36
UA中のhttp://cincrawdata.net/bot/ (https://cincrawdata.net/bot/へリダイレクト) には「何々はしない」と羅列されているが、肝心の 「何のため」は一切書かれていない。
ClientPTR: *.static.cnode.io [150.95.*] (GMO.jp region) GET /path HTTP/1.1 Upgrade-Insecure-Requests:1 User-Agent:Mozilla/5.0 (compatible; Cincraw/1.0; +http://cincrawdata.net/bot/) Accept-Language:ja Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8 Accept-Encoding:gzip, deflate Host:host Via:1.1 cincrawdata.net (squid/3.5.12) Cache-Control:max-age=259200 Connection:keep-alive
通常のページや画像取得は上記のようにSquidを通っているが、 なぜか /robots.txt 取得時はSquidを通らない。 ヘッダの順番も違うので、/robots.txt取得時は違うHTTPエンジンを 使っているものと推察される。
GET /robots.txt HTTP/1.1 Host:host Accept:*/* User-Agent:Mozilla/5.0 (compatible; Cincraw/1.0; +http://cincrawdata.net/bot/) Accept-Language:ja
(2022-07-20) 2021-04-10 から Squid が3.5→4.10に更新されました。
ClientPTR: *.static.cnode.io [118.27.117.*] (GMO.jp region) GET /path HTTP/1.1 Upgrade-Insecure-Requests:1 User-Agent:Mozilla/5.0 (compatible; Cincraw/1.0; +http://cincrawdata.net/bot/) Accept-Language:ja Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9 Accept-Encoding:gzip, deflate Host:host Via:1.1 cincrawdata.net (squid/4.10) Cache-Control:max-age=259200 Connection:keep-alive
HTTPエンジンは独自のものと思われる。 Host:が最後についたり、Accept-Charset が普通とは異なっていたり、 Accept-Encoding に br (brotli) が最初に入っていたりと、 他のHTTPエンジンとはずいぶん感じが違う。
ClientPTR: ec2-*.us-east-2.compute.amazonaws.com GET /path HTTP/1.1 User-Agent:clark-crawler2/Nutch-1.19-SNAPSHOT Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3 Accept-Charset:utf-8,iso-8859-1;q=0.7,*;q=0.7 Accept-Encoding:br,gzip Host:host Connection:Keep-Alive
(2024-10-07) 再帰取得ロボット。 2024-04-19 より観測。 anthropic.com はAI屋なので、学習データ収集のためと思われる。 /robots.txt は読んでいて、従っているように見えるが、 画像も収集する。 アクセス間隔は数秒空けてくる。よいが、 巨大な .rpm も収集する。やめれ。
GET /robots.txt HTTP/1.1 accept:*/* user-agent:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com) accept-encoding:gzip, br, zstd, deflate (2024-05-11〜) host:host
UAに入っているURLは https: にリダイレクトされるので、 CloudFlareの例によってブラウザによってはアクセスできないURLです。
GET /image.url HTTP/1.1 User-Agent:Mozilla/5.0 (compatible; CloudFlare-AlwaysOnline/1.0; +http://www.cloudflare.com/always-online) AppleWebKit/534.34 Accept:*/* Referer:correct referrer URL Connection:Keep-Alive Accept-Encoding:gzip Accept-Language:en,* Host:host
While there are academic projects (such as Censys.io) that do effectively the same thing that we're doing, these projects have limits of use on the data. We are an industry group using this data to help build products and services that are used to manage and monitor the performance and security of large-scale networks. Because we build commercial tools, we're unable to take advantage of existing datasets and have undertaken this project which uses the same techniques and has similar goals to academic projects.Censys.io などと目的は似てるらしいのですが商用利用したいため 車輪を再発明したということです。 /robots.txt を読む、ということですが実際は読みません。 GET / だけを行う。(たまに HEAD / もする) アクセス間隔は緩慢で、数日おき〜数カ月おき。
ClientPTR: ec2-NN-NN-NN-NN.compute-1.amazonaws.com GET / HTTP/1.1 Host:I.P.addr User-Agent:Cloud mapping experiment. Contact research@pdrlabs.net Accept:*/* Accept-Encoding:gzip
HTTP的には X-Confluence-HTTP-Stack-Depth:1
という謎のヘッダを渡してくる。
なお http://www.atlassian.com/software/confluence は https://www.atlassian.com/software/confluence へのリダイレクトで、 HTTP/1.1 非対応のブラウザ (リリース版のLynx2.8.8とか)では アクセスできない仕様。 Confluenceの営業ページなのでUser-Agentに関する資料は無し。
GET /path HTTP/1.1 X-Confluence-HTTP-Stack-Depth:1 User-agent:Confluence/5.9.4 (http://www.atlassian.com/software/confluence) accept-charset:utf-8 Host:host GET /favicon.ico HTTP/1.1 X-Confluence-HTTP-Stack-Depth:1 User-agent:Confluence/5.9.4 (http://www.atlassian.com/software/confluence) Host:host
Accept-Encoding: UTF-8
というのは間違い。
読んでいるサーバーは極小でしょうから気づかれてないだけでしょうけど。
ClientPTR: portscanner-nyc1-NN.prod.cyberresilience.io ClientPTR: portscanner-fra1-NN.prod.cyberresilience.io GET / HTTP/1.1 Host:i.p.ad.dr Accept:*/* Accept-Charset:UTF-8 Accept-Encoding:UTF-8 Accept-Language:* User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:79.0) Gecko/20100101 Firefox/79.0
このロボットも画像は持っていかないが、
.rpm は全部吸い上げていく。前口上の割には頭悪い。
<A href="opera:">
があると
BASEPATH/opera:
を吸い上げようとする。頭悪い。
ClientPTR: static.125.224.76.144.clients.your-server.de [144.76.224.125] GET /path HTTP/1.1 Host:host Connection:close User-Agent:Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot) Accept-Encoding:gzip, deflate, br Accept-Language:* (2022-07-05〜) If-Modified-Since:random past timedate (2022-05-14〜) Upgrade-Insecure-Requests:1
というか、SEO屋というのは市井ではバックリンク情報を提供する 会社のことを指すようになったんでしょうかね。 本来は Search Engine Optimization (検索サイトで上位に表示されるようにアドバイスする)が 仕事のはずなんですが。
(2023-01-12)頭悪そうな割には If-Modified-Since: を送るようになってきました。 ただ、入れてくる時刻は Last-Modified: でも最終取得時刻でもない。
UA中の http://www.datagnion.com/bot.html は https://www.datagnion.com/bot.html へのリダイレクト。
/robots.txt は読まない。読まれたくなければ support[@]datagnion.comに連絡しろ、とある。
ClientHost: dapr-kvm05.datagnion.com [94.130.53.35] HEAD /SNS-posted-path HTTP/1.1 User-Agent:datagnionbot (+http://www.datagnion.com/bot.html) Connection:close Host:host Accept:text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
関連については裏が取れなかったが、 https://www.datanyze.com/pricing によると ビジネス用のメールアドレス、電話番号のリストを売っているようなので、 そういう情報を集めようとしているのかもしれない。
ヘッダ類は器用に Chrome の真似をしている。
ClientPTR: *.vultr.com GET / HTTP/1.0 Host:host Proxy-Connection:close User-Agent:Mozilla/5.0 (X11; Datanyze; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:en-US,en;q=0.5 Accept-Encoding:gzip, deflate DNT:1 Referer:http://host Origin:http://host sec-ch-ua:" Not;A Brand";v="99", "Google Chrome";v="65", "Chromium";v="65" sec-ch-ua-mobile:?0 sec-gpc:1 Connection:close
ClientHost: sftNNN.sysms.net [185.20.6.NN] GET /path HTTP/1.1 Host:host User-Agent:Mozilla/5.0 (TweetmemeBot/4.0; +http://datasift.com/bot.html) Gecko/20100101 Firefox/31.0 Accept:text/*,application/xhtml+xml,application/xml,application/x-httpd-php Accept-Encoding:gzip
ClientHost: *.35.bc.googleusercontent.com [35.*.*.*] GET /path HTTP/1.1 User-Agent:Mozilla/5.0 (compatible; Discordbot/2.0; +https://discordapp.com) Host:host
と書いてある(これで全文)が、Internet Archive (ia_archiver) は robots.txt は順守しているので、無知と言える。Webcrawler
If my webcrawler bot annoys/abuses you/your website, please drop me a note: bot@yurichev.com
The webcrawler doesn't honor robots.txt. But so is the Internet Archive.
UA は DecompilationBot, DongleEmulatorBot, ReverseEngineeringBot を 入り混ぜて使用。使い分けられ方は不明。
ClientPTR: 98.ip-179-103-190.cdmx.mx.ipxon.net (2023-02-09) ClientPTR: li695-198.members.linode.com [88.80.187.198] (2023-07-22〜) HEAD /robots.txt HTTP/1.1 Host:host User-Agent:Mozilla/5.0 (compatible; DecompilationBot/0.1; +https://torus.company/bot.html) User-Agent:Mozilla/5.0 (compatible; DongleEmulatorBot/0.1; +https://torus.company/bot.html) User-Agent:Mozilla/5.0 (compatible; ReverseEngineeringBot/0.1; +https://torus.company/bot.html) Accept-Encoding:gzip, deflate Accept:*/* Connection:keep-alive
(2023-04-03) プライバシーに配慮しているという触れ込みの メタ検索エンジン用ロボット。 メタ検索エンジンは自力では末端サイトの情報は取りに行かないのが普通だが、 徐々に締め出されている ということで自力でも取りに行く、ようになったらしい。
オープンソースということだが、
提示されているGitHubのソースコード
の User-Agent は searx/1.1.0
なので、
実質は公開されていないロボットを使っているものと思われる。
GET /path HTTP/1.1 Host:host Accept-Encoding:x-gzip, gzip, deflate User-Agent:drinespider/Nutch-1.19 (D-RINE Spider; www.d-rine.com/search/about; www.d-rine.com/contact) Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3 Accept-Charset:utf-8,iso-8859-1;q=0.7,*;q=0.7 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Connection:close
画像だけを取得しに来ます。 DuckDuckGo は 画像検索は行っていないので、将来の画像検索のための 準備活動? Referer: に正規のURLを渡してくるロボットは珍しい。
User-Agent に '
が付加されてしまっているのはご愛敬。
GET /image-url.gif HTTP/1.1 Referer: linked HTML User-Agent:'Mozilla/5.0 (compatible; DuckDuckBot-Https/1.1; https://duckduckgo.com/duckduckbot)' Accept:*/* Connection:Keep-Alive Accept-Encoding:gzip, deflate Accept-Language:en-US,* Host:host
(2024-10-22)
DuckDuckGo は
User-Agent: DuckDuckBot/1.1; ...
で収集をしているかと思ってたんですが、
実際は Chrome Edgeに偽装した UA で収集を行っているようです。
つまり、robots.txt での特定のUAだけ許可、が仕様上、効かない。
偽装しているのはUAだけで、他のヘッダが無いので、 他のヘッダを収集していれば区別できないこともない。 アクセス元は Microsoft 管内なので、 Azureで動かしているのかもしれない。
ClientAddr: 20.197.112.233 et al (Microsoft (Azure?)) GET /echoserver.html HTTP/1.1 User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36 Edg/128.0.0.0 Host:host Connection:Keep-Alive no Accept:, Accept-Language, Accept-Encoding
(2018-10-12) Windows 10 に装備されている標準ブラウザ。 HTMLエンジンは Trident (MSIE) からのフォークのはずですが、 UAはChromeの真似をしています。 そんなに Chrome依存の Browser Sniffing って広く行われてるんですかね。
Accept:text/html, application/xhtml+xml, image/jxr, */* Accept-Language:ja,fr-FR;q=0.7,fr;q=0.3 User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.135 Safari/537.36 Edge/12.10240 Accept-Encoding:gzip, deflate Host:host Connection:Keep-Alive
(2024-03-08) AWS の Elastic Load Balancer が、 配下の実サーバの死活監視をするためのアクセス。 頻度は変えられるが、デフォルトは1分間隔の模様。 ちょっと頻繁かな?
Accept-Encoding: gzip, compressed というのは間違いだと思う。 (compressが正解) 今時 compress 使う人はいないのでどうでもよいんですが。
GET / HTTP/1.1 Host: 10.n.n.n Connection: close User-Agent: ELB-HealthChecker/2.0 Accept-Encoding: gzip, compressed
Konqueror っぽい User-Agent になってますが、他のヘッダが
本物とは全然違う ので、
単に詐称しているだけと考えられる。
Referer: も意味のないURLを渡してくる。
Accept-Encoding: windows-1252,utf-8;q=0.7,*;q=0.7
を渡す偽装検索エンジンロボット風のアクセスはよく見かけるので、
その構築キットを使っているのかもしれない。
GET /path HTTP/1.1 Referer: http://wrong.server.name Accept-Encoding:gzip, deflate User-Agent:Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Exabot-Thumbnails) Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:en-us;q=0.5,en;q=0.3 Accept-Charset:windows-1252,utf-8;q=0.7,*;q=0.7 Host:host Connection:Keep-Alive
スキャン間隔は数日に一回、/ だけを取得。 HTTPヘッダ類は最小限だが、 UAに4行にもなるような文字列を入れてくる。 https://expanse.co にはこのロボットに関する記述はない模様。
ClientHost: NN.NN.NN34.bc.googleusercontent.com [34.NN.NN.NN] (2021-02-14〜2022-04-25) ClientHost: [205.210.31.*] (paloaltonetworks.com) ClientHost: [198.235.24.*] (paloaltonetworks.com) GET / HTTP/1.1 Host:host User-Agent:Expanse, a Palo Alto Networks company, searches across the global IPv4 space multiple times per day to identify customers' presences on the Internet. If you would like to be excluded from our scans, please send IP addresses/domains to: scaninfo@paloaltonetworks.com買収発表が2020/12/15なので、それ以前は別の名前で活動していたと 思われるのだが、見つけられず。
User-Agent:中の URLは https: にリダイレクトされるが、 「古い」ブラウザは問答無用で「ブラウザーをアップデートしてください」 (https://www.facebook.com/unsupportedbrowser)に飛ばされる。 ので余計なJavaScriptとかを取り除いた ローカルコピー を用意しました。
参考文献:How To Blow Your Online Cover With URL Previews
ClientAddr: (no PTR) GET /path HTTP/1.1 Accept:*/* Accept-Encoding:deflate, gzip User-Agent:facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php) Range:bytes=0-524287 Host:host Connection:close
HTTP/1.1 301 Moved Permanently Location: http://search.yahoo.com/help/webmaster/crawlerで Yahoo.com のページに飛ばされるだけ。 301 Moved Permanently ということは、まともなロボット紹介ページを 書く気はないよ、ともとれる。 crawler@trd.overture.com には MX レコードもAレコードも無く、メールは不達。 発信源は digitalocean.com の配下で、一見 Yahoo!とは関係がない。
GET / HTTP/1.1 Host:host User-Agent:FAST-WebCrawler/3.8 (crawler at trd dot overture dot com; http://www.alltheweb.com/help/webmaster/crawler) Accept-Charset:utf-8 Accept-Encoding:gzip Connection:close
(2023-11-06) 不明な再帰ロボット。2023-10-27 から観測。 AWSの us-west-2 (Oregon) に展開。 初期のものは連続取得がひどかったが、今のものは5秒くらい 取得間隔を空けてくる模様。 画像は取得しない。*.html のみという渋い仕様。
ClientPTR: ec2-NN-NN-NN.us-west-2.compute.amazonaws.com GET /path HTTP/1.1 Connection:close Host:host User-Agent:test-bot 2023-10-26〜2023-10-30 User-Agent:fidget-spinner-bot 2023-10-31〜 User-Agent:thesis-research-bot 2023-11-07〜 Accept-Encoding:gzip,deflate
当サイトでは再帰動作は確認されず、 /robots.txt の取得のみ観測。
ClientPTR: salnikov1.serv-dns.ru [194.93.0.40] GET /robots.txt HTTP/1.0 Host:host User-Agent:Mozilla/4.0 (compatible; fluid/0.0; +http://www.leak.info/bot.html) Accept:*/*
iPhone/iPad 版のものは、/favicon.ico の他になぜか /basepath/favicon.ico を取得しようとする。 (大昔にも同じことをするブラウザがあったはずだが、失念)
GET /path/favicon.ico HTTP/1.1 Host:host Accept:image/*;q=0.8 Accept-Language:ja-jp Connection:keep-alive Accept-Encoding:gzip, deflate User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 13_1_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) FxiOS/19.1b16203 Mobile/15E148 Safari/605.1.15 (素Mac OS Xらしきもの) GET /path HTTP/1.1 Host:host Accept:*/* Accept-Language:ja-jp Connection:keep-alive Accept-Encoding:gzip, deflate User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15) AppleWebKit/605.1.15 (KHTML, like Gecko) FxiOS/20.1 Safari/605.1.15
Global Digital Network Plus scours the global public internet for data and insights.としか書いておらず、目的については不明。
GET / HTTP/1.0 User-Agent:https://gdnplus.com:Gather Analyze Provide. Accept:*/* (半分くらいの割合で、無い場合もあり) No Host:
(2024-10-23)
2024-03-08より観測。
UA に余計な '
がついている。
UA中の記載によると、
インターネット上の APIエンドポイント
(internet endpoint)の探索を行うらしい。
再帰型ではなく、いくつかのURLパスを決め打ちでアクセスしに来る。
/robots.txt 非対応。
1回のスキャンは数分間の間隔があく。
Host:I.P.ad.dr なので、 <VirtualHost>非対応。 正確なスキャンはできてない気もする。
ClientPTR: *.eu-west-2.compute.amazonaws.com GET /favicon.ico HTTP/1.1 GET /manage/account/login HTTP/1.1 GET /index.html HTTP/1.1 GET /+CSCOE+/logon.html GET /cgi-bin/login.cgi HTTP/1.1 GET /login.jsp HTTP/1.1 GET /doc/index.html HTTP/1.1 GET / HTTP/1.1 Host:I.P.ad.dr User-Agent:'Mozilla/5.0 (compatible; GenomeCrawlerd/1.0; +https://www.nokia.com/networks/ip-networks/deepfield/genome/)' Accept:*/* Accept-Encoding:gzip
Via:とかはつかないので、本来のアクセス元は不明。 User-AgentもFirefox似で固定。
GET /image HTTP/1.1 Host:host Connection:keep-alive User-Agent:Mozilla/5.0 (Windows NT 5.1; rv:11.0) Gecko Firefox/11.0 (via ggpht.com GoogleImageProxy) Accept-Encoding:gzip,deflate,br Accept-Encoding:gzip, deflate, br (2021/05/13-)
GET /path HTTP/1.1 Host:host Connection:keep-alive User-Agent:Mozilla/5.0 (compatible; Google-Apps-Script; beanserver; +https://script.google.com; id: UAEmdDd-OJHkkUEp3wY0zxZyMNaEcLcqqfHg) Accept-Encoding:gzip, deflate, br
(2018-10-12) 再帰型検索エンジン用ロボット。 通常のUAでも十分汚いのに、 Googlebotがこんな汚いUAを使っているのは、 レンダリングエンジンに Chromeを使用 してるためのようです。 JavaScriptで<div>の中身を埋めているようなページが 増えてきたための仕方ない処置でしょうかね。
クローラにしては非常に珍しくIf-Modified-Since: を渡してくる。 帯域削減に非常に有効なのですが、ほとんどのロボットは対応していない。 ただ、Googlebot は そのドキュメントの Last-Modified: ではなく、 最後に取得した時刻を入れている模様。 Apache httpd ではそれでも動作するが、古い Netscape HTTPD とかは 完全一致でしかチェックしてなかったと思うので、 ちゃんと帯域削減できているかは Webサーバの実装依存。
(2018-10-12時点) GET /path HTTP/1.1 Host:host Connection:keep-alive Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 From:googlebot(at)googlebot.com User-Agent:Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 通常版 User-Agent:Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 汚い版 Accept-Encoding:gzip,deflate,br If-Modified-Since:date
(2022-03-27時点) GET /path HTTP/1.1 Host:host AMP-Cache-Transform:google;v="1..8" ヘッダは2019-03-09より付与、この形式は 2021-08-06〜 Connection:keep-alive Accept:text/html,application/xhtml+xml,application/signed-exchange;v=b3,application/xml;q=0.9,*/*;q=0.8 From:googlebot(at)googlebot.com User-Agent:Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 通常版 User-Agent:Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.82 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 汚い版 Accept-Encoding:gzip, deflate, br If-Modified-Since:RFC1123 date of last crawl
Google+ は 2019/05にサービス停止しているのですが、 それ以降もたまに観測されるのはなぜだろう。
GET /content,image path HTTP/1.1 Host:host Connection:keep-alive Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36 Google (+https://developers.google.com/+/web/snippet/) Accept-Encoding:gzip,deflate,br
http://googleweblight.com/i?u=URL
で起動できる。
ケータイ端末での検索結果がこれ経由にされている場合もある。
スピード計測のための余計なJavaScriptが大量に追加されてくるので、
必ず軽くなるというわけでもない。
User-Agent などは元のブラウザに関係なく固定。 Accept-Languageくらいは素通ししてもいいんじゃないかと思うんですが。
ClientHost: google-proxy-64-233-172-188.google.com [64.233.172.188] GET /path HTTP/1.1 Host:host Accept-Language:en-US Connection:keep-alive Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 User-Agent:Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19 Accept-Encoding:gzip,deflate,br X-Forwarded-For:client-ip-addr
UA中の https://openai.com/gptbot は https://platform.openai.com/docs/bots/ へのリダイレクト。 JavaScript/Cookie が使えないと 403 になる。 このページに載っているUAは実際のものとは微妙に違う (カッコの位置が違う, GPTBot/1.1 は使われていない) ので、 あまり真面目にメンテナンスされているページではなさそう。
ClientIPA: 40.83.2.74 et al GET /textpath HTTP/1.1 User-Agent:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) User-Agent:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot) (2024-11-13〜) Accept-Encoding:gzip, deflate, br Accept-Encoding:gzip, br, deflate (2024-05-26〜) Accept:*/* Host:host Connection:keep-alive
2024-05-26 からのものは Accept-Encoding の順番が変わっているが、 ;q= を付けない限り HTTP的には優先順は同じはず。 deflate で圧縮してくるサーバーがいたんだろうか?
Forensic log を取っていてもはっきりわからないんですが、たぶん間違って
User-Agent: gzip(gfe)
のように
使われているんではないかと。
本来なら Accept-Encoding: gzip(gfe)
になるべきですが、
IIS が食えない らしい。
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.102 Safari/537.36 Viv/2.0.1309.37,gzip(gfe) User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0,gzip(gfe) User-Agent: Opera/9.80 (Windows NT 5.1) Presto/2.12.388 Version/12.18,gzip(gfe)
POST /GponForm/diag_Form?images/ HTTP/1.1 User-Agent: Hello, World User-Agent: CarlosMatos/69.0 User-Agent: Gemini/2.0 Accept: */* Accept-Encoding: gzip, deflate
ClientPTR: 110-49-31-64.static.reverse.lstn.net [64.31.49.110] (2022-03-04〜03-25) ClientPTR: 103-178-237-76.hosted-by.rootlayer.net [103.178.237.76] (2022-04-10) ClientPTR: hosted-by.rootlayer.net [103.178.236.75] (2022-04-11〜) GET / HTTP/1.1 Host:I.P.ad.dr:80 User-Agent:Hello World
ClientHost: p161n4 [94.130.167.82] GET /path HTTP/1.1 Accept-Charset:ISO-8859-1,utf-8;q=0.7,*;q=0.7 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Cache-Control:max-age=0 User-Agent:Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.14) Gecko/20080508 Ubuntu/8.04 (hardy) Firefox/51.0.1 User-Agent:Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.9b5) Gecko/2008032620 Firefox/52.6.0 User-Agent:Mozilla/5.0 (X11; U; Linux i686; fr; rv:1.9.0.3) Gecko/2008092510 Ubuntu/8.04 (hardy) Firefox/52.4.1 User-Agent:Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.11) Gecko/20080201 Firefox/52.7.3 User-Agent:Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.0.2) Gecko/2008092318 Fedora/3.0.2-1.fc9 Firefox/53.0 User-Agent:Mozilla/5.0 (X11; U; Linux i686; de; rv:1.9.0.9) Gecko/2009042113 Ubuntu/9.04 (jaunty) Firefox/52.7.4 Connection:close Refresh-Cache:1 Accept-Language:en-gb,en;q=0.5 Pragma:no-cache Host:host Accept-Encoding:gzip
[Thu Oct 03 23:18:10 2019] [error] [client 200.78.207.54] client sent HTTP/1.1 request without hostname (see RFC2616 section 14.23): /Pages/login.htm下記ヘッダは収集できたもののみです。たぶんこれで全部だと思う。
ClientAddr: various GET /Pages/login.htm HTTP/1.1 User-Agent: Hi Accept: */* Accept-Language: en-us Cache-Control: max-age=0
ClientAddr: [185.112.156.220] (mikrovps.net, .hu) GET /favicon.ico HTTP/1.1 User-Agent:Mozilla/5.0 compatible; MSIE 9.0; Windows NT 4.1 Chrome/31.0.1229.79 DNT:1 Accept:original Accept: Referer:protected by hidemyip.com Accept-Encoding:gzip, deflate Accept-Language:en-US,en;q=0.9 Host:host Cache-Control:max-age=259200
Go-http-client/1.1
のままでした。
Client-PTR: scan-nn.security.ipip.net GET / HTTP/1.1 Host:IP.Address User-Agent:Go-http-client/1.1 ~2018-10-08 User-Agent:HTTP Banner Detection (https://security.ipip.net) 2018-10-11~ Connection:close
(2021-09-03) Webサイトのオフライン閲覧用のミラーツール HTTrack。 再帰動作をする。
/robots.txt は持っていくようだが、実際は 全く無視される。 巨大な .rpm とかも全部吸い上げていく。 /robots.txt は効かないので、httpd.conf などでのアクセス制限を 強く推奨。
GET /path HTTP/1.1 Referer:seemingly valid Referer Connection:keep-alive Host:host User-Agent:Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98) Accept:text/html,image/png,image/jpeg,image/pjpeg,image/x-xbitmap,image/svg+xml,image/gif;q=0.9,*/*;q=0.1 Accept-Language:en, * Accept-Encoding:gzip, identity;q=0.9
Accept-Language
がないので、
知っていれば検出はできる。
ClientIPA: [183.136.225.*] [183.136.226.*] GET /favicon.ico HTTP/1.1 Host:I.P.ad.dr:80 User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE Accept:*/* Accept-Encoding:gzip Connection:close GET / HTTP/1.1 Host:I.P.ad.dr:80 User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:47.0) Gecko/20100101 Firefox/47.0 Accept:*/* Connection:keep-alive
ClientHost: *.compute-1.amazonaws.com GET /content HTTP/1.0 Connection:close Host:host User-Agent:ia_archiver From:crawler@alexa.com
/robots.txt の取得はきっちり1日に1回。
もっぱら .html を取得し、画像は持っていきませんが、 .rpm は取得する。謎。 If-Modified-Since を渡してくる。珍しい。 (トラヒック低減のためには非常に有効ですが、実装がめんどくさいので 対応ロボットは多くない)
ClientHost: gw.ucri.jgn-x.jp [202.180.34.186] GET /path HTTP/1.1 User-Agent:ICC-Crawler/2.0 (Mozilla-compatible; ; http://ucri.nict.go.jp/en/icccrawler.html) Accept:text/html;q=0.9,*/*;q=0.5 Accept-Language:ja If-Modified-Since:Tue, 06 Nov 2001 16:53:42 GMT Host:host Connection:close
/robots.txt は読まない。 メタデータ収集のためか、/favicon.ico の取得も行う点が他のロボットと違う。 (※/favicon.icoの取得有無でのロボット判別は効かない)
ソースコードを見る限り、 UAに埋め込まれるURLは動的のようだが、 実際に観測しているのは下記のもののみ。
ClientHost: ec2-*.compute-1.amazonaws.com, http-3-NN-NN-NN.iframely.com (AWS region) GET /path HTTP/1.1 user-agent:Iframely/1.3.1 (+https://iframely.com/docs/about) Atlassian accept:*/* accept-language:en-US;q=0.9,en;q=0.7,*;q=0.5 host:host accept-encoding:gzip,deflate,br Connection:keep-alive GET /favicon.ico HTTP/1.1 user-agent:Iframely/1.3.1 (+https://iframely.com/docs/about) host:host accept:*/* accept-encoding:gzip,deflate,br Connection:close no Accept-Language
Via: や X-Forwarded-For: がつかないので、どこのクライアントから 取得しようとしたのかはわからない。 画像以外は読めないので、通常の匿名プロクシとしては使用不可。
User-Agent:Mozilla/5.0 (compatible; ImageFetcher/8.0; +http://images.weserv.nl/) Host:host No Via:, X-Forwarded-For:
https://imagesift.com/about では、 /robots.txt に User-Agent: ImagesiftBot と書けば 制御はできる、と書かれているが、 画像ではなく *.html を採集する時は Chrome に偽装してくるので、 完全対応はしていない。 ImagesiftBot を名乗るようになったのは 2023-11-24以降だが、 その後も Chrome偽装 による取得は*.html, 画像とも観測されている。 完全に "ImagesiftBot" には移行していない。 つまり仕様上は /robots.txt に User-Agent: ImagesiftBot と書いても効果はない。
※HTML取得時は古めの Chrome に偽装 ClientPTR: 64.124.8.NN.available.above.net [64.124.8.NN] GET /path.html HTTP/1.1 User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3 Accept-Charset:utf-8,iso-8859-1;q=0.7,*;q=0.7 Accept-Encoding:br,gzip Host:host Connection:Keep-Alive
(2023-11-24〜) ※画像取得時は ImagesiftBot を名乗る、場合もある ClientPTR: 64.124.8.NN.available.above.net [64.124.8.NN] GET /path HTTP/1.1 User-Agent:Mozilla/5.0 (compatible; ImagesiftBot; +imagesift.com) Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3 Accept-Charset:utf-8,iso-8859-1;q=0.7,*;q=0.7 If-Modified-Since:Tue, 14 Nov 2023 06:12:42 GMT Accept-Encoding:br,gzip Host:host Connection:Keep-Alive
img2dataset;
の部分が設定可能。
/robots.txt には対応しておらず、X-Robots-Tag: ヘッダによる制御のみ。
ClientPTR: ec2-NN-NN-NN-NN.compute-1.amazonaws.com GET /~kabe/linux/c7-i586/snap6.jpg HTTP/1.1 Accept-Encoding:identity Host:host User-Agent:Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:72.0) Gecko/20100101 Firefox/72.0 (compatible; img2dataset; +https://github.com/rom1504/img2dataset) Connection:close
同一アドレス帯では、偽装yandex.ruのロボット も動いているので、それと関係しているのかもしれない。
この Accept: は Chrome 世代のブラウザのものの真似。 MSIE 6.0 の頃は application/xhtml+xml は発明されていなかったので、 Accept: を収集していればすぐに区別はつく。
ClientHost: [5.188.211.*] (inf-net.ru) GET /path HTTP/1.1 Connection:close User-Agent:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Host:host
Internet Census Group seeks to measure the global Internet with non-intrusive data collection techniques in order to analyze trends and benchmark security performance across a broad range of industries.とはいっても調査結果が公表されているとかいうわけでもない。We provide some of this data to system operators so they can remediate any issues.
/robots.txt は読まない。 スキャンされたくなければ optout@internet-census.org に連絡せよ、とある。 IoT機器は/robots.txtは持ってないのでまぁしょうがないのかもしれませんが。
User-Agent はChrome偽装だが、他のヘッダ類がChromeとは違うので 他のヘッダを集めていれば区別はつく。 スキャナはZMapを使っているらしいです。
ClientAddr: survey.internet-census.org [128.14.134.134] GET / HTTP/1.1 Host:I.P.ad.dr User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36 Accept:*/* Accept-Encoding:gzip
(2022-09-25)ポートスキャナ。2022-02-23 より観測。 3日に1回、/ だけを取りに来る。
以前はユーザ登録しないとデータ閲覧はできなかったようだったが、 今は https://driftnet.io/ からスキャン結果を閲覧できる。
逆引きと UA をちゃんと設定しているのは評価できる。
ClientPTR: *.internet-measurement.com GET / HTTP/1.1 Host:I.P.ad.dr User-Agent:Mozilla/5.0 (compatible; InternetMeasurement/1.0; +https://internet-measurement.com/) Connection:close Accept:*/* Accept-Encoding:gzip
偽Referer: の他に Origin: もつけてくる。 User-Agent に識別可能な文字列を入れてくるスキャナは珍しい。
GET /?q=node/add HTTP/1.1 Host:host Connection:Keep-Alive User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0; JuziBrowser) Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:en-US,en;q=0.5 Accept-Encoding:gzip, deflate DNT:1 Referer:http://host/ Origin:http://host/
<meta name="description" lang="ja" content="KZ BRAIN Mobile(ケーズブレイン モバイル)は、PCサイトをモバイル端末向けに変換するサイトです。[URL] http://servermobile.net" />X-Forwarded-For: ヘッダなどにつけるのが一般的なクライアントIPアドレスが User-Agentの末尾につく。 判別ロジックを組んでおかないとUA統計情報が汚れるかも。 目立たないが User-Agent は設定で何種類かに設定可能。
Host:host User-Agent:Mozilla/5.0 (compatible; KZ BRAIN Mobile; http://servermobile.net) @client-ip-addr デフォルト、Mozilla/5.0 User-Agent:DoCoMo/2.0 SH905i(c100;TB;W24H16) [kzm @client-ip-addr] DoCoMo User-Agent:KDDI-SA3A UP.Browser/6.2.0.13.1.4 (GUI) MMP/2.0 [kzm @client-ip-addr] au by KDDI User-Agent:SoftBank/1.0/912SH/SHJ002 Browser/NetFront/3.4 Profile/MIDP-2.0 Configuration/CLDC-1.1 [kzm @client-ip-addr] Softbank User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 5_1 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9B179 Safari/7534.48.3 [kzm @client-ip-addr] iPhone User-Agent:Mozilla/5.0 (Linux; U; Android 2.1-update1; ja-jp; SonyEricssonSO-01B Build/2.0.B.0.138) AppleWebKit/530.17 (KHTML, like Gecko) Version/4.0 Mobile Safari/530.17 [kzm @client-ip-addr] Android Connection:close Accept-Encoding:gzip Accept-Charset:Shift_JIS,utf-8;q=0.7,*;q=0.7 Accept-Language:ja
l9explore/1.2.2
だが、
開発元と思しき領域からは l9explore/1.3.0
も
観測されているので、
そのうち公開されるのか、ローカルに秘匿したままなのか、今後に期待。
公開されているツールなので、開発元以外からのアクセスも散見されるが、
ほとんどは開発元からのアクセス。
2022-07-13 までは Go-http-client/1.1
のままでした。
ClientPtr: probe-ca001.rand0.leakix.org [143.198.136.88] ClientPtr: probe-nl001.rand0.leakix.org [161.35.86.181] ClientPtr: probe-ny002.rand0.leakix.org [161.35.188.242] GET /vulnerability-path HTTP/1.1 Host:I.P.ad.dr User-Agent:l9explore/1.3.0 Accept-Encoding:gzip Connection:close Lkx-TraversalHttpPlugin を使う場合だけ、UAに +https: が入る GET /cgi-bin/.%2e/%2e%2e/%2e%2e/%2e%2e/%2e%2e/%2e%2e/%2e%2e/%2e%2e/%2e%2e/etc/hosts HTTP/1.1 Host:I.P.ad.dr User-Agent:Lkx-TraversalHttpPlugin/0.0.1 (+https://leakix.net/, +https://twitter.com/HaboubiAnis) Accept-Encoding:gzip Connection:close
fetch libfetch/2.0
の場合もあるようですが、
単なる
libfetch/2.0
は NetBSD のもののような気がする。
GET /path HTTP/1.1 Host:host User-Agent:libfetch/2.0
そうか、Inktomi→Yahoo→Apacheと譲渡されたTraffic Serverは 未だに Client-ip: という非標準ヘッダを追加するのか…
ClientAddr: [147.92.nn.nn] (no PTR) (LINE Corporation) GET /path HTTP/1.1 Accept:*/* Accept-Language:en-US,en;q=0.8,*;q=0.6 User-Agent:facebookexternalhit/1.1;line-poker/1.0 Accept-Charset:utf-8 X-Forwarded-For:10.115.91.212, 10.115.19.73 Range:bytes=0-0 1回目 Range:bytes=0-1048576 2回目 Host:host Accept-Encoding:gzip Client-ip:10.115.19.73 Connection:close Via:http/1.1 poker[11f368de-e039-42f5-9eea-faa86272baa4] (ApacheTrafficServer/7.1.5)
UA 中の +https://lin.ee/4dwXkTH は https://help2.line.me/linesearchbot/web/?contentId=50006055&lang=en へのリダイレクト。
アクセス元はLINEの本元韓国の検索エンジン
Naver (→Yeti)
の逆引きがつく。
韓国の検索エンジンなのに
Accept-Language:ja-JP
になっているのが謎。
ClientPTR: crawl.203-104-154-NNN.web.naver.com [203.104.154.NNN] ClientPTR: crawl.147-92-NN-NN.search.line-apps.com [147.92.NN.NN] (2020-07-11〜) User-Agent:Mozilla/5.0 (compatible;Linespider/1.1;+https://lin.ee/4dwXkTH) Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Host:host Connection:Keep-Alive Accept-Encoding:gzip,deflate Accept-Language:ja-JP,ja;q=0.8,en-US;q=0.6,en;q=0.4 (2020-03-08〜 UAに空白がつくようになった) User-Agent:Mozilla/5.0 (compatible; Linespider/1.1; +https://lin.ee/4dwXkTH) Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Host:host Connection:Keep-Alive Accept-Encoding:gzip,deflate Accept-Language:ja-JP,ja;q=0.8,en-US;q=0.6,en;q=0.4 (2022-08-12〜 コンテンツ取得時) GET /path HTTP/1.1 User-Agent:Mozilla/5.0 (compatible; Linespider/1.1; +https://lin.ee/4dwXkTH) Host:host Connection:Keep-Alive Accept-Encoding:gzip,deflate Accept:*/* Accept-Charset:utf-8,*;q=0.3 Accept-Language:ja-JP,ja;q=0.8,en-US;q=0.6,en;q=0.4
ClientPTR: crawl.147-92-153-NN.search.line-apps.com [147.92.153.NN] GET / HTTP/1.1 User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3 Accept-Language:ja-JP,ja;q=0.8,en-US;q=0.6,en;q=0.4 Cache-Control:max-age=0 Accept-Encoding:gzip, deflate, sdch Host:host Connection:Keep-Alive
参考:本物の Mobile/13B143 Safari/601.1 のヘッダ:
GET /path HTTP/1.1 Host:host Connection:keep-alive Upgrade-Insecure-Requests:1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 12_4_1 like Mac OS X) AppleWebKit/607.3.9 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 Accept-Language:ja-jp Accept-Encoding:gzip, deflate
Accept: に HTMLと JavaScript 以外は欲しくない、と宣言しているのに *.rpm を取得していくのは謎。
ClientHost: 1.2.202.35.bc.googleusercontent.com [35.202.2.1] GET /path HTTP/1.1 Host:host Accept:text/html, text/*, application/x-javascript, application/javascript, application/ecmascript Connection:close Accept-Encoding:gzip User-Agent:ltx71 - (http://ltx71.com/)
Disallow: /
とか用意してあるので
(Ubuntuのデフォルトに当然そんなものは無い)
微妙に悪意を感じる。
HTTPSの証明書は Let's Encrypt 発行の CN=madb.zapto.org の証明書が入っている。
Accept-Encoding:x-gzip, gzip, deflate
は、
陽にそういう設定を書かないとこうならないはずなので、
何かのサンプルプログラムをコピペして使っているのかもしれない。
ClientPTR: ec2-NN-NN-NN-NN.us-west-2.compute.amazonaws.com GET / HTTP/1.1 Host:host Accept-Encoding:x-gzip, gzip, deflate User-Agent:MADBbot/0.1 (Gathering webpages for data analytics; https://madb.zapto.org/bot.html; ma-db-crawl@googlegroups.com) Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3 Accept-Charset:utf-8,iso-8859-1;q=0.7,*;q=0.7 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Connection:close
珍しく User-Agentの一覧を公開している。 観測しているものとUA中の URL は食い違っているが。 逆引きが *.mail.ruでないものは偽者だ と述べているが、Mail.RU_Botを詐称する奴なんているのだろうか?
なぜか /robots.txt
取得時は
Accept-Encoding: gzip, deflate
を
つけてこない。確かに圧縮している人はいないだろうが、
なぜわざわざヘッダを削って送信してくるのだろう?
/robots.txt 取得時 GET /robots.txt HTTP/1.0 Host:host User-Agent:Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/Img/2.0; +http://go.mail.ru/help/robots) Accept:*/* Accept-Language:ru,be;q=0.7,en;q=0.7,kk;q=0.7,uk;q=0.7,*;q=0.1 Connection:close No Accept-Encoding 画像取得時 GET /image HTTP/1.1 Host:host User-Agent:Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/Img/2.0; +http://go.mail.ru/help/robots) Accept:*/* Accept-Language:ru,be;q=0.7,en;q=0.7,kk;q=0.7,uk;q=0.7,*;q=0.1 Accept-Encoding:gzip, deflate Referer:http://go.mail.ru/search_images Connection:close /robots.txt 取得時 GET /robots.txt HTTP/1.0 Host:host User-Agent:Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/2.0; +http://go.mail.ru/help/robots) Accept:*/* Accept-Language:ru,be;q=0.7,en;q=0.7,kk;q=0.7,uk;q=0.7,*;q=0.1 Connection:close No Accept-Encoding / 取得時 GET / HTTP/1.1 Host:host User-Agent:Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/2.0; +http://go.mail.ru/help/robots) Accept:*/* Accept-Language:ru,be;q=0.7,en;q=0.7,kk;q=0.7,uk;q=0.7,*;q=0.1 Accept-Encoding:gzip, deflate Connection:close
GET /favicon.ico HTTP/1.1 User-Agent:ManicTime/4.3.5.0 Accept:image/* Host:host Connection:Keep-Alive GET / HTTP/1.1 User-Agent:ManicTime/4.3.5.0 Accept:text/html Host:host
HEAD path HTTP/1.0 GET path HTTP/1.0 User-Agent:http.rb/3.2.0 (Mastodon/2.4.4; +https://site) Host:host Date:rfc1123 date Accept-Encoding:gzip Connection:close Content-Length:0
ClientPTR: ec2-nn-nn-nn-nn.compute-1.amazonaws.com GET /path HTTP/1.1 From:crawler.feedback+dc@gmail.com Host:host Connection:Keep-Alive User-Agent:MauiBot (crawler.feedback+dc@gmail.com) Accept-Encoding:gzip,deflate (2021-04-07~) ClientPTR: ec2-nn-nn-nn-nn.compute-1.amazonaws.com GET /path HTTP/1.1 From:crawler.feedback+wc@gmail.com Host:host Connection:Keep-Alive User-Agent:MauiBot (crawler.feedback+wc@gmail.com) Accept-Encoding:gzip,deflate
「何のため」は、セールストーク的な長めの2文だけで、
Briefly explained, Mediatoolkit bot is an Internet bot that systematically browses the web. It searches through more than 100 million web sources for Mediatoolkit, an online media monitoring tool used all across the world by experts in marketing, PR and other, various industries.
GET /path HTTP/1.1 User-Agent:Mediatoolkitbot (complaints@mediatoolkit.com) Accept-Encoding:gzip, identity, compress, deflate Host:host Accept:text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
GET / HTTP/1.1
Content-Type:application/x-www-form-urlencoded
User-Agent:Mozilla/5.0 (Windows NT 5.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0
Host:I.P.ad.dr
Connection:Keep-Alive
Cache-Control:no-cache
GET / HTTP/1.1
Accept-Encoding:gzip,deflate
Accept-Charset:ZGllKEBtZDUoSGVsbG9waHBTdHVkeSkpOw== (die(@md5(HellophpStudy));
)
User-Agent:Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0
Host:I.P.ad.dr
Connection:Keep-Alive
Cache-Control:no-cache
GET / HTTP/1.1
Connection:close
Accept:*/*
Accept-Language:zh-cn
Referer:http://I.P.ad.dr/
User-Agent:Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0
Host:I.P.ad.dr
本物のSogou browserも、 预取引擎加速 (ビッグデータを活用し最適なページをプリフェッチ) という個人情報だだ洩れの危なっかしい機能がついていますが。
GET /apple-touch-icon-120x120-precomposed.png HTTP/1.1 GET /apple-touch-icon-120x120.png HTTP/1.1 GET /apple-touch-icon-precomposed.png HTTP/1.1 GET /apple-touch-icon.png HTTP/1.1 GET /apple-touch-icon-152x152-precomposed.png HTTP/1.1 GET /apple-touch-icon-152x152.png HTTP/1.1 Host:host Accept:*/* Accept-Language:ja-jp Connection:keep-alive Accept-Encoding:gzip, deflate User-Agent:MobileSafari/604.1 CFNetwork/978.0.7 Darwin/18.7.0
Client-IP: [23.101.169.3] Client-IP: [52.162.211.179] (2019-06~) Accept:*/* Referer:http://www.bing.com/search?q=keywords&form=MSNH14&sc=8-4&sp=-1&qs=n&sk= Accept-Language:en-US Accept-Encoding:gzip, deflate User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0; Trident/5.0) Host:host Connection:Keep-Alive
OPTIONS /echoserver.html/ HTTP/1.1 1,3回目 HEAD /echoserver.html HTTP/1.1 2,4回目 Connection:Keep-Alive Authorization:Bearer User-Agent:Microsoft Office Word 2014 X-Office-Major-Version:16 X-MS-CookieUri-Requested:t X-FeatureVersion:1 Accept-Auth:badger,Wlid1.1,Bearer X-MSGETWEBURL:t X-IDCRL_ACCEPTED:t Host:host
ドイツ語にしか対応していなさそうなのだが、
Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3
が謎。
他でも見かけるので、何かのHTTPエンジンのデフォルトなのかもしれない。
ClientPTR:static.NN.NN.NN.NN.clients.your-server.de GET /path HTTP/1.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3 Host:host Connection:Keep-Alive User-Agent:MTRobot/0.2 (Metrics Tools Analytics Crawler; https://metrics-tools.de/robot.html; crawler@metrics-tools.de) Accept-Encoding:gzip,deflate
Neeva権利章典 では 既存のテクノロジー会社は無期限に個人情報を保持解析している ことに対する反発から Neeva を作った、みたいな事がかかれているが、 じゃあ Neeva は具体的にどうするのか、については何も書かれていない。 個人情報収集に対するアンチテーゼ検索エンジンは DuckDuckGo や Qwantify/Bleriot があるが、 それとの違いもよくわからない。
このロボットも *.rpm をごっそり持っていこうとする。 ロボット作る人は拡張子ホワイトリストベースで取得制御してほしい。
ClientPTR: ec2-50-NN-NN-NN.compute-1.amazonaws.com ClientPTR: 54-161-41-102.neevabot.com [54.161.41.102] ClientPTR: 100-26-127-17.neevabot.com [100.26.127.17] 2022-02-21〜 GET /image.gif HTTP/1.1 Host:host User-Agent:Mozilla/5.0 (compatible; Neevabot/1.0; +https://neeva.com/neevabot) Accept-Encoding:gzip, deflate, br
ClientPTR: bardolino.netestate.de [81.209.177.145] GET / HTTP/1.1 Accept-Encoding:gzip Accept-Language:de,en,* Host:host Connection:Keep-Alive User-Agent:netEstate NE Crawler (+http://www.website-datenbank.de/)
nsrbotと違い、Host:ヘッダが無い。 HTTPエンジンは違うっぽい。なんで無いのかは不明。
ClientPTR: NN.NN.NN.NN.netsystemsresearch.com GET / HTTP/1.0 User-Agent:NetSystemsResearch studies the availability of various services across the internet. Our website is netsystemsresearch.com User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3602.2 Safari/537.36 偽装版 User-Agent:Mozilla/5.0(WindowsNT6.1;rv:31.0)Gecko/20100101Firefox/31.0 2019/01に短期間だけ観測 Accept:*/*
ClientAddr: 209.17.NN.NN.rdns.cloudsystemnetworks.com [209.17.NN.NN] GET / HTTP/1.1 Host:host User-Agent:Mozilla/5.0 (compatible; Nimbostratus-Bot/v1.3.2; http://cloudsystemnetworks.com)
User-Agent に "
が含まれていると、
Apacheのログには \"nlpproject.info research\"
として残ることに注意。
clienthost: ip199.124-113-93.ddnet.ro [93.113.124.199] GET / HTTP/1.0 User-Agent:"nlpproject.info research" Accept:*/*
GET / HTTP/1.1 Host:I.P.Ad.dr:80 User-Agent:Mozilla/5.0 (compatible; nsrbot/1.0; ,http://netsystemsresearch.com)
(2024-09-28) 不明。2023/12/27に初観測。 Host: にIPアドレスが入ってくるので、 おそらく「セキュリティスキャナ」。 半月に1回程度、5セットのアクセスをしてくる。
UA中のURLはhttps://docs.getodin.com/about-odin にリダイレクトされるが、 Page not found。 https://www.getodin.com/ は https://www.odin.io/ にリダイレクトされる。 脆弱性検査の検索ができるらしい。怪しい。
POST /sdk HTTP/1.1 GET /odinhttpcallranddigit10 HTTP/1.1 GET /HNAP1 HTTP/1.1 GET /evox/about HTTP/1.1 GET / HTTP/1.1 Host:I.P.ad.dr User-Agent:Mozilla/5.0 (compatible; Odin; https://docs.getodin.com/) Accept:*/* Accept-Encoding:gzip
Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8 User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36 OPR/55.0.2994.44 Host:host
/robots.txt?1692596062877
と
キャッシュ無効化を試みてくる。
User-Agent: は完全に Chrome 偽装だが、他のヘッダが欠けているので、
本物の Chrome との区別は容易。
PaloAltoネットレンジ以外からも似たようなアクセスはあるので、 何かのプラグインの可能性もある。
ClientIPA 65.154.226.NN GET /robots.txt?1692596062877 HTTP/1.1 Host:host User-Agent:Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36 Accept-Encoding:gzip No Accept:, Accept-Charset:, Accept-Language:
ただ、当サイトに対し定期的な「新聞」を設定した人はまだいないようで、 単発のアクセスばかりで更新間隔等は不明。
/robots.txt は読まない。 採集されたくなければ「contact us」としか書かれていない。
ClientAddr: nsNNNNNN.ip-37-187-NNN.eu [37.187.NNN.NNN] GET /contentpage HTTP/1.1 Host:host Accept-Encoding:gzip, deflate Connection:keep-alive User-Agent:Mozilla/5.0 (compatible; PaperLiBot/2.1; https://support.paper.li/entries/20023257-what-is-paper-li) Accept-Language:en;q=0.8, * Accept:*/*
GET /path HTTP/1.1 Host:host User-Agent:Mozilla/5.0 (compatible; PEAR HTTP_Request class; http://www.rcdtokyo.com/pc2m/) Connection:close Accept-Encoding:gzip Accept-Charset:Shift_JIS,utf-8;q=0.7,*;q=0.7 Accept-Language:ja
(2024-08-19) 自称、検索エンジン用の再帰型ロボット。 2024-08-02 より観測。 UA 中の URL では robots.txt に対応している、と謳っているが、 実際には robots.txt を収集した形跡なし。 UA 中のURLはCloudFlareの向こう側で、ブラウザによってはアクセスできない。 のでローカルコピー。
立ち入り禁止区域には入ってきてないので、robots.txt は 別のUAで取りに来ているのか、 他から供給を受けているのかもしれない。 クラスタで動いているらしく、同一URLに対し連続して違うクライアントから アクセスが来る。意図は不明。 アクセス間隔は数秒〜数時間と緩慢。
なお、現在(2024-09)、UA中のURLを押しても https://docs.perplexity.ai/home にリダイレクトされるだけで、 ロボットに関する 情報 は無くなった。
珍しく If-Modified-Since: や If-None-Match: をつけてくる。 サーバ側の Last-Modified: ではなく、最終収集日をつけてくる模様。
GET /path HTTP/1.1 Host:host Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7 Accept-Encoding:gzip, deflate, br Accept-Language:en-US,en;q=0.9 upgrade-insecure-requests:1 User-Agent:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://docs.perplexity.ai/docs/perplexity-bot) If-Modified-Since:Last-Retrieved-Date Cache-Control:no-cache Connection:keep-alive
If-Modified-Sinceで追いかけていると、収集活動は以前(2023-11〜)は PerplexityBot/1.0 を名乗らず、ChromeやFirefoxに偽装した 収集活動をしていた模様。 このころのロボットはGET行の次がHost:ではなくAccept:になっているので、 HTTPエンジンは違うものを使用していたものと思われる。
(2024-07-12) GET /path HTTP/1.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7 Accept-Encoding:gzip, deflate, br Accept-Language:en-US,en;q=0.9 upgrade-insecure-requests:1 User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:109.0) Gecko/20100101 Firefox/116.0 Host:host Cache-Control:no-cache Connection:keep-alive (2024-06-29) GET /path HTTP/1.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7 Accept-Encoding:gzip, deflate, br Accept-Language:en-US,en;q=0.9 upgrade-insecure-requests:1 User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.6.6 Safari/605.1.1 Host:host Cache-Control:no-cache Connection:keep-alive
ClientHost:[192.0.nn.nn] (automattic.com 管内) GET /image_path HTTP/1.1 Host:host User-Agent:Photon/1.0 Accept:*/*
この Accept: は Chrome 等でも使われている内容だが、 User-Agent の MSIE 6 (Windows XP) の時代には まだ XHTML は発明されていなかったので、 ヘッダを採集していれば偽物だと容易に判別がつく。
ClientAddr: [5.188.211.N], [188.143.232.N] (pindc.ru) GET /path HTTP/1.1 Connection:close User-Agent:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Host:host
ClientPTR: ec2-NN-NN-NN-NN.compute-1.amazonaws.com GET /image-url HTTP/1.1 Accept-Encoding:gzip Connection:close Host:host Accept:image/*;q=0.9,*/*;q=0.1 User-Agent:PocketImageCache/1.0
X-Pocket-Parser:1
ヘッダを渡してくる。
GET /path HTTP/1.1 Host:host User-Agent:PocketParser/2.0 (+https://getpocket.com/pocketparser_ua) Accept:*/* Accept-Encoding:gzip,deflate X-Pocket-Parser:1
当サイトに対し系統だった何かを作った人はいないようで、 GET / と /favicon.ico 以外は観測していない。 /favicon.ico を取ろうとするのも謎だし、 そもそも観測されること自体が謎だったりするんですが。
ClientPTR: *.gae.googleusercontent.com GET /favicon.ico HTTP/1.1 Accept:*/* Accept-Encoding:gzip, deflate Cache-Control:no-cache User-Agent:PostmanRuntime/7.19.0 Connection:close Host:host
Host: IPアドレス
なので、
脆弱性スキャナの類と思われる。
アクセス頻度は高く、日に数回。
発信元はたまに変わるが、
pptechnology.cc (.uk)
からのアクセスで観測される。
UAは Chromium Edge 偽装だが、
Accept-Language:en US,en;q=0.9,sv;q=0.8
が特徴的。
en_US
になってない。sv(スウェーデン語)が入っているのも謎。
GET / HTTP/1.1 User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36 Edg/90.0.818.46 Accept-Encoding:gzip, deflate, gzip, deflate Accept:*/* Connection:keep-alive X-Requested-With:XMLHttpRequest Content-Type:application/x-www-form-urlencoded; charset=UTF-8 Accept-Language:en US,en;q=0.9,sv;q=0.8 Host:I.P.ad.dr
pptechnology.ccのホームページには cgi-bin/ と user14/ しかなく、設定放置気味なサイトがあるのみ。
初観測は 2021-11-04。初めのころは Mobile Safari 偽装で、 /dispatch.asp のみをスキャンしていた。 このころはアクセス元は rootlayer.net だったので、追い出された?
ClientPTR: hosted-by.rootlayer.net [45.137.21.9] GET /dispatch.asp HTTP/1.1 User-Agent:Mozilla/5.0 (iPad; CPU OS 7_1_2 like Mac OS X; en-US) AppleWebKit/531.5.2 (KHTML, like Gecko) Version/4.0.5 Mobile/8B116 Safari/6531.5.2 Accept-Encoding:gzip, deflate, gzip, deflate Accept:*/* Connection:keep-alive X-Requested-With:XMLHttpRequest Content-Type:application/x-www-form-urlencoded; charset=UTF-8 Accept-Language:en US,en;q=0.9,sv;q=0.8 Host:I.P.ad.dr
なお project25499.com のドメインはGoDaddyの DomainsByProxy.com 経由で 取得されているので、本当の所有者は不明。 AmhertSecの資料によると、 マルウェアリポジトリ MalShareも運営している Silas Cutler (Silent Sigma Foundation) ということのようですが。
ClientAddr: [157.230.216.203] ClientPtr: scannerNN.project25499.com GET / HTTP/1.1 Host:I.P.add.dr User-Agent:Mozilla/5.0 Project 25499 (project25499.com)User-Agent に正直申告しているぶんだけましとは言えるかもしれない。 (ShodanはChrome偽装)
Project Patchwatch のページには プロジェクトは 2022/02 まで行う、とあるが、 2022/06 でも依然稼働中。
GET / HTTP/1.1 Host:I.P.ad.dr User-Agent:'Mozilla/5.0 project_patchwatch' Accept:*/* Accept-Encoding:gzip
(2019-07-30) 検索エンジン用ロボット。 アメリカのプライバシー情報集めまくりの検索エンジンの アンチテーゼとしてフランスで設立。
ただ巡回頻度は非常に緩慢なため、検索結果は少なめ。 当サイトにも何度か来てますがデータベースには入っていないっぽい。
GET /popular URL HTTP/1.1 Host:host User-Agent:Mozilla/5.0 (compatible; Qwantify/Bleriot/1.1; +https://help.qwant.com/bot) Accept:*/*
(2022-04-04) 2020-02-07 より、/favicon.ico と / の取得しか観測されなくなりました。 /robots.txt は持っていきません。
GET /favicon.ico HTTP/1.1 User-Agent:Qwantify/1.0 Accept:*/* Accept-Encoding:gzip Host:host Cache-Control:max-age=21600
2021-03-15 から PTR がつくようになりました。
ClientPTR: qwantbot-154-171-187-NN.qwant.com [194.187.171.NN]
2021-04-29 から Mozilla/5.0 がつくようになりました。 あいかわらず /favicon.ico と / しか持っていきません。 そんなに Mozilla/5.0 化って効果あるんでしょうかね… 不要な browser sniffing するサイトがいかに多いということでしょうか。 また、 https://help.qwant.com/bot への URL が抹消されています。
GET /favicon.ico HTTP/1.1 User-Agent:Mozilla/5.0 (compatible; Qwantify/1.0; +https://www.qwant.com/) Accept:*/* Accept-Encoding:gzip Host:host Cache-Control:max-age=21600
https://www.qwant.com/ で検索をかけてもランダムな文字列のサイトしか 検索結果に出てこないんですが、役に立ってるんだろうか?
/.git/config
を採集しようとする。
WebのコンテンツをGitで展開している場合、
このファイルには Gitのマスターサイトが書かれているので、
元データのありかを検知しようとしている?
改ざんが目的なのかどうかは不明。
いずれにせよ、./CVS/ とか ./RCS/ とかと同様、./.git/ は .htaccess などで保護しておくのは必須です。
ClientAddr: research.sorengard.com [89.248.174.141] GET /.git/config HTTP/1.1 User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36 Host:ip.addr
https://optout.scanopticon.com/には Optout のフォームと、「脆弱性を見つけた場合は連絡する」 と書いてあるが、本当かどうかは不明。 サービスサイトは https://www.scanopticon.com/ になる予定のようだが、観測されてから1年経った2022-07現在でも "Coming Soon" のまま。
UAは Chrome 偽装だが、Host: すらついていないので判別は比較的容易。
ClientPTR:optout.scanopticon.com [172.104.138.223] GET /fuN3 HTTP/1.0 User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36 Accept:*/* No Host:, Accept-Language:, Accept-Encoding
(2019-07-21) Pythonでのクローラ構築キット。 クライアントは自分で実行できるが、 /robots.txt での制御は中央集権らしく、/robots.txtを持っていく頻度は 非常に少ない。
User-Agent は設定で変えられるが、デフォルトはsettings/default_settings.py
の
USER_AGENT = f'Scrapy/{import_module("scrapy").__version__} (+https://scrapy.org)'
恐ろしいことに配布は pip install でのみで、ソースコードのtarball等は提供されていない。
なんで Accept-Language: en なのかはよくわからない。
GET /robots.txt HTTP/1.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:en User-Agent:Scrapy/1.6.0 (+https://scrapy.org) Accept-Encoding:gzip, deflate Host:host
User-agent (一貫してUser-Agentではない) は echo "search.marginalia.nu" > /var/lib/wmsa/conf/user-agent で設定しているらしい。
/ を HEAD してから /robots.txt を取得するなど、 若干非同期的な実装をしている模様。 取得間隔は割と緩慢なほう。
観測されてから1年経つが、まだ再帰的な動作が観測されず、 特定のURLを繰り返し取得している。
ClientPTR:h-81-170-128-52.a258.priv.bahnhof.se [81.170.128.52] GET /content-path HTTP/1.1 User-agent:search.marginalia.nu Accept-Encoding:gzip Host:host Connection:Keep-Alive
タイミング的に、GET / してから GET /robots.txt する。 ロボットは全拒否しているサイトでも持っていかれてしまうんだろうか。
ClientHost: static.181.172.216.95.clients.your-server.de [95.216.172.181] GET / HTTP/1.1 GET /robots.txt HTTP/1.1 Host:host Connection:Keep-Alive User-Agent:Mozilla/5.0 (compatible; Seekport Crawler; http://seekport.com/) Accept-Encoding:gzip,deflate
(2020-08-27) その後、/robots.txt は取得しなくなりました。 User-Agent こそ同じ(最後の")"が欠けているが)ですが、 ヘッダの順番が違うので HTTPエンジンは違うっぽい。 どうも SNSに書き込まれた URL を狙って取りに来る感じ。 http://seekport.com/ での検索結果に Facebook や Twitter の カウント数が出ている。 ドイツ語用のロボットのはずなのに Accept-Language: en なのが謎。
(2020-07-20〜) ClientHost: crawl2-NN.oi.tb.007ac9.net [95.217.*.*] GET /path HTTP/1.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:en User-Agent:Mozilla/5.0 (compatible; Seekport Crawler; http://seekport.com/ ←missing ")" Host:host
(2022-07-14) その後、ヘッダ類は迷走。 2021-05-10 からは、シングルクオート付きの UA をつけるようになる。 ヘッダの順番が違うので HTTPエンジンは変更になったものと思われる。 とりあえず Type C と名前を付ける。
ClientPTR: crawl2-NN.oi.tb.007ac9.net [95.217.228.NN] GET /path HTTP/1.1 Host:host Connection:keep-alive Pragma:no-cache Cache-Control:no-cache User-Agent:'Mozilla/5.0 (compatible; Seekport Crawler; http://seekport.com/' Accept:image/webp,image/apng,image/*,*/*;q=0.8 Referer:http://vega.pgw.jp/~kabe/WWW/browsers/opera964.html Accept-Encoding:gzip, deflateなお、 static.NN.NN.NN.NN.clients.your-server.de のほうでは 試験版が動いているらしく、たまに
Mozilla/5.0 (compatible; Seekport Crawler; http://seekport.com/)
だけのものが観測されている。
2021-06-28 から、HTTPエンジンが先祖返りしたものが混入。 Type D とする。 ノードによって UA のカッコが欠けているものとそうでないもの、 Type C のものが入り混じっている。
GET /path HTTP/1.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:en User-Agent:Mozilla/5.0 (compatible; Seekport Crawler; http://seekport.com/) User-Agent:Mozilla/5.0 (compatible; Seekport Crawler; http://seekport.com/ Host:host
2022-06-25から、SeekportBot を 名乗るようになる。 また、 /robots.txt を取得するようになる。 ただし間隔は緩慢。1か月おきくらい。 ヘッダ構造から Type D の後継品と思われる。Type E としよう。 この日から、Type C, Type D は消滅。
ClientPTR: crawl1-NNN.oi.tb.007ac9.net [135.181.136.NNN] GET /robots.txt HTTP/1.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:en User-Agent:Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com) Host:host
UA中の https://bot.seekport.com で
Bot Type: Good (always identifies itself)と自称しているのは非常にあざとい。 この書き方は Adsbot と同じだが、真似か? 詐称・偽装するかどうかは問題ではないだろうが。
(2018-10-12) 再帰クローラ。 広告やバックリンク調査に使われているようですが、 一般公開されているサービスではないようです。
クラスタで動いているっぽいのですが、メンバー間での連携がイマイチで、 同じURLを複数のメンバーが取得したりします。 取得間隔も頻繁で、迷惑な部類に入るロボットです。 UAに入っているURLは CloudFlare 配下なので、ブラウザによっては開けません。
Accept:text/html Accept-Encoding:gzip,deflate Connection:close User-Agent:Mozilla/5.0 (compatible; SemrushBot/2~bl; +http://www.semrush.com/bot.html)
他のSEO屋と違い、無償である程度のバックリンクチェック結果の 検索は提供されている。 https://www.seokicks.de/ (英語版はhttps://en.seokicks.de/) で URLを入力して [Backlinks suchen] を押すとバックリンクが検索できる。
このロボットも .rpm や .exe を除外対象にせず持っていく。 いいかげん再帰ロボット作る人は学習して欲しい。
GET / HTTP/1.1 Accept-Encoding:gzip,deflate From:robot@seokicks.de Connection:Close Accept:text/html,text/plain Host:host User-Agent:Mozilla/5.0 (compatible; SEOkicks; +https://www.seokicks.de/robot.html)
UA中のURLはロボットの説明専用のドメインで、 サービスURLはhttps://serpstat.com/pay/ にある。 もちろん無償ではデータは開示していない。(お試し30日期間はある)
ClientPTR: static.124.68.76.144.clients.your-server.de [144.76.68.124] GET /path HTTP/1.1 User-Agent:serpstatbot/2.1 (advanced backlink tracking bot; https://serpstatbot.com/; abuse@serpstatbot.com) Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3 Host:host Connection:Keep-Alive Accept-Encoding:gzip
(2022-05-10) UA中の URLには SEO用のツール だと書かれているが、実際はただのリンクチェッカ。
観測例では、週1回程度の頻度でチェックしに来ている。 1秒間隔くらいで、最初は Apacle-HttpClient, 2回目に SERPtimizerBot を 名乗る。なぜ2回アクセスしに来るのかは不明。 ヘッダの順番などが全然違うので、HTTPエンジンは異なるものと思われる。
ClientPTR: vps35712.alfahosting-vps.de [178.20.100.33] 1回目 GET /path HTTP/1.1 Host:host Connection:Keep-Alive User-Agent:Apache-HttpClient/4.5.13 (Java/11.0.16) Accept-Encoding:gzip,deflate 2回目 GET /path HTTP/1.1 Accept-Encoding:gzip User-Agent:Mozilla/5.0 (compatible; SERPtimizerBot; +http://serptimizer.com/serptimizer-bot) Cache-Control:no-cache Pragma:no-cache Host:host Accept:text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2 Connection:keep-alive
汎用検索エンジン用ロボットのはずなのだが、 当サイトでは画像を取得するものしか観測していない。 UA詐称で*.htmlを取得したような形跡もないし、どこから*.htmlの 供給を受けているんだろう?
ClientHost: fulltextrobot-77-75-78-171.seznam.cz [77.75.78.171] GET /image-url HTTP/1.1 Host:host Accept:*/* Accept-Language:cs User-Agent:Mozilla/5.0 (compatible; SeznamBot/3.2; +http://napoveda.seznam.cz/en/seznambot-intro/) Accept-Encoding:gzip, deflate Connection:keep-alive
clienthost:*.census.shodan.io GET / HTTP/1.1 Accept-Encoding:identity Host:I.P.Addr Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 User-Agent:Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36 GET /sitemap.xml HTTP/1.1 GET /.well-known/security.txt HTTP/1.1 Host:I.P.Addr Accept-Encoding:identity GET /favicon.ico HTTP/1.1 Host:I.P.Addr Connection:keep-alive Accept-Encoding:gzip, deflate Accept:*/* User-Agent:python-requests/2.13.0
GET /path HTTP/1.1 User-Agent:ShortLinkTranslate Host:host
!/Playstation/.test(navigator.userAgent)
でフィルタすべし
とAmazonのサイトには書いてあります。
Amazon Silk Host:host Connection:keep-alive User-Agent:Mozilla/5.0 (Linux; Android 5.1.1; KFGIWI) AppleWebKit/537.36 (KHTML, like Gecko) Silk/70.4.2 like Chrome/70.0.3538.80 Safari/537.36 Accept:image/webp,image/apng,image/*,*/*;q=0.8 Accept-Encoding:gzip, deflate Accept-Language:ja-JP,ja;q=0.9,en-US;q=0.8,en;q=0.7
PS Vita Silk Host:host Accept:*/* Accept-Encoding:gzip,deflate User-Agent:Mozilla/5.0 (PlayStation Vita 3.69) AppleWebKit/537.73 (KHTML, like Gecko) Silk/3.2 Accept-Language:ja-JP
ClientAddr: [52.114.*.*] (Microsoft region, no PTR) GET /path HTTP/1.1 User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) SkypeUriPreview Preview/0.5 Host:host Connection:Keep-Alive
(2018-11-02)
投稿URLのメタデータチェッカ。
<HEAD> のメタデータだけを取得したいためか、
Range:bytes=0-32768
で最初の32kB+1だけを取得しに来ます。
律儀にこういう実装をしているロボットは珍しい。
GET /path HTTP/1.1 Range:bytes=0-32768 User-Agent:Slackbot-LinkExpanding 1.0 (+https://api.slack.com/robots) Accept:*/* Accept-Encoding:gzip,deflate Host:host Cache-Control:max-age=259200 Connection:keep-alive
(2019-08-02) http://www.similartech.com/ を読むと 「マーケティング用の強力なツール」 を提供しているということですが、 きっちり2ヶ月に一回、/robots.txt と / だけを読みにくるロボットで どの程度のデータが集められるのかは疑問。
HTTPヘッダがCamel-Caseになってない。ちょっと特徴的。
GET / HTTP/1.1 host:host connection:keep-alive accept-encoding:gzip,deflate accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 user-agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36 (compatible; SMTBot/1.0; +http://www.similartech.com/smtbot)
eset Social Media Scannerとあるので、Twitterに投稿されたURLを検疫しているんでしょうきっと。 ただ、数時間を置いて何度も何度も取りに来るので、閲覧の度に チェックしている? /robots.txt は読まない。まぁそうでしょうね。 User-Agent は Chrome 完全偽装。
Protect your Twitter profiles against dangerous links.
Protect your timeline and lists
なお https://socialmediascanner.eset.com は JavaScript が動かないと内容は一切出てこない。
参考文献: ESET Social Media Scanner FAQ
Scanner機能自体は各自のPCにインストールするもののようですな。
ClientHost: h3-xxx0N-v.eset.com [91.228.167.NN] GET /path HTTP/1.0 User-Agent:Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.16 Safari/537.36 Host:host Accept:*/* Referer:https://socialmediascanner.eset.com
ClientPtr: sogouspider-NNN-NN-NNN-NNN.crawl.sogou.com GET / HTTP/1.1 Host:host Accept:*/* Accept-Language:zh-cn Accept-Encoding:gzip,deflate User-Agent:Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) Connection:close GET /path HTTP/1.1 Host:host Accept:*/* Accept-Language:zh-cn Accept-Encoding:gzip,deflate User-Agent:Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) Connection:close If-Modified-Since:Fri, 27 Oct 2017 10:48:29 GMTで、2020-02-05 までは上記のように判別しやすい、 ロボット挙動についてのリンクも含まれている User-Agent を渡していたんですが、
2020-02-07 から Mobile Safari偽装をするようになったようです。 判別方法は Client PTR しかなくなりました。 ヘッダの順番が本物のMobile Safariとは違いますが、 CGIでの判別は PTR と Accept-Language によるしかないでしょう。
ClientPtr: sogouspider-NNN-NN-NNN-NNN.crawl.sogou.com GET /path HTTP/1.1 Host:host Accept-Language:zh-cn Accept-Encoding:gzip,deflate Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 9_3 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13E198 Safari/601.1
GET / HTTP/1.1
だけだが、たまに違うrequestを
出してくることもある。
\xfbo\xe7\xad\xbb\xdax\xdf`j\x1f[\xf8\xf6\x9b\x05\xbcVH\xe3\x9cr GET //./.././.. HTTP/1.1 GET / HTTP/1.1 GET /. HTTP/1.1 Host:IP.Addr User-Agent:Mozilla/5.0 Accept:*/* Accept-Encoding:gzip
UA は「生成系AI」を名乗っているが、 実際はそうとは思えない。
GET /ai.txt?t=1687050283.303184
のように、
time_t 時刻を付加したURLを掘ろうとする。渡されるタイムスタンプは
なぜか数十分前のものになっている。
単なるキャッシュ回避策には思えない。何らかの記録用?
ClientPTR: ec2-*.us-east-2.compute.amazonaws.com GET /ai.txt?t=1687177767.754558 HTTP/1.1 (2023-05-27〜) GET /.well-known/ai.txt?t=1685581319.607587 HTTP/1.1 (2023-06-01〜) Host:host User-Agent:Spawning-AI Accept:*/* Accept-Encoding:gzip, deflate
ClientAddr: crawl860.us.archive.org [207.241.225.144] GET image-url HTTP/1.0 Connection:Close Referer:correct referrer, sometimes Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Host:host User-Agent:Mozilla/5.0 (compatible; special_archiver/3.1.1 +http://www.archive.org/details/archive.org_bot)
UAに入っているURLは実際は https: にリダイレクトされるので、 ブラウザによっては見えません。
GET / HTTP/1.1 Host:host User-Agent:Mozilla/5.0 (compatible; SpiderLing (a SPIDER for LINGustic research); +http://nlp.fi.muni.cz/projects/biwec/) Connection:close
しかしUA中に含まれているURLを見ても、「何のため」は
While we intend to gather as many published documents as possible to study various social phenomena,この1行だけ。残りは Robot Exclusion Protocol の説明。 これだけではなんで画像も一生懸命取得していくのか全くわからない。 詳細は発表論文を見れ、ってこと?
GET /path|image HTTP/1.1 Host:host From:crawler@tkl.iis.u-tokyo.ac.jp User-Agent:Mozilla/5.0 (compatible; Steeler/3.5; http://www.tkl.iis.u-tokyo.ac.jp/~crawler/) Referer:correct referrer URL If-None-Match:previous ETag: If-Modified-Since:previous Last-Modified: Accept:text/*, */* Accept-Language:ja,en Accept-Encoding:gzip,deflate Connection:close
ClientPtr: zg-YYmmx-N.stretchoid.com GET / HTTP/1.1 GET /manager/text/list HTTP/1.1 GET /manager/html HTTP/1.1 Host:I.P.ad.dr User-Agent:Mozilla/5.0 zgrab/0.x Accept:*/* Accept-Encoding:gzip
当サイトでは 2018-05-19 より観測。 当時は /robots.txt には対応していなかった。 現状、/ の取得は1ヶ月に1回程度。 http://sur.ly/bot.html では /robots.txt に対応しているような 書き方がされているが、実際に持っていく間隔は非常に緩慢 (半年に1回程度)な上、/ を取得してから /robots.txt を取得するので、 実質対応していない。
ClientPTR: ec2-NN-NN-NN-NN.compute-1.amazonaws.com GET / HTTP/1.1 Host:host User-Agent:Mozilla/5.0 (compatible; SurdotlyBot/1.0; +http://sur.ly/bot.html) Accept-Charset:ISO-8859-1,utf-8;q=0.8,*;q=0.7 Accept-Encoding:gzip, deflate Accept-Language:en-US,en;q=0.8 Accept:text/html,application/xhtml+xml,application/xml;q=0.9 Connection:keep-alive Keep-Alive:3
jot 100 1 | while read i; do curl -s --include --head http://super-seo-guru.com/ | grep Location: doneすると、http://seo2.*/ のリダイレクト先URLがランダムで出てくる。 実際のIPアドレスは[62.112.9.56]で一定、 PTR はserver42-vm07.openfrost.com, 証明書は CN=projectb.icctech.org 。 ので、 広告したいドメインをReferer:を公開しているサイト経由で無理やり 広告するためのものと思われる。 アクセス元は一定しないので、ブラウザのプラグインか何かかもしれない。
ClientAddr: various GET / HTTP/1.1 User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.143 Safari/537.36 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Referer:http://super-seo-guru.com Connection:Keep-Alive Accept-Encoding:gzip Accept-Language:various Host:host
traceparent:
ヘッダをつけてくる。毎回違う。
ClientIP: [146.185.78.169] GET /favicon.ico HTTP/1.1 Host:host User-Agent:Swisscows Favicons Accept:text/html, application/xhtml+xml, application/xml; q=0.9, image/avif, image/webp, */*; q=0.8 Accept-Language:en-US, en; q=0.9 Accept-Encoding:gzip, deflate, br traceparent:00-7b2f088c1fb1bac6ece841c118b3c8db-a6b7c7ffc5ac8daa-00
大した情報は必要としてないはずなのに、 なんで Mozilla/5.0 を名乗っているのかは不明。 そんなに Mozilla/5.0 に反応するサイトって多いんだろうか。
ClientPTR: piri211.tchelebi.io [45.155.126.211] GET / HTTP/1.1 Host:I.P.ad.dr User-Agent:Mozilla/5.0 (compatible; tchelebi/1.0; +http://tchelebi.io) Accept:*/* Accept-Encoding:gzip
(2023-06-19) Google Computing Cloud からのアクセスも 観測されるようになりました。看板倒れ。
ClientPTR: 168.136.67.34.bc.googleusercontent.com [34.67.136.168] GET / HTTP/1.1 Host:I.P.ad.dr User-Agent:Mozilla/5.0 (compatible; tchelebi/1.0; +http://tchelebi.io) Accept:*/* Accept-Encoding:gzip
"Firefox/3.6)"
と、括弧が余分)
GET /TP/public/index.php HTTP/1.1 GET /TP/index.php HTTP/1.1 GET /thinkphp/html/public/index.php HTTP/1.1 GET /html/public/index.php HTTP/1.1 GET /public/index.php HTTP/1.1 GET /TP/html/public/index.php HTTP/1.1 GET /elrekt.php HTTP/1.1 GET /index.php HTTP/1.1 GET / HTTP/1.1 Host:IP.ad.dr User-Agent:Mozilla/5.0 (Windows; U; Windows NT 6.0;en-US; rv:1.9.2) Gecko/20100115 Firefox/3.6) Connection:close Accept-Encoding:gzip
HTTPヘッダ的には BlueCoat プロクシサーバに似るが、
Via:threatpulse
というのは
HTTP的には間違い。
Via:1.1 threatpulse
でないといけない。
まぁここを真面目に解析して何かするのはBlueCoat自身だけなので
問題ないといえば問題ないのかもしれませんが。
Via:threatpulse X-Forwarded-For:original.IP.ad.dr Cache-Control:max-stale=0 Connection:Keep-Alive Pragma:no-cache X-BlueCoat-Via:hex16-identifier
古めの Chrome に偽装しているが、User-Agent: と Referer: (要は Apache httpd の combined ログに残るもの) だけ偽装し、 ほかのヘッダはつけていない。 Googleからの検索から来たように見せかけるために Referer: https://www.google.co.jp/ 固定にしているのが 非常にあざとく感じる。 Accept: も Chrome のものとは違う。
ClientPTR: ec2-NN-NN-NN-NN.ap-northeast-1.compute.amazonaws.com (AWS 東京リージョン) GET /path HTTP/1.1 User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.93 Safari/537.36 Referer:https://www.google.co.jp/ Host:host Accept:text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2 Connection:keep-alive No Accept-Language, Accpet-Encoding, Accept-Charset
Social media monitoring and social analyticsとあるので、よくある商標モニタ用ロボットだとは思うのですが、 .html は取得せず、/robots.txt と 画像しか持っていきません。
画像取得時は、存在しそうでしてないURLをReferer: に渡してきます。 Referer:不在時にアクセスが弾かれる対策? 対象サイトのURLを渡す等、もっと簡単な回避法もありそうですが、 なんでこんな凝った実装しているのかは不明。 Referer: spamの可能性もなくはない。
ClientAddr: p18n13.trendiction.de [144.76.23.110] etc GET /imageurl HTTP/1.1 Accept-Charset:ISO-8859-1,utf-8;q=0.7,*;q=0.7 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Cache-Control:max-age=0 User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64; trendictionbot0.5.0; trendiction search; http://www.trendiction.de/bot; please let us know of any problems; web at trendiction.com) Gecko/20170101 Firefox/67.0 Referer:semi-existent referrer Connection:close Refresh-Cache:1 Accept-Language:en-gb,en;q=0.5 Pragma:no-cache Host:host Accept-Encoding:gzip
User-Agent は古めのFirefoxを詐称してくる。 他には以下のような特徴で判別できそうです:
ドイツで動かしているのに Accept-Language:en-gb,en;q=0.5 なのが謎。
ClientHost: p150n13.trendiction.de [88.99.195.206] et al GET /content.html HTTP/1.1 Accept-Charset:ISO-8859-1,utf-8;q=0.7,*;q=0.7 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Cache-Control:max-age=0 User-Agent:Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.4) Gecko/20070531 Firefox/54.0 User-Agent:Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.0.8) Gecko/2009032600 SUSE/3.0.8-1.1.1 Firefox/52.7.3 User-Agent:Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.1.2) Gecko/20090803 Firefox/51.0 Connection:close Refresh-Cache:1 Accept-Language:en-gb,en;q=0.5 Pragma:no-cache Host:host Accept-Encoding:gzip
User-Agent: ApiTool
。
POST /editBlackAndWhiteList HTTP/1.1 Accept-Encoding:identity Content-Length:586 Accept-Language:en-us Host:I.P.ad.dr Accept:*/* User-Agent:ApiTool Connection:close Cache-Control:max-age=0 Content-Type:text/xml Authorization:Basic YWRtaW46ezEyMjEzQkQxLTY5QzctNDg2Mi04NDNELTI2MDUwMEQxREE0MH0= (admin:{12213BD1-69C7-4862-843D-260500D1DA40})2019/12/19 から、User-Agent: Help というのも観測されるようになりました。 Content-Length が微妙に違う。
POST /editBlackAndWhiteList HTTP/1.1 Accept-Encoding:identity Content-Length:587 Accept-Language:en-us Host:I.P.ad.dr Accept:*/* User-Agent:Help Connection:close Cache-Control:max-age=0 Content-Type:text/xml Authorization:Basic YWRtaW46ezEyMjEzQkQxLTY5QzctNDg2Mi04NDNELTI2MDUwMEQxREE0MH0=
Twingly は ブログ専門の検索エンジン のようなのですが、 なぜブログを保持していない当サイトにアクセスが来たのかは不明。
よくわからない URL をプローブしに来る。 /robots.txt 対応 と書かれているが、 実際には全く読まない。 検索されたくないブログも持っていかれてしまうんだろうか。
ClientPTR: ec2-18-203-243-240.eu-west-1.compute.amazonaws.com [18.203.243.240] GET /1111/feed/ HTTP/1.1 GET /rss/ HTTP/1.1 GET / HTTP/1.1 User-Agent:Twingly Recon-Klondike/1.0 (+https://developer.twingly.com) Connection:close Host:host Content-Length:0
ClientHost: r-199-59-150-181.twttr.com [199.59.150.181] GET /robots.txt HTTP/1.1 X-B3-SpanId:hex16 User-Agent:Twitterbot/1.0 Finagle-Ctx-com.twitter.finagle.Retries:0 X-B3-Sampled:false X-B3-Flags:2 Host:host X-B3-ParentSpanId:hex16 X-B3-TraceId:hex16 No Accept-Encoding, Accept GET /targetpath HTTP/1.1 X-B3-SpanId:hex16 User-Agent:Twitterbot/1.0 Finagle-Ctx-com.twitter.finagle.Retries:0 Accept:*/* X-B3-Sampled:false X-B3-Flags:2 Host:host X-B3-ParentSpanId:hex16 Accept-Encoding:gzip, deflate X-B3-TraceId:hex16
ClientPtr: static.NN.NN.NN.NN.clients.your-server.de HEAD /path HTTP/1.1 User-Agent:Mozilla/5.0 (compatible; um-LN/1.0; mailto: techinfo@ubermetrics-technologies.com; Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.1 Host:host Accept:text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2 Connection:keep-alive GET /robots.txt HTTP/1.1 Host:host Connection:Keep-Alive User-Agent:Mozilla/5.0 (compatible; um-LN/1.0; mailto: techinfo@ubermetrics-technologies.com; Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.1 Accept-Encoding:gzip,deflate GET /path HTTP/1.1 Host:host Connection:Keep-Alive User-Agent:Mozilla/5.0 (compatible; um-LN/1.0; mailto: techinfo@ubermetrics-technologies.com; Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.1 Accept-Encoding:gzip,deflate
Content-Type:application/x-www-form-urlencoded
をつけてくる。
ClientHost: d4.49.caa1.ip4.static.sl-reverse.com [161.202.73.212] GET / HTTP/1.1 Accept-Encoding:identity Accept-Language:en Host:host User-Agent:User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0 Connection:close Referer:https://www.virustotal.com/en/ Content-Type:application/x-www-form-urlencoded
(2023-07-03) 2023-06-04 から、User-Agent: User-Agent: ではなくなりました。 Referer:, Content-Type はなくなり、 Chromium Edge に偽装。 HTTPエンジンは交換されたものと思われる。
ClientPTR: ec2-3-133-98-NN.us-east-2.compute.amazonaws.com [3.133.98.NN] GET /path HTTP/1.1 Host:host Accept:*/* Accept-Encoding:gzip, deflate User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36 Edg/96.0.1054.43
https://web.archive.org/save/URL
で
そのページを代理取得して、余計なJavaScriptを付加してレンダリングする。
Via:に特徴的な記録を残すが、X-Forwarded-for: の類は残さない。
一発URLのみだが匿名プロクシとして使えるかもしれない。
ClientPTR: wwwb-appNN.us.archive.org GET /path HTTP/1.1 Accept:browser original Accept-Charset:browser original Accept-Language:browser original User-Agent:browser original User-Agent:Mozilla/5.0 (compatible; archive.org_bot; Wayback Machine Live Record; +http://archive.org/details/archive.org_bot) User-Agentが無かった場合 Via:HTTP/1.0 web.archive.org (Wayback Save Page) Connection:close Host:host Accept-Encoding:gzip,deflate No X-Forwarded-For
2022-03-15 から観測しているものは /robots.txt を取得しているが、 依然 GET / のみなので意図が不明。
ClientHost: ec2-NN-NN-NN.eu-west-1.compute.amazonaws.com GET /robots.txt HTTP/1.1 Host:host User-Agent:webprosbot/2.0 (+mailto:abuse-6337@webpros.com) Connection:close
Pinpoint-
で始まるヘッダを大量につけてくる。
なんだろう、Kafkaのプラグイン?
Accept-Language: ko
固定なのはあまりよろしくないのでは。
ユーザーエージェント情報に関して
ClientIPA: 211.249.40.* (dreamline.co.kr) HEAD /path HTTP/1.1 Accept:text/html Pinpoint-TraceID:cvapi02.ncsone-eq0sz^1671541700119^4012243 Pinpoint-SpanID:-8744669647234554155 Pinpoint-pSpanID:-6662013965512372121 Pinpoint-Flags:0 Pinpoint-pAppName:NCS_HOME_OPEN_GRAPH Pinpoint-pAppType:1010 Pinpoint-Host:host Cache-Control:no-cache Pragma:no-cache User-Agent:Java/1.8.0_161 Host:host Connection:keep-alive GET /path HTTP/1.1 Accept-Encoding:gzip User-Agent:facebookexternalhit/1.1; Mozilla/5.0 (compatible; WorksOgCrawler/1.0.0;) Accept-Language:ko Accept:text/html Pinpoint-TraceID:cvapi02.ncsone-eq0sz^1671541700119^4012243 Pinpoint-SpanID:-192219640814989944 Pinpoint-pSpanID:-6662013965512372121 Pinpoint-Flags:0 Pinpoint-pAppName:NCS_HOME_OPEN_GRAPH Pinpoint-pAppType:1010 Pinpoint-Host:host Cache-Control:no-cache Pragma:no-cache Host:host Connection:keep-alive GET /path HTTP/1.1 Accept-Encoding:gzip User-Agent:Mozilla/5.0 (compatible; WorksOgCrawler/1.0.0;) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36 Accept-Language:ko Accept:text/html Pinpoint-TraceID:cvapi02.ncsone-eq0sz^1671541700119^4012243 Pinpoint-SpanID:-868310285688737567 Pinpoint-pSpanID:-6662013965512372121 Pinpoint-Flags:0 Pinpoint-pAppName:NCS_HOME_OPEN_GRAPH Pinpoint-pAppType:1010 Pinpoint-Host:host Cache-Control:no-cache Pragma:no-cache Host:host Connection:keep-alive
User-Agent: wp_is_mobile
は
AccessPress Themes のバックドアスキャナ。
User-Agent: と Cookie: でバックドアが起動される。
理由は不明だがこのスキャナは
referer: www.bing.com
も固定でつけてくる。
GET /wp-booking.php HTTP/1.1 Host:host Connection:keep-alive Accept-Encoding:gzip, deflate Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8 User-Agent:wp_is_mobile Accept-Language:en-US,en;q=0.9,fr;q=0.8 Cache-Control:max-age=0 referer:www.bing.com Cookie:b6c7f4bc046cc515687e9381975c6e0b=66e70d37e21ebc3540741373ae51059b; Upgrade-Insecure-Requests:1
クローラーについて
ウェブページを巡回し、コンテンツを収集・蓄積するシステムを「クローラー」を呼びます。Yahoo! JAPANでは、次のようなユーザーエージェントを持ったクローラーが、検索サービスでの利用や研究、開発などの目的で、ウェブページの収集と蓄積を行っています。
- Y!J-BRU/VSIDX
- Y!J-BRW
- Y!J-ASR
- Y!J-MMP/dscv
- Y!J-WSC
Y!J の検索出力は Googlebot なので、直接の検索用ではなさそうではあるが。 *.rpm も吸い上げていく。やめれ。
ClientPTR: crawl.182-22-30-NN.yahoo-net.jp [182.22.30.NN] GET /path-including-binary HTTP/1.1 User-Agent:Mozilla/5.0 (compatible; Y!J-WSC/1.0; +https://yahoo.jp/3BSZgF) Host:vega.pgw.jp Connection:Keep-Alive Accept-Encoding:gzip,deflate Accept:*/* Accept-Language:ja-JP,ja;q=0.8,en-US;q=0.6,en;q=0.4 Sec-Fetch-Dest:document Sec-Fetch-Mode:navigate Sec-Fetch-Site:none
GET /image_file HTTP/1.1 Host:host Accept-Encoding:gzip Connection:keep-alive Accept:*/* User-Agent:Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/525.13 (KHTML, like Gecko) Chrome/0.A.B.C Safari/525.13 (Yahoo!Japan)
(2018-10-12) 詳細不明。画像だけを取得する。 UAは色々なものが見られるので、画像proxyか何かのような気もする。 サムネール表示変換?
ClientIPa: exproxy0NN.pf.news.kks.yahoo-net.jp [183.79.92.1NN] GET /path_of_image HTTP/1.1 Host:host User-Agent:variable (no other headers)
Referer: として http://host を渡してくる。 また、渡した覚えのない Cookie を渡してくる。 クッキーを食わない物は拒否するサーバーか何かの アクセスコントロールの回避用だろうか?
ClientHost: edge.lax02.as64271.net [161.129.38.254] GET /path HTTP/1.1 Host:host User-Agent:Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Charset:windows-1252,utf-8;q=0.7,*;q=0.7 Accept-Encoding:gzip, deflate Accept-Language:en-us;q=0.5,en;q=0.3 Cookie:a=1 Referer:http://host
ClientAddr [5.188.*.*], [84.201.128.0 - 84.201.191.255], other .ru region GET /path HTTP/1.0 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8 User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36 OPR/55.0.2994.44 various Referer:http://host/path Host:host Connection:close No Accept-Language
通常のブラウザはReferer:に取得URLそのものを入れることはない。 が、Lynxは例外でリロード時にReferer:に同じURLが入る。 滅多にありませんが。
ClientPtr: crawl.NN-NN-NN-NN.web.naver.com GET /path HTTP/1.1 Host:host Connection:Keep-Alive User-Agent:Mozilla/5.0 (compatible; Yeti/1.1; +http://naver.me/spd) Accept-Encoding:gzip,deflate Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Charset:windows-949,utf-8;q=0.7,*;q=0.3 Accept-Language:ko-KR,ko;q=0.8,en-US;q=0.6,en;q=0.4
画像も取得する。 .html取得時と画像取得時でヘッダ構造がだいぶ違うので、 違うサービスを並列で動かしているのかもしれない。 .html取得時の UA や accept-language がなんか投げやりな感じ。
GET path HTTP/1.1 Accept-Encoding:gzip, deflate Host:host Upgrade-Insecure-Requests:1 User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36 accept:*/* accept-language:zh-CN,zh;q=0.9 Connection:close
GET /image_url HTTP/1.1 Accept:*/* Accept-Encoding:gzip Accept-Language:zh-CN,zh-TW;q=0.9,zh;q=0.8,en;q=0.7 Host:host Referer:proper referrer User-Agent:YisouSpider Connection:close
GET /path HTTP/1.1 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:en User-Agent:YouBot (+http://www.you.com) Accept-Encoding:gzip, deflate Host:host
Accept-Encoding:br, gzip
が独特。
→Bravebot
/robots.txt は読まないが、 今のところ立入禁止区域には入ってきていない。 取得間隔は日に1〜2回と緩慢。
*.clients.your-server.de では MJ12bot, DataForSeoBot も動いているのでややこしい。
ClientPTR: static.NN.NN.161.5.clients.your-server.de [5.161.NN.NN] GET /path HTTP/1.1 Host:host User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36 Accept-Language:en-US,en;q=0.9 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 DNT:1 Connection:keep-alive Accept-Encoding:br, gzip参考:本物の Chrome/84 のヘッダ:
GET /path HTTP/1.1 Host:host Connection:keep-alive Upgrade-Insecure-Requests:1 User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9 Referer:referrer Accept-Encoding:gzip, deflate Accept-Language:ja,en-US;q=0.9,en;q=0.8
Mozilla/5.0 (X11; Linux x86_64; rv:10.0) Gecko/20150101 Firefox/47.0 (Chrome)
というUAは Firefox のものではなく、
youtube-dl などの
動画ダウンローダに設定されているもののようです。
観測しているものは HEAD → GET しているが、
Accept-Encoding: がなぜか違う。
HEAD /path HTTP/1.1 Host:host Connection:close User-Agent:Mozilla/5.0 (X11; Linux x86_64; rv:10.0) Gecko/20150101 Firefox/47.0 (Chrome) Accept-Charset:ISO-8859-1,utf-8;q=0.7,*;q=0.7 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:en-us,en;q=0.5 Accept-Encoding:gzip, deflate GET /path HTTP/1.1 Host:host Connection:close User-Agent:Mozilla/5.0 (X11; Linux x86_64; rv:10.0) Gecko/20150101 Firefox/47.0 (Chrome) Accept-Charset:ISO-8859-1,utf-8;q=0.7,*;q=0.7 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:en-us,en;q=0.5 Accept-Encoding:*
x-zm-b3:
ヘッダをつけてくる。
User-Agent:okhttp/4.9.3
のまま。
ヘッダの構造からするに、okhttp はともかく /robots.txt 取得と本文取得では違う HTTP エンジンを使っている模様。
ClientPTR: 170-114-10-202.zoom.us [170.114.10.202] - 一回目のアクセス HEAD /~kabe/linux/zip-unicode/utf-8.html HTTP/1.1 x-zm-b3:6305d8ac01cbaf52003b05af9630ad24-003b05af964c7286-1-003b05af9630ad25 Host:host Connection:Keep-Alive Accept-Encoding:gzip User-Agent:okhttp/4.9.3
- /robots.txt 取得 GET /robots.txt HTTP/1.1 Accept-Language:en-us,en-gb,en;q=0.7,*;q=0.3 Accept-Charset:utf-8,ISO-8859-1;q=0.7,*;q=0.7 Accept-Encoding:x-gzip, gzip Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Host:host Connection:Keep-Alive User-Agent:Mozilla/5.0 (compatible; Zoombot/1.0; +https://zoom.us; crawler@domain.com)
- 本文取得 GET /contentpath HTTP/1.1 User-Agent:Zoombot Host:host Accept:text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2 Connection:keep-alive
- /favicon.ico チェック HEAD /favicon.ico HTTP/1.1 Host:host Connection:Keep-Alive Accept-Encoding:gzip User-Agent:okhttp/4.9.3
- /favicon.ico 取得 GET /favicon.ico HTTP/1.1 Host:host Connection:Keep-Alive Accept-Encoding:gzip User-Agent:okhttp/4.9.3