]>
前口上は 註の註 に移しました。 当ページはデータに専念します。
[アクセス統計][筆者のホームページ][註の註]
$Id: agentgripes.html,v 7.103 2003-01-21 04:22:58+09 kabe Exp $
User-Agent: Mozilla/1.0 (Windows) via proxy gateway A+HTTPD/1.0beta3 libwww/2.17…なんか富士通に買収されて(ja)ゐる…
Server: Amdahl/1.0beta3
User-Agent: A.G.E.N.T. http://masui.net/agent/libwww-perl/5.36
User-Agent: A.G.E.N.T. http://masui.net/agent/libwww-perl/5.44 (2000/01/15-)
User-Agent: Acoon Robot v1.01 (www.acoon.de) (1999/06/17-2000/11/27)
User-Agent: Acoon Robot v1.50.001 (www.acoon.de) (2001/01/02-)
Accept: */*
If-Modified-Since: XXX, nn XXX nnnn 00:00:01 GMT
ClientHost: www.acornsearch.com [194.153.168.129]
Accept: */*
User-Agent: Mozilla/4.0 (compatible; AcornSearch; IRIX) (2001/03/12-2001/06/17)
User-Agent: Mozilla/4.0 (compatible; JavaHunter/AcornSearch; Linux) (2001/07/25-)
リスト浄化のための spam送信も 行っている (NANAE 2002/02/10) ようです。 (資料不足なので第三者によるイヤガラセの可能性もありますが) (2002/02/11)
ClientHost: 64-42-36-100.atgi.net [64.42.36.100]
User-Agent: Mozilla/4.0 (compatible; Advanced Email Extractor v2.31) (2002/01/27-01/31)
User-Agent: Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt) (2002/02/01-)
Referer: http://addresses.com/links.php
Accept: */*
Accept-Encoding: gzip,deflate
Clienthost: green.alexa.com [206.132.186.131]MSIE等ではこんなUAをつけるものは存在しないようです。
User-Agent: Mozilla/3.0 (compatible; Win95)
From: crawler@alexa.com
ClientHost: [202.222.92.131], prev.allabout.co.jp [202.222.92.165]
User-Agent: Java1.2.2 (2001/03/02-2001/04/10)
User-Agent: All About Japan Link Patrol/1.0 (info@im.allabout.co.jp) (2001/04/16-2002/02/14)
User-Agent: All About Japan Link Checker/1.0 (info@im.allabout.co.jp) (2001/06/16-07/16)
Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
2002/06頃に システム入替 があったらしく、 一週間毎のチェックとなっています。 非Java。 相変わらず404等にもめげません。 ご主人様に報告しろよ…
ClientHost: [202.222.92.195]
User-Agent: AllAboutJapan LinkChecker (2002/06/23-)
Pragma: no-cache
"Link Checker" は過去に一ヶ月だけ使われてましたが、 なんで "Link Patrol" を捨ててしまったんでしょうおかね
HTTP Specには「From, Referer, Accept-Language は個人情報を 表すことがあるので、送信する場合はユーザーに注意を促せ」 と書いてあるんですが、Netscape や Microsoft がこれを真面目に 読んでいるとは思えない。User-Agentを残したり、「匿名だよーん」と宣伝してるあたりが なんか中途半端な気もしますが、さすがにUser-Agentを削ると Frame なページが見えなくなったりするからでしょう。
User-Agent: Mozilla/3.01 [ja] (via THE ANONYMIZER!)しかも実際に削っているのは From: とReferer: だけで、あとは そのまま素通しのようです。Via: や Forwarded: も しっかり残ります。おーい、バレ(て)るぞー。
User-Agent: Mozilla/2.0 (TuringOS; Turing Machine; 0.0)
最近では「User-Agentの最初の"(
"以降を置き換える」
方式になったようです。1998/Aprより観測。
依然 Referer: やら Via: やら UA-OS: やらは素通しです。(1999/05/26)
Range: bytes=0-524288 (${MAXHTMLSIZE:=512}*1024)
User-Agent: Another_HTML-lint/0.97 +libwww-perl/5.48
User-Agent: ANT Fresco/1.31 (RISC OS 3.70)
User-Agent: Mozilla/2.0NC-1 (compatible; NCBrowser/1.24; ANTFresco/1.51; NC OS 1.15)
User-Agent: ANT Fresco/1.60 (RISC OS 3.50)
Via: by AOL TurboWebApache開発メンバーの評判は悪いです。 似たような話は RFC 2145 で述べられてたりする。
Via: 1.0 AOL TurboWeb (3.1)
Via: 1.0 www-aw7.proxy.aol.com:11523 (AOL TurboWeb/3.2)
User-Agent: ApacheBench/1.3
User-Agent: appie/1.1 (2000/07/30-)
From: walhello@walhello.com
Accept: text/*
User-Agent: xChaos_Arachne/1.48;beta (DOS x86; 800x600,256c; http://home.arachne.cz/)おすすめは DR-DOS になってますが、Win95のDOSモード (DOS窓はダメ)でも マウスドライバとパケットドライバを用意すれば動きます(当然か)。 NT でもネットワーク回り以外はコマンドプロンプトで動いてしまう。
Accept: */*
wget -N -r -w 10
と似通った動きだが
wget そのものではない、はず)
- ~1997.05
- User-Agent: Arachnoidea
Referer: http://euroseek.com- 1997.08 ~ 1999.02
- User-Agent: Arachnoidea
Referer: http://www.euroseek.com
From: team@euroseek.net- 1999.02 - 2000/05/11
- User-Agent: Arachnoidea (arachnoidea@euroseek.net)
No Referer
From: arachnoidea@euroseek.net- 2000/07/28 -
- User-Agent: Arachnoidea (arachnoidea@euroseek.com)
From: arachnoidea@euroseek.com
1999.02以降は From: arachnoidea@euroseek.net になってますが、 これは届きそうにありません。以前の team@euroseek.net を使うのが正しいようです。 2000/07以降で使われている arachnoidea@euroseek.com は ちゃんと届きそうです。 (2000/07/29)
User-Agent: ArchitextSpider
From: spider@atext.com
2001/05/22 から /robots.txt だけをホスト分散(30くらい)で 狂ったように持っていっています。1日1500回はやりすぎだと思う。 (2001/05/24)
ClientHost: h*.p253.iij4u.or.jp [210.130.253.*] (IIJ4U dialup region)
User-Agent: Aruyo/0.01 (http://www.aaacafe.ne.jp/) (2002/02/16-2002/04/03)
From: postmaster@aaacafe.ne.jp
User-Agent: Mozilla/4.0 (FreeBSD; U;with aruyo0.01) (2002/04/24)
User-Agent: Mozilla/3.0 (FreeBSD-4.0;http://www.aaacafe.ne.jp/ ;aruyo0.01) (2002/04/27-2002/05/29)
From: support@aaacafe.ne.jp
User-Agent: Mozilla/3.0 (aruyo/0.01;http://www.aaacafe.ne.jp/ ;support@aaacafe.ne.jp) (2002/06/03-)
If-Modified-Since: legit
User-Agent: Asahina-Antenna/1.11「朝比奈」ではなく「朝日奈」です (カタギな人は間違えやすい)。 普通の辞書には前者しか含まれてませんが、ちゃんと由来があるので 尊重してあげましょう。
User-Agent: Asahina-Antenna/1.957 (libhina.pl/0.05 ; libtime.pl/0.01)
User-Agent: Asahina-Antenna/2.196 (libhina.pl/0.58 ; libtime.pl/0.05)
Referer: 設定可能
(If-Modified-Since:)
(If-None-Match:)
User-Agent: ASPSeek/1.2.3
User-Agent: ASPSeek Portal Edition
(Accept-charset:)
C++で書かれているが、sprintf(str+strlen(str), ...)なんてのを
常用するのはまずいのでは…
User-Agent: Astra/1.0 (WinNT; I)
User-Agent: Autonomy/1.1
User-Agent: Autonomy (Windows; I; 16bit) 体験版のバイナリで確認
User-Agent: Auto-Proxy Downloader
Netscape やMSIE4以降では 通常と同じく "Mozilla/..." をよこします。
User-Agent: Mozilla/3.0 (compatible; AvantGo 3.0)CNETの表記では「アバントゴー」 ですが、読みは「アヴァンゴー」だと思います (フランス語混じりで「前ニ進ム」)。
User-Agent: Mozilla/1.1N AVE-Front/1.0 (BrowserInfo Screen=640x480x256; InputMethod=PEN, KEYBOAD; Page=250K;) (sic)
User-Agent: sharp wd browser/1.0[ja](MR-1/1.0) AVE-Front/1.0 (BrowserInfo Screen=640x480x256; InputMethod=PEN, KEYBOARD; Page=512K;)
User-Agent: sharp wd browser/1.0[ja](MR600/1.0) AVE-Front/1.0 (BrowserInfo Screen=640x480x256; InputMethod=PEN, KEYBOARD; Page=511K;)
User-Agent: sharp wd browser/1.0[ja](MR-2/1.0) AVE-Front/2.0(BrowserInfo Screen=640x480x256; InputMethod=PEN, KEYBOARD; Page=1.8M; Category=WP; CPU=x86; Storage=1G; Product=SHARP/WD;)
User-Agent: sharp tv browser/2.6[ja](PC1/1.0) AVE-Front/1.0 (BrowserInfo Screen=640x480x64K; InputMethod=REMOCON; Page=490K; )
User-Agent: Mozilla/1.1N So-netStation/1.0 AVE-Front/1.0 (BrowserInfo Screen=640x480x32K; InputMethod=PEN; Page=600K; )
User-Agent: Mozilla/1.1N AVE-Front/1.0(BrowserInfo Screen=640x480x256; InputMethod=PEN,KEYBOARD; Page=512K; Category=PDA; CPU=x86; Storage=NO; Product=Fujitsu/Debut;)
User-Agent: Mozilla/1.1N AVE-Front/1.0 (BrowserInfo Screen=640x480x256; InputMethod=PEN, KEYBOARD; Page=250K; Category=WP; CPU=V810; Storage=NO; Product=NEC/VX601; )
sharp wd てのは 書院です。 ブラウザとしての能力は AVE-Front のバージョン番号で見るのが 正しいようで。 (MR-2では わざわざ「HTML3.2対応」と言っている所を見ると、 中身はNetFrontと思われる) ホントに TRON なんでしょうか。
Debut て InterTOPのことですかね。 →eNavigator
VX601 てのも何だかわかりません。 文豪なら 型番は "JX" のはずだし…
このくそ長い UA は一応 Client-Specific Web Services by Using User Agent Attributes (筆者はアクセス所属) という名前で W3C Note に なってるのですが、他のブラウザで採用した例はありません。 キャッシュ的にもやさしくない。
Mercator-1.0 とはヘッダ(Accept:)が違い、 robots.txtを拾う頻度や再帰の仕方など 挙動もだいぶ違っているので(単なる設定の違いかもしれませんが) "-1.0" とはついてますが Mercator-1.0 とは別モンでしょう。
基本的に 旧Scooter は 画像は拾っていなかったのですが、 画像検索 を提供するようになったためか画像も持っていきます。 (画像だけあとでまとめて持っていくのでブラウザとは取得特性は違う)
UA にはホスト名と個別ID?が入っているなど、 Dave's Engine 以上にひねくれています。 統計では "[av-Mercator]" としてあります。 (2001/01/16) →Mercator,→Scooter
ClientHost: hostname.sv.av.com (AltaVista)
User-Agent: hostname_Mercator_id-1.0 (2000/11/24-2000/12/19)
User-Agent: hostname4_Merc_resh_id-1.0 (2001/01/13-2001/01/15 画像は拾わない)
User-Agent: Scooter-hostname_Mc_f65m_id (2001/01/30- 画像なし)
From: search@support.altavista.com
Accept: text/html, */*
User-Agent: Scooter-1.0 (2000/11-2001/01/11)
From: search@support.altavista.com
From: http://www.altavista.com (vscooter.sv.av.com)
No Accept:
vscooter の v は確か videoかvisual の v かなんかだったような気が
Clienthost: queue.yappo.ne.jp[202.221.244.156] (bp.to)
User-Agent: original User-Agent
X-Forwarded-For: clientIP
From: ko@yappo.ne.jp
Referer: logical referrer
X-Uid: ####
User-Agent: B-Collector/0.31u (Linux2.0.30; i586)「単なる URL 収集プログラム」ぢゃわからんよなぁ
Referer: http://www.b-session.com/
User-Agent: Mozilla/2.0 BBB/2.000 (BrightV/2.000)
Clienthost: birddog*.bess.net
User-Agent: Mozilla (-2000/06/14)
From: birddog@n2h2.com
Via: 1.0 birddog*:9998 (N2H2 Proxy Server/4.20b)
上記形式 のは 2000/06/14 までで、2000/06/15 からは単に libwww-perl になっています。From もなくなりました。 (イタヅラメールが多かった?) 動作は変わってないので多分同じ物でしょう。 (2000/07/27)
Clienthost: birddog*.bess.net, 209.102.77.*
User-Agent: libwww-perl/5.XX (2000/06/15-)
Via: 1.0 birddog*:9998 (N2H2 Proxy Server/4.20b)
実は数回だけ (2000/06中旬) "N2H2-BirdDog/flyingace" とついた ものを観測しており、これには Referer がついています。 たどると Bess や Searchopolis 用のロボットであることが明記されています。 現在動いている物がこれと同じ物かは不明。同じような気がしますが…
User-Agent: N2H2-BirdDog/flyingace-1.071
Referer: http://duke.bess.net/~larry/bots/flyingace.html
From: Larry Gilbert <larry@n2h2.com>
User-Agent: Big Brother (http://pauillac.inria.fr/~fpottier/)
Accept: text/*
Accept: text/*
User-Agent: BMChecker
Accept: */*
User-Agent: bmChecker Hyd-Http.pm/0.62 (http://way.direct.ne.jp/)
Accept-Languege: ja, en
perlで書かれてますが、本体にもモジュールにもバグが 何個か入っていてまともに動きません。 (API変更が原因のような匂いがする。) 気合で虫とりすべし。 v 1.1.1でも根本的には直っていない。
Accept: text/plain, */*
Accept-Language: ja, en; q=0.5
User-Agent: bmChecker Hyd-HTTP.pm/1.1.1 (http://way.direct.ne.jp/HTTP/Perl-Module/)
Accept-Charset: Shift_JIS, ISO-2022-JP; q=0.8, EUC-JP; q=0.6, *; q=0.01
User-Agent: Bookmark Mate
Clienthost: hangedman.fsi.ne.jp [210.199.215.14] == www.bookmark.ne.jp
Request-line: HEAD absurl HTTP/1.0
User-Agent: Bookmark Update Checker [http://www.bookmark.ne.jp/] (2000/07/26-2001/02/18)
User-Agent: Bookmark Renewal Check Agent [http://www.bookmark.ne.jp/] (2001/02/18-)
User-Agent: Mozilla/4.0 (compatible; BorderManager 3.0)
なお、Novellのいう "HTTP Acceleration" は先読みではなく、 reverse-proxy (MS-Proxy用語) のことです。 ちょっと読めばすぐにわかりますが一応注意。
Clienthost: [192.244.1.10] cgi.coara.or.jp
Referer: Request URI
Host: hostname w/o port#
Accept: */*
User-Agent: BrowserCrasherChecker 0.11
User-Agent: BSpider/1.00 libwww-perl/0.40 (WRD登録版)
User-Agent: BSpider/1.0 (1997 06/-)
Referer:
From: okumura@rsl.crl.fujixerox.co.jp
User-Agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
ClientHost: www.24sevennonstoppower.co.uk [212.135.130.131], [212.135.130.13[012345]]
User-Agent: bumblebee@relevare.com (2001/06/26-)
Accept: text/*
Accept-Charset: ISO-8859-1
User-Agent: Cab/01.50 STiK/01.07
User-Agent: Mozilla/3.01 (compatible; CacheFlow-Cache/1.1 - 10945.R)
User-Agent: Mozilla/3.01 (compatible; CacheFlow-Cache/1.2.00 r11005.R)
User-Agent: Mozilla/3.01 (compatible;) (自動更新時)
Cache-Control: max-stale=0
Xroxy-Connection: Keep-Alive
Xonnection: Keep-Alive
このエントリを初めて掲載したのは 1999/06 ですが、 この自動更新時(あるいはヒット数維持用)のUAは いまだに多くのログ解析依存症患者を悩ませているようです。
CacheOS 3.0以降では{Proxy-,}Connection の変換はせず、 単に削除します。IMSや If-None-Match: は素通しになったようです。 クライアント側で Cache-Control: max-age=0,max-stale=0 / Pragma: no-cache とかやっても取りに行かないことがあります。 2.0以前ではどうだったか忘れましたが自動更新時はなぜか HOST: と大文字になったりします。 (2000/10/31)
(CacheOS 3.0.14.13679)
HOST: host[:port]
User-Agent: Mozilla/3.01 (compatible;)
Accept: text/html, */*
If-Modified-Since: legitimate
Cache-Control: max-stale=0
User-Agent: Proxy gateway CERN-HTTPD/3.0 libwww/2.17
User-Agent: Proxy gateway WebTrack-HTTPP/1.2 libwww/2.17
User-Agent: Checkbot/1.42 LWP/5.05
User-Agent: Checker/v1.30 libwww/3.0
Request-Line: GET /default.ida?XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX%u9090%u6858%ucbd3%u7801%u9090%u6858%ucbd3%u7801%u9090%u6858%ucbd3%u7801%u9090%u9090%u8190%u00c3%u0003%u8b00%u531b%u53ff%u0078%u0000%u00=a
No User-Agent (intrusion binary follows)
この場合、user agent の userって誰だろ(ワームの作者?)
Accept: */*
From: kensaku@po.dcn.ne.jp
Referer: search result page
User-Agent: Commerobo/0.1.0.3 (http://www2.dcn.ne.jp/~kensaku/)
配布版 には From: 発行ロジックや100kB切断は無いようです。 (2001/07/02)
User-Agent: Commerobo/0.1.0.4 (http://free01.plala.or.jp/~commenton/)
Accept: */*
Pragma: no-cache
User-Agent: contype
MSDNによると、MSIE 4.0 以降ではサーバーからもらったContent-Typeを 知っている場合は、嘘でないか 中身もチェックする ようです。 HTMLをtext/plainとして食わせてもplainにならないのはこれが原因ですな。
Remote-Host: 216.112.42.61 (=anon.cotse.com )
User-Agent: DidYouSeeAnElephant? [en] (X10; cotse; WetElephant99)Remote-Host: 216.112.42.60 (=anon.cotse.com )
User-Agent: Mozilla/4.7 [en] (compatible; Cotse; DidYouSeeAnElephant?) (2000/06-)
User-Agent: Child Research Net Spider 0.91
Referer: commandline
User-Agent: curl/6.4 (config.guess) libcurl 6.4
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*
ただ観測しているのは *.uswal.alltheweb.com (逆索きなし) から Range: 0-15000 がついているもの。 おそらく FAST Search の検索エンジン用ロボットでしょう。 以前の "FAST-WebCrawler" (1999/03/08-2000/02/10) は Range: は つけません。 (2000/03/09) →[FAST-WebCrawler w.libwww-perl]
User-Agent: Cyberdog/1.2
User-Agent: Cyberdog 2.0/a1 (Macintosh; PPC)
User-Agent: Cyberdog/2.0a2 (Macintosh; PPC)
User-Agent: Cyberdog/2.0 (Macintosh; PPC)
Dave Garaffa (BrowserWatchの作者)に 指摘 されて 直した みたいです
User-Agent: CyberSpyder
User-Agent: CyberSpyder Link Test/2.0 alpha 2
ClientHost: m*.cyc-lab.com [211.13.216.19*] (*.nethack.co.jp)
User-Agent: Wget/1.6 (2002/01/02-)
Accept: */*
IMS を使えないとか、あまり細かいヘッダ制御ができないてのもあって、 単なるHTTPエンジンとしてならWgetはおすすめしませんが、 人気はあるようで他のプロトタイプ?ロボットで使われているもの見掛けます。
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */* (MSINET.OCXのデフォルト)"Microsoft URL Control" は UA を設定しないようなプログラム でしか観察されないので、無条件でアクセス拒否してもいいんでないですかね
User-Agent: D-Engine Lite 1.02 (投稿時)
User-Agent: Microsoft URL Control - 6.00.8169 (FORM解析時、MSINET.OCXのデフォルト)
Referer: 「投稿フォーム」
[Pragma: No-Cache]
User-Agent: Mozilla/DM_3.03 Unix Spyglass/0 (Dec 15 1997)
User-Agent: Mozilla/4.0 (compatible; Spyglass DM 3.1.0; Win32)
User-Agent: Mozilla/3.0 (compatible, Spyglass DM 3.2; Win32)
ClientHost: crl.00skyrocket.88.178.203.in-addr.arpa [203.178.88.244] (no A)(SKYROCKET/Mitsubishi Electric)
User-Agent: DiaGem/1.0 (crawleradmin@icc.melco.co.jp) (2001/11/18-2001/12/10)
From: crawleradmin@icc.melco.co.jp
Accept: text/*
Accept-Language: ja,en
Accept-Encoding: identity
Connection: close
結局「いかにも三菱」な名前のDiaGemは ひと月だけ使われて、 ずっと以前に一回だけ使われていた i-mode詐称UA を使うようになりました。にせ i-mode はGoogleに次いで2件目。 きっちり一分間隔も同じです。 /robots.txt を読む頻度がかなり遅いかも。一応守ってはいる模様。 NTTドコモに訴えられるのが こわいのか、 WRDには 登録されていません。 (自主的に登録する人はもうほとんどいなくなってしまった) 統計では "[DiaGem as DoCoMo]" としてあります。 (2002/01/19)
ClientHost: 203.178.88.226 (*.melco.co.jp/*.mind.ad.jp)
User-Agent: DoCoMo/1.0/D503i/c10/ (crawleradmin@icc.melco.co.jp) (2001/07/03, 2001/12/14-)
From: crawleradmin@icc.melco.co.jp
Accept: text/*
Accept-Language: ja,en
Accept-Encoding: identity
Connection: close
末尾の "/" は
printf("DoCoMo/1.0/D503i/c10/%s (%s)\r\n", tanmatsu_id, from);
とでもしているせいでしょう
User-Agent: Mozilla/4.0 (Compatible; DialProxy/1.82; Windows95/NT) (デフォルト)
User-Agent: Mozilla/4.0 (Compatible; MSIE 4.0 DialProxy/1.82; Windows95/NT)
User-Agent: Direct Hit Grabber/1.0研究としては似たようなものはずいぶーんやられてたような 気がするんですが、やっぱアメリカは違うわ… (MITのベンチャー助成コンテストの優勝プロジェクトらしい) (1999/05/30)
User-Agent: Mozilla/4.0 (Direct Hit Grabber)/1.2
詳しいログをとってみるとHTTP-Accept-Charsetなるナゾのヘッダが ついています。
User-Agent: Mozilla/4.0 [en] (Direct Hit Grabber) (1999/02/22-)
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*
Accept-Language: en
HTTP-Accept-Charset: iso-8859-1,*,utf-8 (not Accept-Charset:)
From: DirectHitGrabber@directhit.com
Uses IMS sometimes
HEAD absurl HTTP/1.0
Accept: */*
User-Agent: DLC/0.55
Host: host (no port#)
Content-Length: 0 (???)
Pragma: no-cache
User-Agent: Mozilla/1.22 (compatible; MSIE 1.5; Windows NT) via DocuMagix HotCargo Express/1.1 proxied Open-Market (proxy時)
User-Agent: Mozilla/1.22 (compatible; MSIE 1.5; Windows NT) via DocuMagix HotCargo Express/1.1 retrieval Open-Market (巡回時)
Forwarded: by http://127.0.0.1/ (DocuMagix HotCargo Express/1.1)
Accept: */*
Referer: usually real referrer
User-Agent: Do!Get's
No Range:
User-Agent: Mozilla/3.0 (DreamPassport)ドリキャスのブラウザ名
User-Agent: Mozilla/3.0 (DreamPassport/1.01)
User-Agent: Mozilla/3.0 (DreamPassport/2.0)
User-Agent: Mozilla/3.0 (SonicPassport)
User-Agent: Drip
User-Agent: Mozilla/2.0 EasyRider-FF/D1.3 (ARM; 32bit; compatible; MSIE 2.0; IA) libwww/2.17 modified
/robots.txt
は持っていっているが無視されている。
(1999/06/15)
User-Agent: EchO!/2.0
User-Agent: EMC Web Hopper
ClientHost: em0?.em.gala-net.co.jp [211.4.250.??]
User-Agent: libwww-perl/5.48 (2001/02/02-)
Range: bytes=0-1000000 (2001/12/31-)
User-Agent: Mozilla/3.0 eNavigator (7; 1; Fujitsu; INTERTop; ; (null); 1.0)
User-Agent: Mozilla/3.0 eNavigator (7; 1; Fujitsu; OASYS; 1998.10; (null); 1.0)
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*
Accept-Language: ja-JP
(null) てのは printf("%s", NULL) が漏れているんでしょうな
User-Agent: Enfish Tracker
passes IMS and If-None-Match
User-Agent: Enhanced_Mosaic/2.10 Win32 WRQ/7
User-Agent: Enhanced_Mosaic/2.10 Win32 Luckman/6
User-Agent: Enhanced_Mosaic/2.00 Win32 FTP Software/Spyglass/3
User-Agent: enProxy 1.0 (選択肢の一つ)ヘルプを見ると 127.0.0.1:8080 に bind しているようですが、 実際は INADDR_ANY のようです。
User-Agent: Mozilla/1.22 (compatible; MSIE 5.01; PalmOS 3.0) EudoraWeb 2.1
Accept: */*
Clienthost: (within Excite NETBLK-UU-199-172-144 netblock, mostly no PTR)
User-Agent: libwww-perl/5.32 (1999/10/14-15)
User-Agent: libwww-perl/5.33 (2000/03/22-2000/06/15)
User-Agent: libwww-perl/5.47 (2000/06/16-)
*.atext.com (これもExcite、ただしネットワーク違い) からも 似たようなアクセスが散見されるようになりました。 こちらのほうは "[atext-Excite w.libwww-perl]" としてあります。
Clienthost: *.atext.com
User-Agent: libwww-perl/5.48 (2000/09/07-)
User-Agent: Mozilla/2.0 (compatible; EZResult -- Internet Search Engine)
User-Agent: Mozilla/2.0 (compatible; EZResult -- Internet Search Engine acurtis@directhit.com) (2000/03/29-, from ghost.directhit.com)
Accept: text/html, text/plain
UA-Color: color8
UA-Pixels: 800x600
UA-CPU: x86
UA-OS: Windows NT
Referrer: http://www.ezresults.com/ (not Referer)
Clienthost: rdsr5r1.uswal.alltheweb.com [209.67.247.195]
User-Agent: libwww-perl/5.48 FP/2.1 (2000/06/11-)
Accept: text/html
From: gv@fast.no
Range: bytes=0-100000
Accept: text/*
Accept-Language: ja
Date: RFC1123 date
User-Agent: Favorites Search Ver.01.00
No IMS
検索結果の
参照回数を数えるため(だけ?)に、
単にRefresh: で引数を反射する簡易サーバーが18888番で動きますが、
これの出力がなんか変です。
全部 Server: ヘッダになってしまうことより
<LF><CR> が問題になるかも。
HTTP/1.0 200 OK<LF><CR>
Server: Favorites Serach; Date: Wed Feb 14 03:24:13 2001 ; Content-Type: text/html; charset="x-euc"; Content-Length: 238;<LF>
<LF>
HTMLヘルプが同梱されているので
「Internet Explorer 4.01SP1が必要」なんですが、
そのことがHTMLヘルプ内に書かれていたりして。
(経験値があれば *.chm はHTMLヘルプだとわかるでしょうけど)
今後は無意味にHTMLヘルプが増えそうでなんかヤです。
ヘルプをあきらめれば IE3 環境でも動きます。
(2001/02/14)
User-Agent: Flashnavi/0.37 バージョン1.0?
User-Agent: Flashnavi/0.38 バージョン1.1
User-Agent: Flashnavi/1.2
User-Agent: Mozilla/1.22 (compatible; FlashSite 1.0; Windows)
User-Agent: Flipper/1.1 libwww/5.0a
ClientHost: 208.148.122.16/28 (KEVIN MARCUS (NETBLK-CW-208-148-122-16))
User-Agent: Mozilla/3.0 (compatible; Fluffy the spider; http://www.searchhippo.com/; info@searchhippo.com) (2001/04-)
Accept: */*
Accept-Language: en
AltaVistaやInfoseekも検索エンジンを外販していますが、 基本的にはイントラネット用なのでロボットが外部から 観測されることはあまりありません。 そんな中で OpenTextは外部を含む収集にも良く使われているようです。 UAは完全カスタム可能なので、 "fly" 以外でも LiveLink である可能性はあります。
現在動いているのは、学情センターで運用している Web Search Project のもの。 検索だけでなく テストコレクションの 生成にも使われてそうです。 (2001/05/31)
User-Agent: fly/6.01 libwww/4.0D (fully customizable)
Accept: */*;q=0.3,text/plain,text/html
Accept: image/png,image/jpeg,image/tiff,image/gif,application/postscript,*/*;q=0.3,text/plain,text/html (マルチメディア収集設定?)
From: fully customizable
NACSISからは、はっきりとテストコレクション生成用と 述べているものが出るようになりました。 →OpenTextSiteCrawler (2001/12/07)
Request-Line:いわゆる巡回ソフトの中で「同一サーバーに対してはアクセス間隔をあける(デフォルト5秒)」 になっているのは珍しい。GET /robots.txt HTTP/V1.0
User-Agent: Folio_Retriever
User-Agent: Python-urllib/1.2, Four11 Web Crawler
User-Agent: Mozilla/1.22 (Win16: I) Freeloader
User-Agent: Mozilla/2.0 (FreshEye)
User-Agent: Mozilla/1.22 (compatible; MS FrontPage 1.1)
User-Agent: GAIS Robot/1.1B1
User-Agent: GAIS Robot/1.0B2
From: ssc85@cs.ccu.edu.tw
From: hph82@gais.cs.ccu.edu.tw (1998 01/-)
ClientHost: jdb00.yahoo.co.jp[210.140.123.52],gbaba.yahoo.co.jp[210.140.123.58]
User-Agent: Gensho Checker V1.1 (2001/05/14-2001/06/24)
User-Agent: Gensho Checker5 V1.1 (2001/06/13-15)
User-Agent: Down Site Checker V1.1 (2001/06/24-)
Accept: */*
Cache-Control: no-cache
2001/05/09 までは MSIE4.01(本物ぽい)でチェックしていた模様。
get
。
コマンドラインからは
% GET http://www.somehere.comと打つことになる。機能は御想像の通り。 新しいlibwww-perl-5.xxでは "lwp-request/1.26" になる。
User-Agent: GET/0.5 libwww-perl/0.40でも HEAD や POST は見たことがない。原理的には PUT や OPTIONS も 可能なはず…
User-Agent: HEAD/0.5 libwww-perl/0.40
User-Agent: POST/0.5 libwww-perl/0.40
User-Agent: GetHtml (2000/10-2000/12?)
User-Agent: Geturl/1.3.5Wget 1.4.5 は千秋広幸氏による移植があるようです。
User-Agent: Mozilla/4.0 (compatible; Getweb!/2.63)
User-Agent: Mozilla/3.0 (compatible; Getweb!/2.50 [I-O DATA Edition])
IMS成功とただのHEADではネットワーク負荷は全く同じですから、 設定可能ならともかく無条件にHEAD→GET ロジックを採用している人は 勉強不足と思われても仕方ありません。
User-Agent: GetYou! 0.34a (prototype; http://www.educ.cc.keio.ac.jp/~uc06557/)Accept: *.* を使っているツール類はこれだけではないので (GetRight, MemoWeb, IAM, minixpc, ...) そう書いてある資料なり参考書なりがありそうな気がするんですが どうなんでしょ。(1999/09/01)
Accept: *.*
Referer: real referrer
Accept: text/*
User-Agent: Ginga/1.0.7 (CGI:SERVER_NAME/SCRIPT_NAME http://homepage)
User-Agent: BackRub/2.1 backrub@google.stanford.edu http://google.stanford.edu/
User-Agent: Googlebot/1.0 (googlebot@googlebot.com http://googlebot.com/)
From: googlebot@googlebot.com
User-Agent: Googlebot/1.0 (googlebot(at)googlebot.com) (1999/11/09-2000/02/17)
From: googlebot(at)googlebot.com
User-Agent: Googlebot/2.0 beta (googlebot(at)googlebot.com) (2000/02/24-2000/06/23)
User-Agent: Googlebot/2.0 (+http://googlebot.com/bot.html) (2000/06/28-)
ClientHost: 216.239.35.4
Accept-Language: ja, en
Accept: text/html, text/plain
User-Agent: DoCoMo/1.0/P502i/c10 (Google CHTML Proxy/1.0) (2001/03/01-)
ClientHost: 216.239.3?.*
Accept-Language: en
Accept: text/vnd.wap.wml, text/vnd.wap.wmlscript, application/vnd.wap.wmlc, application/vnd.wap.wmlscriptc, text/x-hdml, application/x-hdmlc, application/x-up-alert, application/x-up-cacheop, application/x-up-device, application/x-up-digestentry, text/html, text/plain
User-Agent: Origianl-UA (Google WAP Proxy/1.0)
Clienthost: ipt10{1,2}.goo.ne.jp [202.229.31.{4,5}], goo101.goo.ne.jp [210.150.25.1]
No User-Agent: (2000/10/18-)
No If-Modified-Since:, Host:, ...
User-Agent: GoTit/3.0
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, image/xbm, image/png, */*
Accept-Charset: Shift_JIS,*,utf-8
Accept-Language: ja, en
Cache-Control: no-cache
でもMacOS8.6以上らしい。試せない。
query string のことを PERL と述べているのがナイス。
ナイスぢゃありません
User-Agent: nttdirectory_robot/0.9 (super-robot@super.navi.ocn.ne.jp)
From: super-robot@super.navi.ocn.ne.jp
User-Agent: griffon/1.0 (griffon@super.navi.ocn.ne.jp) (2000/02/04-2001/03/18)
From: griffon@super.navi.ocn.ne.jp
2001/04/02 で ロボット検索は終了 てことで、今後は griffon は使われなくなるのでしょうか。 当サイトでは 2001/03/18 が最後のアクセスでした。 (LookSmartは ディレクトリサービスなので代替にはならない) (2001/04/03)
User-Agent: Gulliver/1.0「マイク・マリガンの蒸気ショベル」は、 米国ではそれなりに有名な絵本です。 (どっかで聞いたことのある名前だと思ったら…)
User-Agent: Gulliver/1.1
User-Agent: Gulliver/1.2 &nsbp; (1997/07/05-2000/02/22)
User-Agent: Gulliver/1.3 (1999/08/15-)
Accept: text/*
Accept-Encoding: (空欄)
From: crawler@northernlight.com
User-Agent: Hatch Meta Checker
ClientHost: analysis.he.net [216.218.130.79]
User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0) (2001/02/08-)
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*
Accept-Language: en-us
No Accept-Encoding
Clienthost: truffle.hi-fi-net.com (== start.hi-fi-net.com)
No User-Agent 1999/12/06-
User-Agent: Mozilla/3.0 (Solaris版デフォルトJRE)「タグを表示」できたのは HotJava/1 と Panorama くらいしか 見たことがありません。(HTMLエディタではあるかもしれない) 埋まっている<A name>を掘り出すのにけっこう便利だったのですが
User-Agent: Mozilla/3.0 (x86 [ja] Windows NT 4.0; Sun) (Win32版 JRE1.1.7)
User-Agent: Mozilla/3.0 (sparc [ja] Solaris 2.6; Sun) (sparc版 JRE1.1.7)
Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2 (Javaのデフォルト)
User-Agent: httpdown 3.0 using http.cc
User-Agent: httpdown/3.2 http.cc/3.2
User-Agent: Mozilla/3.0 (http engine)
User-Agent: HttpGet/0.5g (PC-9801; PC-88VA; TEEN)"httpget" という名前のプログラムは むやみと多く、 その中でUA をつけるようなものは 少ない方 です。
(Referer: )
(Cookie: )
Connection: close
User-Agent: Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*
Accept-Language: en, *
Accept-Charset: iso-8859-1, *
Accept-Encoding: gzip, deflate, compress, identity
ClientHost: 209.114.176.250
User-Agent: Hubater (http://www.hubat.com) (2000/04/15-)
Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
ClientHost: www.hutech.ne.jp [211.10.128.151] (no PTR)
User-Agent: Hutech2.01[original UA] (2001/01?-)
Accept: text/*
サービス名ではなく社名としては
ヒューテック
が正しい。
Forwarded: by http://www.corp.urlabs.com:8002/ (I-Proxy-1.3.4 + I-Guard-2.0.4 + I-Visor-2.1.2 + History-1.11 + Ding-1.7) for wlm-as2s05.erols.com
User-Agent: ia_archiver/1.3設立者のBrewster Kahle氏は WAIS の発明者です。
User-Agent: ia_archiver/1.6
User-Agent: ia_archiver (1998/05/28-)
From: crawler@alexa.com
2003/01/07-
ClientHost: 209.237.233.192
User-Agent: IAArchiver-1.0
From: info-loc@archive.org
User-Agent: Mozilla/2.0 (compatible,iBOX)
Mozilla/3.01 (X11; iBOX; powerpc)
User-Agent: IBrowse/1.02demo; AmigaOS/3.1; HTLib/1.02BrowserCapsの 投票には意外にAmiga系のブラウザが多く、実は結構有名な ブラウザなのかもしれない。
User-Agent: Foliage iBrowser/1.0 (WinCE)
Referer: www.foilage.com (固定)
User-Agent: Mozilla/2.0 Foliage-iBrowser/1.1 (WinCE) (1.10b7以降)
User-Agent: iCab/Pre1.2 (Macintosh; I; PPC)
User-Agent: iCab/Pre2.2 (Macintosh; I; PPC)
User-Agent: iCab(J)/Pre1.6 (Macintosh; I; PPC) (日本語版修飾)
User-Agent: iCab J/Pre1.8 (Macintosh; I; PPC) (同)
User-Agent: Mozilla/3.0 (compatible; iCab Pre1.6; Macintosh; I; PPC) (Mozilla詐称モード)
User-Agent: Mozilla/4.5 (compatible; iCab Pre2.2; Macintosh; I; PPC) (同)
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, image/xbm, image/png, */*
Accept-Language: {en,ja}
iCab は書かんでもええじゃろと思ってましたが
ダメらしーです。
私は 1.2 previewのころから試用してましたが、
軽いと言われる割にやたら重いので常用はしてません。
(普段は CyberDog/2.0 と MSIE/3.01)
Clienthost: www.hiroba.japan.ibm.co.jp
Accept: */*
User-Agent: Mozilla/3.0 (HIROBA)
No Host:
User-Agent: IE_Fev
User-Agent: IE_Fev1X
User-Agent: IE_Fav161a(Free)
User-Agent: iefck/0.9.1(Win95/98/NT4.0)
Accept-Language: ja
User-Agent: Mozilla/3.01C-PBWF (Win95; I)複数の機械で並列に探索させているので、アクセス間隔は不定ですが、 10〜30秒くらいのようです。 大義名分があるためか、RXPには 対応していません。 昔は爆撃型 だったよーです。 →MarkWatch
User-Agent: Mozilla/3.01C-PBWF
User-Agent: Mozilla/3.01C-PBWF-ip3000.com-crawler
User-Agent: user##.davesengine.com (2000/03/14-)
User-Agent: user##.ip3000.com (user##以降はclientの逆索きがつく模様)
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*
User-Agent: indexpert/1.8 (2000/03/24-)FreshEyeの名前は、以前は各自がインストールする 更新チェッカだったんですが、いつから 検索サービスに すりかわったんでしょ →FreshEye
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */* (Mozilla/3型)
From: info@feyeye.com
Last-Modified: time of previous access
Pragma: no-cache
Via: BGW/1.0
Accept: text/html, */*
User-Agent: Mozilla/3.0 (compatible; Indy Library) (no version)
電子メールでは X-Library: Indy 8.0.xx の形になる。
User-Agent: Mozilla/4.0 (compatible; Inetdown 1.43; Win32)
User-Agent: Mozilla/4.0 (compatible; Inetdown 2.5; Win32)
User-Agent: Mozilla/4.0 (compatible; Inetdown 2.6 Debug; Win32)
/robots.txt
を読みます。
/~user/robots.txt
も読みます。
/~user/robot.txt
も読みます。
User-Agent: InfoNavirobot/2.1
From: navi-staff@web.ad.jp
User-Agent: InfoNaviRobot 1997.10.07~
From: navi-staff@web.ad.jp
User-Agent: InfoNaviRobot(F104) 1999.05.11~
From: navi-staff@web.ad.jp
User-Agent: Informant
Referer: http://informant.dartmouth.edu
User-Agent: The Informant (1998/03~)
From: info_adm@cosmo.dartmouth.edu
User-Agent: InfoSeek Sidewinder/0.9
Accept: text/html, text/plain
From: spider@infoseek.co.jp (spider2.infoseek.co.jp∈PSInet 2000/04/11-)
From: spider@infoseek.co.jp (spider.infoseek.co.jp∈DION 2000/09/18-)
From: webbuild@infoseek.com (*.infoseek.com, 2000/08/02-)
User-Agent: InterGet(by rayesper:Japan)/1.00
User-Agent: InterGet/1.20
User-Agent: InterGet/1.39
User-Agent: InternetCabin/0.9
User-Agent: InternetCabin/0.9(Analyze)
Accept: */*
User-Agent: InternetLinkAgent/2.1
[Pragma: no-cache]
[Cache-Control: no-cache]
User-Agent: Mozilla/1.22 (Compatible; Notes v4.0 Windows-NT Server; InterNotes Navigator/4.0)
User-Agent: Lotus-Notes/4.5 ( Windows-NT )
User-Agent: iron29/1.0
User-Agent: iSpi/2.0Capsの違うISpiは全然別物。
AOL 3.0;
" が入る。
User-Agent: IWENG/1.2.003AOLブラウザ一覧 (An AOL Guide for Webmasters)
User-Agent: Mozilla/2.0 (Compatible; AOL-IWENG 3.0; Win16)
User-Agent: iYappo/0.9 (http://i.yappo.ne.jp/robot/)Shift-JISという制限が嫌いな人もいるでしょうが、 セットトップ系以上に制限のきついiモードで「見られる」ページなら どんなブラウザでも大丈夫でしょう。
Referer: http://i.yappo.ne.jp/robot/
From: ko@yappo.ne.jp
User-Agent: Jerky/5.04 Java/1.2.2 (http://odin.ingrid.org/) (1999/12/09-2000/04/06)
User-Agent: Jabot/6.0 (http://odin.ingrid.org/) (2000/04/06-04/20)
Accept: text/html
Accept: : text/plain, text/html (/robots.txt取得時)
From: harada@ingrid.org
ClientHost: 82.85.149.210.economy.2iij.net[210.149.85.82] == www.jca.apc.org
User-Agent: JCA-NET Search Retriever/1.0 (http://www.jca.apc.org/search.html; 19980827)
Referer: http://www.jca.apc.org/search.html
From: search@jca.apc.org
Request-Line: GET http://hostname/path HTTP/1.0なぜに Content-Type ?
Content-Type: text/plain; charset="us-ascii"
User-Agent: JChecker2
User-Agent: Mozilla/3.0 (compatible; JDL SQUI 2.20; JDL OS (Windows NT based))
Mozilla/3.0 (compatible; JDL SQUI 0.20b3; JDL OS (Windows NT based))
User-Agent: Jerky/4.00 Java/1.2 (SunOS/5.6; x86; http://odin.ingrid.org/robot.html)現行のJerky/5以降(Jabot)は またちょっと違います。→Jabot (2000/08/21)
User-Agent: Jerky/4.20 Java/1.2.2 (http://odin.ingrid.org/odin.html)
From: harada@ingrid.org
Referer: real referrer
Accept: text/html, text/plain
User-Agent: j-mode (clienthost(clientIP))
Referer: original Referer
X-Forwarded-For: clienthost
other headers deleted
User-Agent: site-def-string JTOPICrobo/1.0
ClientHost: 213.219.19.148
User-Agent: Autonomy Spider (2000/06/03-10)
User-Agent: Microsoft Internet Explorer (2000/06/17-19)
User-Agent: Katriona (2000/06/22-07/08)
User-Agent: Katriona (compatible; MSIE 4.0; WINDOWS NT) (2000/07/12-19)
User-Agent: Katriona (compatible; MSIE 4.01; Windows 95) (2000/07/22-08/05)
User-Agent: Mozilla/5.0 (compatible; MSIE 5.0; Windows 95) (2000/08/12-2000/08/24)
Accept: text/*
2000年の年末にかけて本格稼働を始めたようで、再帰っぽい動作に なっています。UAはより検出困難な物に変更。 途中でプロバイダを変えたらしく、2001/07 になるまで 検出をしくじってました。 (2001/07/04) →bumblebee
ClientHost: [212.135.130.13[012345]]
User-Agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 95) (2000/10/21-2001/06/18)
Accept: text/*
Accept-Charset: ISO-8859-1 (2001/04/19-)
From: K.Futaku/2.04 [G.ib]
No User-Agent
新版の2001
では UA になるよう修正されています。
依然ふつーのサーバーで観測されることはないでしょう。
試用してみると、
インストール・実行時に作者のプログラムの宣伝が
大量に入るようになりました。
対応環境には明示されてませんが、インストーラーが問答無用で
「MS UIゴシック」を使用するので、
NTではSP4以降対応ということになります。
いざ実行すると終了できません。(タスクマネージャで撲殺するしかない)
Accept: www/source, text/html, video/mpeg, image/jpeg, image/x-tiff
Accept: image/x-rgb, image/x-xbm, image/gif, */*, application/postscript
User-Agent: K.Futaku/2001 (available at www.t-nexus.com)
Content-type: application/x-www-form-urlencoded
不要なContent-Type: や1行目のAccept: は、たぶん
Delphiのデフォルトと思われます
(マイナーバージョンアップの時はUAはどうすんだろ…)
(2001/04/04)
User-Agent: KIT_Fireball/1.1 libwww/5.0a
User-Agent: KIT_Fireball/2.0
User-Agent: KIT-Fireball/2.0 (1998.02.11~)
User-Agent: Kokopelli/2.0
From: wrigley@cre.canon.co.uk
User-Agent: KO_Yappo_Robot/1.0.4(http://yappo.com/info/robot.html)
From: KO@highway.or.jp
http://www.boobu.com/cgi-bin/kpflgchk.exe
宛に
送信するというオマケつき。(要するにトロイの木馬)
ライセンス違反検出が目的なんでしょうけど、
外国サイトに良くある Privacy Policy は ないようです。
Request-Line : POST 掲示板URL HTTP/1.1同様のツールに BBS Write てのがありますが、こちらは体験版はないので試していません。 最新版(V1.33a)の UA は誰かに 脅迫? されて "BBS Write" になっているみたいですが… _
Referer: 設定可能
User-Agent: Mozilla/4.0 (compatible; MSIE 4.0; MSN 2.5; Windows 95)
User-Agent: Mozilla/4.01 [ja] (Win95; I)
User-Agent: Mozilla/4.03 [ja] (Win95; I)
User-Agent: Mozilla/4.04 [ja] (Win95; I ;Nav)
User-Agent: Mozilla/4.5 [ja] (Win95; I)
User-Agent: Mozilla/2.0 (compatible; MSIE 3.02; Update a; Windows 95)
User-Agent: Mozilla/4.0 (compatible; MSIE 4.01; Windows 98)
User-Agent: Mozilla/4.0 (compatible; MSIE 4.01; Windows 95)
User-Agent: LEIA/2.90 (2000/03/23-)
User-Agent: SiteTech-Rover
User-Agent: LinkAlarm/1.5
From: linkalarm@linkalarm.com
User-Agent: LinkAlarm/2.0
User-Agent: Linkbot/2.0
User-Agent: Linkbot 3.0 デフォルト; "/"がない〜
User-Agent: Mozilla/2.0 ニセモノ、以下同様
User-Agent: Mozilla/2.x (OS/2)
User-Agent: MSIE 4.01 ( Windows 97)
HEAD absurl HTTP/1.0
User-agent: LinkChecker/1.3.10
HEAD abspath HTTP/1.1
Connection: Keep-Alive, TE
TE: trailers, deflate, gzip, compress
User-Agent: LinkChecker/0.9.8 RPT-HTTPClient/0.3-2
Accept-Encoding: deflate, gzip, x-gzip, compress, x-compress
(Raw Java HTTP headers)
GET /robots.txt HTTP/1.0
User-Agent: Java1.1.3
Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
Connection: keep-alive
Accept: */*
User-Agent: LinkChecker 1.03
(headers of your default MSIE engine)
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*
Accept-Language: ja
Accept-Encoding: gzip, deflate
User-Agent: Mozilla/4.0 (compatible; MSIE 4.01; Windows 95)
Connection: Keep-Alive
(Raw Java HTTP headers)
GET absurl HTTP/1.1
User-Agent: Java1.3.1_01
Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
Connection: keep-alive
GET absurl HTTP/1.0
Accept: */*
Connection: Keep -Alive
User-Agent: Mozilla/4.0 (compatible; www.linkguard.com Online 1.0; Windows NT)
User-Agent: LinkLint/0.92
User-Agent: LinkLint-checkonly/2.1 (-net)
User-Agent: LinkLint-spider/2.1 (-http)
Accept: text/html, */*
Referer: http://www.outertech.com
User-Agent: Mozilla/3.0 (compatible; Linkman)
User-Agent: Mozilla/3.01 (Compatible; Links2Go Similarity Engine)各ページには 他のロボット用のワナ が仕掛けられています。 (普通のブラウザでも頑張ればたどれないこともない)
Referer: http://www2.links2go.com/relevant topic hierarchy
User-Agent: LinkSonar/1.35
User-Agent: Link.Alert
User-Agent: Lite 1.07 (Trial)
User-Agent: Lite 1.08a (Regist)
Referer: Request URL
User-Agent: LMCOSpider/OTWR:002p116 libwww/2.17www.lmtas.lmco.com は 今は www.lmtas.com のようです。 が、やっぱり上記URLはアクセスできない。…
Referer: http://www.lmtas.lmco.com:8001/ot/LMCOSpider.html
User-Agent: Lockon/0.324(Test version sasazuka & ohmori)
From: sasazuka@rsch.tuis.ac.jp & ohmori@rsch.tuis.ac.jp
User-Agent: Lockon/0.047(Test version sasazuka & ohmori)WebSize Edition
From: search@rsch.tuis.ac.jp
User-Agent: Lokace v2b9(dk@astech.fr)
ClientHost: pf-231-069.tokyoweb.or.jp [210.140.231.69] (no A)
User-Agent: Loki/0.11 libwww-perl/5.18
User-Agent: Loki/0.51(http://www.a-brain.com/Loki.htm) libwww-perl/5.35
User-Agent: Loki/0.5(http://www.a-brain.com/Loki.htm) libwww-perl/5.35 (-2000/03/06)
User-Agent: Loki/2.0 (http://www.a-brain.com/Loki.htm) libwww-perl/5.35 (2000/08/04-2000/09/26)
User-Agent: Loki/2.0T1 (http://www.a-brain.com/Loki.htm) libwww-perl/5.35 (2000/12/12-2001/01/26)
User-Agent: Loki/2.01 (http://www.a-brain.com/Loki.htm) libwww-perl/5.35 (2001/02/01-2001/03/19)
User-Agent: Fenrir/0.5 Loki/0.5(http://www.a-brain.com/Loki.htm) libwww-perl/5.47 (2001/04/23-)
Accept: text/*
Accept-Language: ja,en
From: loki@allied-c.co.jp
Referer: real referrer
調査時期によってほんのちょっとだけ UA が変わってますが、 2001/04 のはいきなり変わっています。 「新型」 (というか子供?)っても実は先祖帰り? 北欧神話はネタが多いので今後どうなるでしょーね (ODINと かぶらないように注意!) (2001/05/09)
~
と %7E
を
同一視しないようで、 Disallow: /~hoge/ と書いておいても
/%7Ehoge/ は持っていかれてしまいます。
User-Agent: Lycos_Spider_(T-Rex)/3.0 (~1998/03/01)
From: spider@lycos.com
User-Agent: Lycos_Spider_(T-Rex) (1998/04/11-)
From: spider@lycos.com
~
と %7E
を同一視することは
オリジナルのRXP
では良くわからんのですが、
Internet Draft候補
の方には明示的に書かれています。
オリジナルが参考として挙げている libwww-perl でも
この同一視を やってないのが原因の一つか。
User-Agent: RobotUA
From: sato@jaist.ac.jp
ClientHost: [210.239.243.130] (2001/04/17-06/12)
User-Agent: User-Agent: Mozilla/4.75 [ja] (Windows NT 5.0; U) (2001/04/17-06/06)
ClientHost: xdslxxxxxx.xxxxxx.metallic.ne.jp [61.20x.xx.xx] (2001/07/04-08/01)
ClientHost: pppxxxx.tokyo-ip.dti.ne.jp [210.159.xxx.xxx] (2001/07/21-2002/01/09)
ClientHost: www.markagent.com [210.239.243.130] (2001/10/24-11/12)
ClientHost: [61.194.6.118] (*.markagent.com) (2002/01/10-)
User-Agent: User-Agent: Mozilla/4.07 [ja_JP.EUC] (X11; I; FreeBSD 2.2.8-RELEASE i386; Nav) (2001/06/09-)
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, image/png, */*
Accept-Charset: iso-8859-1,*,utf-8
Accept-Encoding: gzip
Accept-Language: en, ja
サービス開始は 2001/07 つことで、試験運用は3ヶ月くらいだった つーことですな。
Clienthost: *.markwatch.com専門会社に依頼するより 学生を雇った方が安い とゆー話もあります。
From: mwuser@
From: bhaskar@ (1999/09-1999/11; still rarely seen)
User-Agent: Marvin/Project baujard@dim.hcuge.ch
ClientHost: search.wport.com
User-Agent: Spider/MaxBot.com admin@maxbot.com
User-Agent: MedWebPlus Bot
From: info@y-dna.com
User-Agent: Mozilla/2.0 (MemoWeb 1.072)
User-Agent; Mozilla/3.0 (compatible; MemoWeb 98 ; Windows 95) ("Memoweb 98")
User-Agent: Mozilla/3.0 (Win95; I) ("Netscape 3.0")
User-Agent: Mozilla/2.0 (compatible; MSIE 3.0; Windows 95) ("Internet Explorer 3.0")
User-Agent: Mozilla/2.0 (compatible; MSIE 4.0; Windows 95) ("Internet Explorer 4.0")
User-Agent: Mercator-1.0 (1998/09/25~)
From: http://www.research.digital.com/SRC/mercator/
No Accept:
From: しかついてないんで、From: を採ってないと気づかないかも。
メールアドレスではなくURLが入っているのは初見参。
(1999/05/29)
2000/07以降は、なんと逆索きにメールアドレスを突っ込んであります。 何があったんでしょうか。旧来の物も頻度は低くなってますが稼働中。 (同一製品を別の目的で動かしている可能性もあり) (2000/08/21)
2000/10 以降のバージョンは、見た目は変わってませんが 積極的にインライン画像も拾っていきます。拾う順番は割と素直。 (2000/12/06)
ClientHost: crawler0-complaints-to-admin.webresearch.pa-x.dec.com[204.123.28.10] (2000/07/29-)
From: admin@webresearch.pa-x.dec.com
User-Agent: Mercator-1.0
User-Agent: Meta/1.0 (http://www.ulis.ac.jp/~f275/meta/)
Referer: http://www.ulis.ac.jp/~f275/meta/
From: f275@ulis.ac.jp
Via: MilliCentWalletProxy (1.00.0336)
Clienthost: g###.goo.ne.jpニュースリリースによると max3日、min12時間 みたいなので、狙われたサイトの方は たまったもんでないと思います。(回線が細い所とか…)
User-Agent: moget/1.0 (moget@goo.ne.jp) (2000/03/15 - 2000/08/31
From: moget@goo.ne.jp
Connection: close
User-Agent: NCSA_Mosaic/2.6L10N+ (X11;SunOS 5.5.1 sun4u) libwww/2.12 modified今では意外に知られてないかもしれませんが、NCSA Mosaic/2.0 for Win には "AutoSurf" という簡単な再帰取得機能がついてます。 発表が 1995/10 なので、それ以後のプリフェッチャの台頭と 無関係ではないでしょう…
User-Agent: COPERAWEB/2.0002 Win32 /6
User-Agent: DACOM_Mosaic/2.10 Win32 DACOM/3
User-Agent: DCL SuperMosaic/1.0.2.7J_Win32
User-Agent: PC-VAN Mosaic/1.1002 Win32 NEC/6
User-Agent: SPRY_Mosaic/v8.32 (Windows 16-bit) SPRY_package/v4.00
User-Agent: Mothra/126-Paladium"@" が "(at)" になってますが (Googlebotがハシリか) SPAM Harvester対策ですかね
From: hseo@cs.rutgers.edu
User-Agent: ru-robot/1.0
From: hseo(at)cs.rutgers.edu
User-Agent: Mozilla/1.1N (Macintosh; I; 68K)統計ではUser-Agentの中に"MSIE"があればMSIEと判断してます。 その他のニセモノも手でつまみ出してカウントしてるので、 統計スクリプトの手入れは欠かせません。(←手間かかるんだこれが…)
User-Agent: Mozilla/2.01I [ja] (X11; I; SunOS 5.5.1 sun4u)
User-Agent: Mozilla/4.6 [en] (X11; I; SunOS 5.5 sun4u; Nav)
ClientHost: secret.mken.co.jp [218.45.232.200]
User-Agent: Mozzilla/3.0 (2002/04/05-)
No Other Headers(besides Host:)
爆装しているので、立入禁止札を立てて落とし穴を掘っておけば、 ダミーページ とかでなくても過負荷の威力業務妨害で訴えることは可能なような (以前の netfilter がそうだったからねー)
Mime Typeの登録料を 教えろ と出してるあたりになんかそのーアレを感じる(何だよ)
User-Agent: Mozilla/1.22(compatible; MSIA 2.0z)
User-Agent: Mozilla/1.22(compatible; MSIA 2.03j)
User-Agent: Microsoft Internet Explorer/4.40.300beta (Windows 95)
User-Agent: Mozilla/1.22 (compatible; MSIE 1.5; Windows NT)
User-Agent: Mozilla/4.0 (compatible; MSIE 5.0; Windows 98)
User-Agent: Mozilla/4.0 (compatible; MSIE 4.0b2; MSIECrawler; Windows NT)一応 RXP 対応。ちゃんとIf-Modified-Sinceも使っているようです。 UA-OS: なんかは更新チェック時はつかないようなので、 これでvariantを切替えているサーバー(いねーよそんな奴)は 気をつけなければならないかも。 (1999/05/28)
Via: red-03-prxy (MSProxy/1.0) for 157.55.186.106
User-Agent: MSProxy/1.0 (監視時?)
ClientHost: flax*.uwaterloo.ca [129.97.186.*], crawler.dlib.vt.edu [128.173.49.57] (20010504-)
User-Agent: MultiText/0.1 (2000/04/27-)
User-Agent: Mozilla/3.0 (compatible; MuscatFerret/1.7; http://www.euroferret.com/)その Accept: は形式ちがいまっせ
Referer: http://www.euroferret.com/
From: tom@muscat.com
Accept: text/html;text/plainUser-Agent: Mozilla/3.0 (compatible; MuscatFerret/1.7; http://www.webtop.com/) (1999/10/31-2000/01/14,2000/03/11-)
Referer: http://www.webtop.com/
From: tom_mortimer@dialog.com
From: ferret@dialog.com (1999/11/10-)
Accept: text/html;text/plain
Accept: text/html, text/plain (2000/03/11-)
User-Agent: Mozilla/4.51 [en] (X11; I; Linux 2.2.5-15 i686) (2000/02/09-2000/03/10)
From: ferret@dialog.com
Referer: http://www.webtop.com/
Accept: text/html, text/plain
Accept-Language: en
Accept-Encoding: gzip, compress
Accept-Charset: iso-8859-1,*,utf-8
User-Agent: Mozilla/4.0 (compatible; MSIE 4.01; Windows NT)
Clienthost: apncnnn.216.216.211.in-addr.arpa (211.216.216.mmm, no A record)
Cookie: (Always pass blank Cookie:)
User-Agent: Mozilla/4.0 (compatible; nabot 1.0; rotty@naver.com) (2001/05/13-2001/05/15)
Via: 1.0 NetCache111 (NetCache NetApp/5.0.1R1)
X-Forwarded-For: 211.218.150.47 (no PTR, naver22.naver.com)
(2002/03/07)
管理主体が複数あるのか用途が違うのか、
2001/07 あたりから 詐称、nabot, NABOT が入り乱れています。
逆索きが単なる "apnc[0-9]+" になっていることがあるので、
IPアドレスを残さない通常の Common Log Format だと
なんだかわけわかんなくなることうけあい。
%7E と ~ を同一視しないらしく、NABOT は
RXP立ち入り禁止区域にある蟻地獄にしっかりはまっていました。
爆撃を行うのは NABOT ですが、
naverの登録は
nabot_1.0 で行われているようです。
(NABOT とは検索空間が違う…が、
LANG≒koなページをnabotが拾う?)
ClientHost: [211.218.15[01].nnn] (no PTR, navernnn.naver.com)
User-Agent: NABOT/5.0 (2001/11/03-2002/06/07)
User-Agent: nabot_1.0 (2001/09/27-)
ClientHost: [211.216.216.95] (PTR=="apnc10")
User-Agent: Mozilla/4.0 (compatible; MSIE 4.01; Windows 98)
アドレスを見ていると kobot は naver用ではなく一般用かも。
(2002/07/02) NABOT/5.0 は libhttp化。 →naver_robot
kSIZE_CHK="0"
に書き換えます。
HEAD absuri/abspath HTTP/1.0Accept: が なかなかに独自です。www/source てのはMosaicが 内部で使っているものだったような気が。 Content-Typeは将来POST対応するための準備?
Accept: www/source, text/html, video/mpeg, image/jpeg, image/x-tiff
Accept: image/x-rgb, image/x-xbm, image/gif, */*, application/postscript
User-Agent: Nagara/3.4
Content-type: application/x-www-form-urlencoded
Clienthost: crawler1.crawler918.com [12.148.209.196] (/26 owned by nameprotect.com) (2002/03/30-)
User-Agent: Mozilla/4.7 (2002/10/04-)
Connection: Keep-Alive, TE
TE: trailers, deflate, gzip, compress
Accept-Encoding: deflate, gzip, x-gzip, compress, x-compress
Clienthost: apncnnn.216.216.211.in-addr.arpa (211.216.216.mmm, no A record)
User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; DigExt) (2000/12/12-2001/07/25)
Cookie: (Always pass blank Cookie:)
Via: 1.1 Netcachennn (NetCache 4.1R6)
X-Forwarded-For: 211.218.150.47 (naver22.naver.com, no PTR 2001)
No Accept:, Accept-Encoding:
2001/01 上旬の非常に短期間、UA="kobot/5.2.8 libwww/5.2.8" でのアクセスを観測。libwwwは改造しないとRXPに対応しないので、 現在もlibwwwをそのまま使っている可能性が (…いや、Accept:が ないから違うか) naverでは検索をかけても 韓国語ページしか出てこないので、 おそらく korean robot なんかの略でしょう。
なんで日本のページを爆撃するのか謎でしたが、 単に日本法人もある というオチだったりして。 ここに入っているデータは上の UA,X-F-F で持っていっていることを確認。
普通の拡張ログには Referer: と User-Agent: しか残らないので、 確実に判別することはできません。他のヘッダを含めて判定する 必要があります。 統計では "[naver robot]" としてありますが、誤判定している 可能性もあります。割合からすれば普通のブラウザのアクセスは 極小なので、影響は小さい?
(2002/07/02) naver.co.jp から、画像だけを絨毯爆撃していくものが 一瞬だけ "Naver PageStat (Are you alive?)"、 完全詐称 MSIE 5.5, その後は "libhttp 1.0" になっています。 画像検索用の更新検出専門か?
Clienthost: [202.234.172.3] (naver1.naver.co.jp, no PTR)
Clienthost: [202.234.172.15] (naver105.naver.co.jp, no PTR) (2002/04/10-05/02)
Clienthost: [202.234.172.121] (hiho1.naver.co.jp, no PTR) (2002/05/09)
User-Agent: Naver PageStat (Are you alive?) (2002/03/09-03/10)
User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; DigExt) (2002/03/19)
User-Agent: libhttp 1.0 (2002/04/10-)
韓国 naver.comの方はやや遅れて (2002/06/28-) libhttp化。 HEAD か GET での絨毯爆撃は相変わらず。 アルファベット順に、画像も徹底爆撃していきます。…
ClientHost: [211.216.216.32] (PTR="apnc20") (2002/06/28-)
User-Agent: libhttp 1.0 (2002/06/28-)
Via: 1.0 Cache110 (NetCache NetApp/5.2.1R1D5)
X-Forwarded-For: 211.218.151.202 (naver640.naver.com, no PTR)
Wget を使っている時期もあってわけわからん。
Clienthost: 211.216.216.*
Clienthost: 211.218.151.80 (naver530.naver.com, no PTR)
User-Agent: Mozilla/4.0 (compatible; MSIE 4.01; Windows 98)
Connection: close
Via: 1.1 Cache110 (NetCache NetApp/5.2.1R1D5)
X-Forwarded-For: 211.218.151.80 (naver530.naver.com, no PTR)
裏には普通はブラウザがいるのでpage view数には影響
しないとは思いますが…
User-Agent: Navigate_with_an_Accent/1.0e Win32 Accent/81_1044447665
User-Agent: NaviPress/2.0 AOLpress/2.0
Referer: AOLpress: Open Request (Location: に直接入力)
Referer: AOLpress: Open Dialogue (Open...メニューから)
Request-Line : BROWSE /~kabe/misc/ HTTP/1.0
HTMLのレンダリングスタイルは、なんとなく Panoramaを ほうふつとさせます。
User-Agent: NearSite/16.2 (<A HREF=http://www.evolve.co.uk/nearsite/><IMG WIDTH=74 HEIGHT=15 SRC=http://www.evolve.co.uk/nslogo.gif></A>)
User-Agent: Mozilla/1.22 (compatible; MSIE 1.5; Windows NT) via <A HREF=http://www.evolve.co.uk/nearsite/><IMG WIDTH=74 HEIGHT=15 SRC=http://www.evolve.co.uk/nslogo.gif></A>
Accept: */*
Range: bytes=0-
Referer: initial blank, sane following
Accept-Language: ja
Accept-Encoding: gzip, deflate
User-Agent: Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)
User-Agent: Nekosogi Ver3 (MSIE5非詐称時)
Connection: close
謝辞に「Micro Soft社」とかありますけど、どこの会社でしょうね
User-Agent: NERV-JoSNITS/3.0/for R. Ayanami (Macintosh on Melchior; I; MAGI-STSTEM)
User-Agent: NERV-JoSNITS/2.02 (MAGISYSTEM; I; Balthasar)
GET /cgi-bin/nessus_is_probing_this_host_nnnnnnnnnn HTTP/1.1
Connection: Close
Pragma: no-cache
User-Agent: Mozilla/4.75 [en] (X11, U; Nessus)
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, image/png, */*
Accept-Language: en
Accept-Charset: iso-8859-1,*,utf-8
User-Agent: Mozilla/3.01 (compatible; NetBox/1.5 R80a; NEOS 5.19)
User-Agent: browser via NetCache version 3.1 Beta 1-SolarisNetApp の 技術報告集には 優れた文献も多く、ワンランク上を目指す人にはおすすめです。 (1999/06/07)
User-Agent: browser via NetCache version 3.2X3-Solaris
User-Agent: browser via NetCache version NetApp Release 3.2.1R1D6: Fri Sep 25 17:04:59 PDT 1998
Via: NetCache@mel.proxy.ozemail.com.au: Version 3.3R2D7
Via: NetCache@wwwcache.metronet.ca: Version NetApp Release 3.4X15: Tue Jun 1 21:27:42 PDT 1999-Solaris
User-Agent: Mozilla/4.03 [ja] (Win95; I)
User-Agent: Mozilla/4.04 [en] (Win95; I; Netcaster)
User-Agent: Mozilla/4.0 (compatible; MSIE 4.01; Windows NT; NetCaptor 5.02)
Request-Line: HEAD / HTTP/1.12001/02/13 から Mozilla 化したようです。 (2001/02/14)
Referer: http://www.netcraft.com/
Clienthost: *.netcraft.com
Request-Line: HEAD / HTTP/1.1
Referer: http://www.netcraft.com/survey/
User-Agent: Mozilla/4.0 (compatible; Netcraft Web Server Survey)
同様のことを行なっている
JPドメインのWWWサーバソフト利用実態
では "WebScan/version" なので一発でわかります
。
Clienthost: kk-gw.netfilter.ne.jp [202.214.67.220]実際に 大被害 にあったサイトもあるようです。 時期的には当方で観測した頃と同じですね。 実際にデジタルアーツとのやりとりが記録された貴重な資料です。
Accept: text/html
No User-Agent
その後、一時期は "Internet-Html-Searcher" でのアクセスが 観測されていました。間隔はずっと緩慢です。 しかし最近 (2000/02) はデジタルアーツ所有のアドレス からのアクセスも含めて観測していません。 (ここは逆索きが *.245.32.202.ts.2iij.net などだったりするので すぐにはわからない) (2001/02/17)
User-Agent: InterNet-Html-Searcher/1.00 (2000/09/08-2000/09/27)
User-Agent: Internet-Html-Searcher/1.15 (012) (2000/12/14-2001/01/16)
Accept: */*
Connection: close
2001/07/23 から、デジタルアーツ所有の 上記 202.32.245.144/29ブロックから、 にせもじらが観測されるようになりました。 緩慢ですが HEAD→GETな特性は変わっていません。 デジタルアーツは他にもいくつかnetblockを所有しているので注意。 (2001/08/08)
ClientHost: 146.245.32.202.ts.2iij.net [202.32.245.146]
User-Agent: Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0) (2001/07/23-)
Accept: */*
Connection: Close
2001/10/24 から、 にせ Referer: をつけるものに切り替えたようです。 たぶん掲示板対策でしょう。 HEAD→GET動作ではなくなり単なるGETになっています。 (2001/10/25)
ClientHost: 61.115.195.128/26
User-Agent: Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)
Referer: ==full Request-URI (2001/10/24-)
Accept: text/html
以前は、あっても 数アクセス/日 だったものが、 2002/01 下旬から 数十アクセス/日 に 激増しています。アドレスは 61.115.195.180 で固定の模様。 ヘッダ形式などの変更はありません。 RXP での立ち入り禁止区域にもちゃんと入り込んできます。 (2002/02/06)
User-Agent: Mozilla/3.0N AVE-Front/2.0 (BrowserInfo Screen=400x240x32K; InputMethod=REMOCON; Page=1.5M; Product=ALPINE/InterNavi1.0; HTML-Level=3.2; Language=ja.SJIS; Category=CarNavi; CPU=SH2; Storage=NO;) UA-pixels:400x240 UA-color:color15 UA-OS:NetFront UA-CPU:SH2なんかアクセスパターンがわざとらしいんですけどー (テスト中ですかね)
User-Agent: NetJet/1.0
User-Agent: NetManage Chameleon WebSurfer/Ver4.5
User-Agent: NetManage Chameleon WebSurfer/4.5.2
User-Agent: NetManage Chameleon WebSurfer/4.6
User-Agent: Mozilla/2.0b5 (Win95; I) 5.0体験版
User-Agent: Mozilla/2.0 (Win95; I) 5.01.2体験版
User-Agent: Mozilla/2.0 (compatible; WebSurfer/5.1; Win32)
User-Agent: NetMechanic
*.netmind.com
からしか来ません。
更新検出サーバー自体
(Enterprise Minder)は
販売もされているので、他の場所での動作が観測される場合もあり得ます。
→URL-Minder (1999/08/12)
User-Agent: Netmind-Enterprise-Minder/1.0.2 (1997/11/16-)サーバーを売るのが商売だということになってますが、 実は利用者の統計情報を売ってるかもというのは妄想でしょうか
User-Agent: Netmind-Minder/1.0.4 (1998/01/28-)
User-Agent: Netmind-Minder/2.0 (1998/05/15-)
User-Agent: Mozilla/2.0 (compatible; NetMind-Minder/2.0) (1998/08/22-)
User-Agent: Mozilla/2.0 (compatible; NetMind-Minder/3.0) (1999/02/25-)
User-Agent: NetRecorder/1.0NetRecorder4 はproxyエンジンを分離し、 全面的に MSIE に依存するように書き換えられたようですが、
User-Agent: NetRecorder/2.0
User-Agent: Mozilla/2.0 (compatible; NetRecorder 2.0; Windows NT)
User-Agent: Mozilla/4.0 (compatible; MSIE 4.0 NetRecorder3.0; Windows95/NT)
User-Agent: Mozilla/2.0 (compatible; MSIE 3.02; Update a; Windows 95) (NetRecorder 4;区別不能!)…ということを確認した後アンインストールしたら、 しっかりMSIEのproxy設定をチャラにしてくれました。やってくれるよ…
/robots.txt
の他に
/rdm/incoming?type=status-request
を持っていこうとしますが
(大抵そんなもんは存在しないので 404 が返る)、
苦情メールを出すのはちょっと待った…後者は
RDMサーバーの存在確認
です。From:を設定してから放たれるようなので、
身に覚えのない爆撃を受けているなら苦情を言ってもいいでしょう。
User-Agent: Netscape-Catalog-Robot/1.0
User-Agent: Netscape-Proxy/2.5 (Batch update)
Forwarded: by http://somehost:80 (Netscape-Proxy/2.5)
User-Agent: NetScoop/1.0 libwww/5.0a
Mozilla/4.0 (compatible; MSIE 4.0; Windows 95; NETSGO Browser 1.0)
Mozilla/4.0 (compatible; MSIE 4.01; Windows 95; Netsgo Browser 1.0d)
User-Agent: Mozilla/2.0 (compatible; NEWT ActiveX; Win32)
User-Agent: Nocturne/1.05
User-Agent: Mozilla/2.0 (compatible; Novita LiveLetter 1.0)なんだか 買収されて しまいました。
ClientHost: 62.159.152.32/27, 195.127.173.128/26 (Only Solutions GmbH)
User-Agent: oBot ((compatible;Win32)) (2000/03/21-2001/09/22)
Referer: when Image Checking
Accept: www/source, text/html, video/mpeg, image/jpeg, image/x-tiff, image/x-rgb, image/x-xbm, image/gif, */*, application/postscript
(2002/02/12)
2001/05/22 から MSIE に偽装するようになりました。
検閲系のロボットは結局はそういう方向に落ち着くようで。
→netfilter,
[e-mining],
MarkWatch,
WebClipping
普段は画像だけを更新チェックするような挙動ですが、
数ヵ月間隔で大爆撃して更新をおこなうようです。
統計は "[obot]" で抽出。
通信内容のフィルタを行う専用機 (OrangeBox) も提供しており、画像だけでなく文章の自動分類もやっているようです。 どういう分類が されているか 検索する こともできます。 リンク関係も考慮に入れている感じ。 (ドメイン名しか見てない気がしますが)
User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 4.0; QXW03018) (2001/05/22-2001/09/22)
No Other Headers
ClientHost: gw-cobion.netcomnetz.de [195.127.134.66], [213.252.152.12]
User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 4.0; obot) (2001/12/17-)
QXWxxxxx てのは Lycos Europe の MSIE(とNetscape) に特有の カスタム文字列 の模様。 (今確認したら QXW0336z だった。) ダウンロード時期等で変更されるのかバリエーションは豊富。 個人追跡もある程度できそうですが、 なぜか 問題 にする人が少ない。 ロボットに使われていたのは、開発者が使っていた MSIE の ヘッダのダンプを 深く考えずそのまま突っ込んだためと思われます。 (/2002/02/12)
User-Agent: Offline Explorer/1.1
User-Agent: Web Downloader/3.0
User-Agent: Mozilla/2.0 (compatible; MSIE 3.0A; Windows 95) (IE3.0モード)
User-Agent: OmniWeb/1.0gamma libwww/2.16pre2リリースノートなどの DOCTYPE は、 今となっては歴史を感じさせるものがあります。
User-Agent: OmniWeb/2.0.1 OWF/1.0
User-Agent: Mozilla/2.0 OmniWeb/2.0.1 OWF/1.0
Request-Line: GET /abspath?pdxdata=pdxdata%0d%0aオープンネットコンテンツ コンテンツサービス仕様書
User-Agent: OpenTextSiteCrawler/2.1
Referer: http://index.opentext.net/OTI_Robot.html
NACSIS から、 はっきりと テストコレクション生成用 と 述べているものが出るようになりました。 (2001/12/07) →fly
ClientHost: ws-1-67.sinet.ad.jp[150.100.1.67]
Accept: */*
From: ntcadm-web@nii.ac.jp
Referer: http://150.100.1.67/
User-Agent: OpenTextSiteCrawler/2.9.5.6 (2001/11/25-)
User-Agent: OpenTransportWWW/1.0_a5c7 (Built_in_MacOS8_b3c1; I; PPC)
User-Agent: Mozilla/1.2 (Opera/2.04)
User-Agent: Mozilla/3.0 (compatible; Opera/3.0; Windows 95/NT4) beta 9
User-Agent: Mozilla/3.0 (compatible; Opera/3.0; Windows 95/NT4) 3.2
User-Agent: Mozilla/4.0 (Windows 4.10;US) Opera 3.60b3 [en]
User-Agent: Mozilla/4.72 [en] (Compatible; RISC OS 4.02; Oregano 1.10)
Accept: image/gif,image/jpeg,image/pjpeg,image/png,*/*
他のサーバーログを漁ると、初期は Mozilla/1.05 [en] (Compatible; RISC OS 4.03; Oregano 1.05) みたいな UA を使っていた模様。
User-Agent: Pagedate using http.cc
User-Agent: Pagedate/1.0 http.cc/1.0
InternetDL.cpp:CInternetDL::Get()
)
User-Agent: PageDown105
User-Agent: PageDown/1.70(Win32; http://www01.u-page.so-net.ne.jp/fa2/y_yutaka/)
User-Agent: PetreSpider/OTWR:002p116
Referer: http://www.opentext.com
User-Agent: Mozilla/2.0 (compatible; PlanetWeb/1.011 Golden; SEGA Saturn; TV; 640,480)ドリームキャストに関しては 日本は NetFront、 米国では Planetweb と分割されたようです。
User-Agent: Mozilla/2.0 (compatible; PlanetWeb/4.026 Beta; SEGA Saturn; TV; 640,480)
User-Agent: Mozilla/2.0 (compatible; Planetweb/1.55 Japanese; Nishiden; TV; 640,480)
User-Agent: Mozilla/3.0 (Planetweb/1.219 JS SSL US; Dreamcast US)
User-Agent: Pockey/5.3.0(WIN32GUI)
User-Agent: Pockey/7.1.6(WIN32GUI)
User-Agent: Pockey/7.2.0(Win32, ix86, GUI)
valid Referer:
わざわざ "WIN32GUI" とつくのは、コマンドライン版や
UNIX版もあるためのようです。
(2002/10/17) ver 7.11.0 (UAは なぜか 4.11.0)から "GetHTML" が含まれてます。 今更つけてどうすんだという気も。文句がいっぱい来たんでしょうか ("GetHTMLW" ぢゃないから 何の役にも立ってないという話も)
User-Agent: Pockey-GetHTML/4.11.0 (Win32; GUI; ix86) (ver 7.11.0, 2002/06/30-)
User-Agent: PolyBot 1.0(http://cis.poly.edu/polybot/)
Accept: text/plain, text/html
No Host:
User-Agent: Mozilla/4.5 [en] (Win95; I)(compatible; Powermarks/3.0; Windows 95/NT4) (3.07)
User-Agent: Mozilla/3.0 (compatible; Powermarks/3.0; Windows 95/NT4) (2.04)
(time_t)0
なのは狙っているのか
実装するつもりだがとりあえずなのか
(現状では単に無駄なだけ)
(2000-07-29)
User-Agent: Pribot/1.6
User-Agent: Pribot/1.8
From: pribot@pritto.comClienthost: 216.240.165.121 (emi.pritto.com)
User-Agent: Pribot/3.16
Accept: text/html, text/*, */*
Accept-Language: ja, en;q=0.5, *;q=0.1
From: pribot@pritto.com
If-Modified-Since: Thu, 01 Jan 1970 00:00:00 GMT (固定)
Referer: real referrer
Clienthost: profusion.he.net
Request-line: HEAD absurl HTTP/1.0
No Host:
No User-Agent:
Clienthost: www2.proxymate.com気に入らなければ、とりあえずclientベースで はねつけておけばいいんでわないでしょうか。(1999/09/23)
User-Agent: Mozilla/4.07 [en] (X11; I; Linux 2.0.36 i686)
X-Forwarded-For: IP addr of www.proxymate.com
User-Agent: Mozilla/4.7 [en] ("("以降削除)
X-Forwarded-For: unknown
X-Forwarded-For: XXX.XX.XX.XXX
Via: 1.0 Proxy+ (v2.20 http://www.proxyplus.cz)
User-Agent: PRS-Robot/19970528Java/1.1.2beta (Solaris/2.x; x86)
Referer: http://aniki.olu.info.waseda.ac.jp/
User-Agent: PRS-Robot/19990525 Java/1.2.1 (SunOS/5.6; x86; http://www.etl.go.jp/~yamana/DWR/)
Referer: real referer
User-Agent: PNWalker/1.0.0
User-Agent: Mozilla/3.0 (PNWalker/1.5.0)
User-Agent: Mozilla/1.1 (compatible; MSPIE 1.1; Windows CE)
Accept: application/msword, image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*
User-Agent: Mozilla/1.1 (compatible; MSPIE 2.0; Windows CE)
Accept: */*
UA-Color: colorn
UA-CPU: CPUtype
UA-OS: Windows CE
UA-Pixels: horizxvert
User-Agent: Mozilla/2.0 (compatible; MSIE 3.02; Windows CE) "MSPIE"が入らない
Accept: */*
UA-Color: colorn
UA-CPU: CPUtype
UA-OS: Windows CE (JUPITER) - Version 2.11
UA-Pixels: horizxvert
User-Agent: Mozilla/1.2 (compatible; PCN-The PointCast Network 1.1/win16/1)初期のクライアントは 日本語未対応(なんと日本語フォントを選択させてくれない)ので、 DeleGated の CII などを駆使しないと日本語は出ません。
User-Agent: SpaceBison/0.01 [fu] (Win67; X; ShonenKnife)
User-Agent: Space Bison/0.02 [fu] (Win67; X; SK) (Naoko-4以降)
X-Forwarded-For: yahoo.com, microsoft.com, netscape.com, aol.com, targethost (X-F-F書き換え、普段はoff)
Referer: Request-URI (Referer潰し時)
ShonenKnifeはドイツ語ではなく日本語そのまんまらしーです。
こういう趣味丸だしなものはカッコ悪いんであまし載せたくないんですが
(amiware
よりはましという話もある)
User-Agent: pwWebSpeak 1.2.4 Non-Visual Browser (16 bit; P)
User-Agent: puf/0.9beta5 (`uname -s -r`; `uname -m`)
Use Range:, If-Range:, If-Modified-Since:, Referer:
User-agent: Python-urllib/1.15 (urllib)
User-agent: Python-urllib/2.0a1 (urllib2)
urllib2 は proxy時のHost:の扱いも変だぞ
302 Redirect
も辿りません。
ダウンロード機能はおまけと思った方がいいでしょう。
UIは割と素直。
User-Agent: QILM/2.30 (http://www2.airnet.ne.jp/pak04955/)今後の予定 には「http-equiv="Refresh" 対応」が挙がっているが、 まだやるべきことがあるような気が… (NetscapeはHTTPに直接 Refresh: があっても解釈します) (1999/06/19)
User-Agent: QILM/2.5
User-Agent: QILM/2.61
User-Agent: Mozilla/1.22 (compatible; Quarterdeck Mosaic Version 2.03.001 (Apr 19 1996)/Windows/Domestic)
Forwarded: by http://nnadmin.sbo.nn.k12.va.us:8002/ (QuickSilver-1.0.0 + SafetyNet-1.0.1 + History-1.5 + Ding-1.1) for sbo70.Sbo.NN.K12.VA.US: /usr/local/src/uns/QuickSilver/working-0.6/src/RCS/quicksilver.perl,v 1.19 1996/08/14 00:57:28 tadguy Exp
User-Agent: Radiation Retriever 1.1
User-Agent: Rational SiteCheck/7.0.0 (Windows NT)Rational のサーバーは表が Apache, 裏が borscht というものになってますが、 CGIが手抜きで HEADでも全体をよこします。 (ええい、いちいちボルシチ食わせようとするんぢゃねぇ)
UA-OS: Windows 95
User-Agent: Rho/3.3
Referer: http://133.68.137.195:80/~tez/DeaAquae/
From: tez@egg.ics.nitech.ac.jp
User-Agent: fe~/2.0 rho/4.2d
Referer: http://133.68.137.195:80/~tez/tildren/
From: DeaAquae@mcn.ne.jp
ClientHost: f8-pc91.cty-net.ne.jp [210.128.76.91] (dialup?)
User-Agent: www.popjapan.vv.gs/SearchRobot (2001/05/28-2001/06/19)
User-Agent: Robot/www.popjapan.vv.gs (2001/07/23-2001/10/21)
Referer: real referer
Accept: */*
ClientHost: cache5.cty-net.ne.jp [210.149.120.130]
User-Agent: Robot/www.pj-search.com (2002/02/02-)
Referer: real referer
Accept: */*
検索結果から「このページを解析」させると
"http://www.popjapan.vv.gs/ BCC 0.03" てのが来ます。
"BrowserCrasherChecker 0.03"
の改造品の模様。
User-Agent: Robozilla/1.0
Referer: http://directory.mozilla.org
User-Agent: RPT-HTTPClient/0.3-2使う人は HttpURLConnection.setRequestProperty("User-Agent",...) で それっぽい名前をつけてから使いましょう。 (ドキュメント見てもすぐにはわからんぞ…)
Accept-Encoding: deflate, gzip, x-gzip, compress, x-compress
User-Agent: Sax Webster Sax Webster Win32
User-Agent: Scooter/1.0 scooter@pa.dec.com
User-Agent: Scooter/2.0 G.R.A.B. X2.0 (1998/04/10-)
From: steves@pa.dec.com
User-Agent: Scooter/2.0 G.R.A.B. V1.1.0
From: scooter@pa.dec.com
User-Agent: Mozilla/4.0 (compatible; MSIE 4.01; Windows NT; MS Search 4.0 Robot) Microsoft役に立たないのを承知で書くと、"Microsoft Search" とつくのは
From: user@microsoft.com
ClientHost: www.sellit-here.com [12.10.6.194]
User-Agent: Mozilla/4.7 [en] (WinNT; I) (2001/09-)
From: bmccane@maxbaud.net
Range: bytes=0-300000
管理者のホームページ
らしきものも存在するようだが中見なし。
(昔は何かがあった様子)
User-Agent: Senrigan/19961227 Java/1.0.2 (Windows 95; x86; )
Referer: http://www.info.waseda.ac.jp/search.html
User-Agent: Mozilla/2.0 (Sextant v3.0 c1.0 Win32 Alis)
User-Agent: Shodouka/0.7c (Japanese text renderer)
User-Agent: Shodouka/0.8 (Japanese text mediator by Ka-Ping Yee, ping@lfw.org)User-Agent: sprocket/0.1 (mediation library by Ka-Ping Yee, ping@lfw.org)
host: originhost
accept: */*
これを使えばArenaでも日本語が出ま…あ落ちた…
User-Agent: sitecheck.internetseer.com (For more info see: http://sitecheck.internetseer.com)
Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2 (2002/01/06)
Accept: deflate, gzip, x-gzip, compress, x-compress (2002/01/16)
$request .= "User-Agent: PHP/".phpversion()."\r\n";
Clienthost: www2.adam.ne.jp [211.10.20.165]
HEAD absurl
User-Agent: PHP/4.2.2
User-Agent: Mozilla/4.0
User-Agent: libwww-perl/5.32
ClientHost: stead.fast.no (213.188.8.49)安直な名前ながら衝突はしてない模様。
Request-Line: GET / HTTP/1.0
User-Agent: Mozilla/4.0 (compatible; SiteProbe/1.0) (2000/01/03-)
http://www.siterank.org/jp/redirect/?sid=nnnnnnnnnn
な HREF が張られているが、実際にブラウザでたどった際には
普通に(ブラウザ利用者からの)アクセスが観測できる。
だからキャッシュされた内容を配って、
後からヒット数の帳尻あわせをするためのものではない。
libfetch
には Accept や Referer を送信する機能はないので、
(裏技を使えばできんこともないが…)
現在動いているものは別のツールを使っていると思われる。
ClientHost: siterank.org [128.121.217.122] (verio.net)
User-Agent: fetch libfetch/2.0 (2002/05/06)
User-Agent: Siterank Crawler [http://www.siterank.org/] (2002/05/31-06/01 from [218.225.83.57] *.kinden-jps.co.jp)
User-Agent: Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt) (2002/05/06-)
Accept: */* (2002/05/31-)
Referer: http://www.siterank.org/jp/ (constant)
valueclickとか貼ってるし、登録は個人名だし、
見た目は「大手」ぽいがどうも個人サイトのようだ。
英語ページも整備されているが
日本人ぽい英語
である。
どうやってゼニを稼いでいるのかわからないところが
何となく不気味である。
User-Agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows NT; Site Server 3.0 Robot)
From: someone's address
User-Agent: Slurp/1.0 (http://www.inktomi.com/slurp.html)国内ではgooからのものが 今は圧倒的でしょうね。 「初の地域限定検索エンジン」 なる口上はなかなか笑えます。
User-Agent: Slurp/2.0 (slurp@inktomi.com, http://www.inktomi.com/slurp.html)
User-Agent: Slurp/2.0 (slurp@inktomi.com; http://www.inktomi.com/slurp.html) (1997/03/05-1999/10/06)
User-Agent: Slurp/3.0 (slurp@@inktomi.com; http://www.inktomi.com/slurp.html) (1999/01-2000/03/22)
User-Agent: Slurp/si (slurp@inktomi.com; http://www.inktomi.com/slurp.html) (2000/02/11-)
gooのロボットは2.0のままですが、本家 Inktomi のは ぼちぼち 3.0 に移行しているようです。(1999/05/27)
ついにというか Mozilla化したものも現れました。
ただ、取得URLが同じ物の繰り返しだったりと、ちょっとクセがあるので
UA変調ページだけをチェックしている可能性もあり。
他のヘッダは従来と同じです。
(2000/10/25)
Mozillaなもの(と初期のSlurp/si)は実は IMS も渡してくるのですが、
渡るのはLast-Modifiedではなく前回の取得時刻。
しかも301を食らった場合はリダイレクト先にはIMSは来ません。
相変わらずデータベースには "/" なしのURLが残る模様。
(2001/08/15)
User-Agent: Mozilla/3.0 (Slurp/cat; slurp@inktomi.com; http://www.inktomi.com/slurp.html) (2000/10/19-)
User-Agent: Mozilla/3.0 (Slurp.so/1.0; slurp@inktomi.com; http://www.inktomi.com/slurp.html) (2000/11/17-2001/05/02)
User-Agent: Mozilla/3.0 (Slurp-TOCC/si; slurp@inktomi.com; http://www.inktomi.com/slurp.html (2001/08/08-)
User-Agent: Mozilla/3.0 (Slurp.so/TOCC; slurp@inktomi.com; http://www.inktomi.com/slurp.html) (2001/08/13-)
Accept: text/*
From: slurp@inktomi.com
If-Modified-Since: time of last retrieval (2000/10/02-)
ClientHost: 209.209.9.49
User-Agent: SlySearch (slysearch@slysearch.com) (2001/08/09-2001/08/24 for robots.txt only)
User-Agent: SlySearch slysearch@slysearch.com (2001/08/09-2001/08/24)
Accept: text/html
ClientHost: 64.140.48.*
User-Agent: SlySearch/1.0 http://www.plagiarism.org/crawler/robotinfo.html (2002/05/01-05/30)
User-Agent: SlySearch/1.2 http://www.plagiarism.org/crawler/robotinfo.html (2002/06/01-06/16)
User-Agent: SlySearch/1.3 http://www.slysearch.com (2002/06/26-)
Accept: text/html, text/plain
larbinの
ソースを見ると、確かに robots.txt とそれ以外で
わざわざ UA を変えているのだが、なんかの名残かも。
このUA生成部はソース上は普通用とrobots.txt用で直列に並んでいる。
前半分(普通用)だけカッコを外して後半(robots.txt用)のは
外し忘れているというだけかもしれない。
User-Agent: Mozilla/4.0 (compatible; SpeedSurfer 4.01)
ClientHost: [210.163.164.227] navajo2.arrows.ne.jp
Accept: */*
User-Agent: ssc/1.0
セキュリティチェックってもNessus
を使ってるだけのよーですが
他にも "ssc_url/1.0" なんてのも来ますが、これも お手製の巡回ツールかダウンローダの模様。 いずれにしてもブラウザではない。
User-Agent: Mozilla/3.0 (compatible; StarOffice/5.1; Win32)国内では StarOffice つーと NECのグループウェア を指すみたいですが、訴えたりせんのかいな (国も分野も違うしな…)
User-Agent: Mozilla/3.0 (compatible; StarOffice/5.1; Solaris Sparc)
Clienthost: 157.82.157.9[59] (*.iis.u-tokyo.ac.jp)
User-Agent: Steeler/0.1 (2000/09/28)
User-Agent: Steeler/0.3 (tamura@tkl.iis.u-tokyo.ac.jp) (2001/09/30-2001/10/06)
From: tamura@tkl.iis.u-tokyo.ac.jp
Accept: text/*
Accept-Encoding: identity
Accept-Language: ja,en
Connection: close
今は全部いっしょになってしまったので混乱しますが、
Clienthost: *.satellite.info.waseda.ac.jp2001年に入ってから動いているものは、IMSを使うようになったようです。 絨毯爆撃や廃屋攻撃は相変わらず。 (ていうか新しいリンクを拾ってないような気がする) (2001/02/15)
From: robot@kuro.net
User-Agent: suke/0.1 (19990104-)
User-Agent: suke/0.3
User-Agent: suke/1.0 (http://www.kuro.net/)
User-Agent: suke/1.0 (http://kensaku.org/) (1999/09/18-2000/08/23)
From: robot@kuro.net
User-Agent: suke/2.0 (http://kensaku.org/)
From: robot@kensaku.org (2000/10/28-)
絨毯爆撃を行なうのは、そうゆう仕様なのか、
相手の HP(耐久力) を測定した上で頻度調整しているのかは不明。
(そんな凝ったことをしてるとも思えんですが)
ClientHost: *.infor.kanazawa-it.ac.jp
User-Agent: suzuran/0.0(TestWebRobot0.0;Java) (1999/11)
User-Agent: suzuran0.5 (1999/12-2000/03)
User-Agent: suzuran1 (2000/01-2000/02)
User-Agent: suzuran (2000/05-)
From: a1613494@jupiter.kanazawa-it.ac.jp (1999/11-2000/02)
From: east@infor.kanazawa-it.ac.jp (2000/03-2001/04)
From: abelab@infor.kanazawa-it.ac.jp (2001/10-)
User-Agent: Symantec WebFind Page Validation
User-Agent: browser, (compatible; TeraNode 1.0)
Via: TeraHTTP/1.0 (Response-Headerのみ)
User-Agent: TestApp/1.0 libwww/5.0a
User-Agent: TestApp/0.9 libwww/unknown
User-Agent: TITAN/2.0 (1997/05/15-1997/07/20 for NTT navi)
From: titan-admin@isserv.tas.ntt.jp
User-Agent: TITAN/3.0 (1997/12/05- for NTT navi)
From: titan-admin@isserv.tas.ntt.co.jp
User-Agent: TITAN/5.0 (titan-robot@isl.ntt.co.jp) (1999/05/26)
From: titan-roboti@isl.ntt.co.jp
User-Agent: TITAN/6.0 (1999/11/30-)
From: admin's address
Accept: */*
Via: 1.0 beta-proxy.inktomi.com (Traffic-Server/1.0b6)
Via: 1.0 AOL tot-ta (Traffic-Server/1.1.4(dg) [1])
Via: 1.0 AOL[ 41412ac] (Traffic-Server/1.1.6 [1])
Via: 1.0 AOL tserver2[ 11a12ac] (Traffic-Server/1.1.6 [1])
Via: 1.1 ptest3 (Traffic-Server/2.0 [uScMs f p eN:t c i p s ])
Via: 1.1 PA[98A3E81B] (Traffic-Server/2.2.2(2) [uScMs f p eN:t cSMi p s ])
User-Agent: Mozilla/4.0 (Win95; I)
User-Agent: Mozilla/4.0 (Win98; I)
Cookie: leaking referrer cookie?
Clienthost: www15.gracenet.ne.jp (www.url-battle.com)
User-Agent: URL-Battle 1.0
Referer: http://www.url-battle.com/
User-Agent: URL-Binder
ブックマークをどうやって管理するかというのはそれなりに面白い 対象で、今のところ汎用性、移植性、拡張性といった点で Netscape式 (HTML+カスタムATTLIST) が一番使い勝手がいいかなと思います。
URL-Binderは独自形式を採用。解析は激簡単ただ Windows で使う限りでは MSIE式も便利なので迷うところです。
User-Agent: Papanda URL_Captor/0.3 (Tcl/Tk8.0jp)"Tcl/Tk8.0jp" の部分は [info patchlevel] ではなく固定文字列なので 全然あてになりません。
User-Agent: Papanda URL_Captor/1.0 (Tcl/Tk8.0jp)
ClientHost: ocn.smart-d.com [210.163.250.199]
User-Agent: /data1/servicecheck/CL/bin/URLCheck.pl/1.0 (1998/07/07-2001/07/11)
Accept: */*
Accept-Language: ja
Cache-Control: Max-age=259200
Via: 1.0 ocn:3128 (Squid/1.1.21)
X-Forwarded-For: 210.132.63.166 (luna.navi.ocn.ne.jp)
User-Agent: URL-Minder/2.4
User-Agent: Mozilla/2.0 (compatible; MSIE 3.02; Win32) (MSIE3.02)
User-Agent: Mozilla/4.0 (compatible; MSIE 4.01; Win32) (MSIE4.01)
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0b; Win32) (Windows XP)
MSIE2.0では同梱のURL.DLL、 MSIE1.xでは本体が直接winsockを叩く。
User-Agent: Valkyrie/2.00 libwww-perl/0.40
User-Agent: Valkyrie/0.99 libwww-perl/0.40
(prefetch)
" が
つきます。
なお、User-Agent 自身はブラウザ側が何であろうと設定不能の
固定文字列に置き換えられます。
元がわからんので統計では
"[Viking]" としてあります。
(1999/07/22)
User-Agent: Mozilla/3.0 (Compatible;Viking/1.04)
Via: 1.0 localhost:8080 (Viking/1.04)
User-Agent: Mozilla/3.0 (Compatible;Viking/1.04) (prefetch)
User-Agent: VIRBOT
ClientHost: spider[12].ny.rubis.netなお rubis.net には Mail Exchanger(MX)の設定は されてないようです。 (rubis.frは石油会社なのでたぶん関係ない)
User-Agent: Mozilla/4.0_(compatible;_MSIE_4.01;_Windows_98)/2.0 libwww/5.2.8 (2000/01/27-)
Accept: */*
Range: bytes=0-8192
TE: trailers
Connection: TE,Keep-Alive
User-Agent: Mozilla/3.0 (compatible; Demodisk-405/QNX Voyager 2.01B ;Photon) (フロッピー一枚のデモ版)Voyagerと言ったら通常は Amigaのブラウザ ("AmigaVoyager/...") を指すような気がしますが、関係については不明。 ありがちな名前で衝突しているだけ? 次期Amiga用OSとしてQNXが採用しかかって没になったという 話はあるみたいですが。
User-Agent: Mozilla/3.04 (compatible;QNX Voyager 2.03B ;Photon)
Accept: xyzzy
Accept: application/x-ftp-list
Accept: application/x-gopher-menu
Accept: multipart/x-mixed-replace
Accept: multipart/mixed
Accept: text/html
Accept: text/plain
Accept: image/gif
Accept: image/jpeg
Accept: image/pjpeg
Accept: image/jpg
Accept: image/x-xbitmap
Accept: */*; q=0.100
Connection: Keep-Alive
Host: host
起動している 208.197.182.2 は逆索きできないが、正引きは www.albert2.comのようである。これも検索エンジン。
Accept-Language: en
User-Agent: W3C-checklink/2.67 libwww-perl/5.48
User-Agent: W3CRobot/5.2.8 libwww/5.2.8
Accept: text/plain,text/html,*/*;q=0.3
User-Agent: W3C_Validator/1.0 libwww-perl/0.40
From: unknown@w3-html.pa-x.dec.com
WAVETools/2.0
" てのがあるので、
UA に何も指定しない時のデフォルトなんでしょうきっと。
Mozilla/3.0
"、
画像は "WAVETools/2.0
" で取りにいきます。
Referer なし。
User-Agent: WAVETools/2.0サンプルブラウザではタイトルバーにさりげなく "SurfACE" と つくんですが、SurfACEつーと通常は ToolPools製のもの を指します。どっちが先だったんでしょ
User-Agent: Mozilla/3.0 (サンプルブラウザ)
User-Agent: WebAnalyst/2.0
User-Agent: Mozilla/1.22 (compatible; WebAnalyzer 1.0; Windows)
User-Agent: WebAuto/2.00 (Win95; I)「通常はその設定にして下さい」 と書かれているだけあって、"WebAuto"のままで使っている人が 大多数のようですが、UAを切替えると区別不能です。
User-Agent: WebAuto/2.20b16 (2.20β16 標準設定)
User-Agent: WebAuto/3.11 (WinNT; I)
Referer: real referrer
User-Agent: Mozilla/3.0 (Win95; I) (2.10)
User-Agent: Mozilla/3.0 (Win95; I) (2.20β16 Netscapeモード)
User-Agent: Mozilla/4.0 (WinNT; I) (3.11,Netscapeモード)
User-Agent: Mozilla/2.0 (compatible; MSIE 3.0; Windows 95) (2.20β16 MSIEモード)
User-Agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows NT) (3.11,MSIEモード)
User-Agent: WebBoy Version 2.00 (Rev. Feb 03 1997)
User-Agent: WebBoy Version 3.00
User-Agent: Mozilla/3.0 (compatible; WebCapture 1.0; Auto; Windows)
Referer: real referer
HEAD /home/WebChecker HTTP/1.0
Content-Type: text/plain; charset="us-ascii"
User-Agent: PP Internet Classes Example
Content-Length: 4
Test
Clienthost : thor.webclipping.com [209.73.228.165]
User-Agent: Mozilla (-2000/08/31)
User-Agent: Webclipping.com (2000/09/10-)
Accept: */*
→MarkWatch や
→ImageLock もそうなんですが、
こういった UA は
hate site
に感づかれたりしないようにするためか、RXPには対応していないし
UA 文字列も偽装する傾向があるようです。
統計では [WebClipping] としてあります。 (2000/06/06)
→[netfilter]
文句が来たのかどうかは不明ですが "Mozilla" は やめたようです。
(2001/01/10)
User-Agent: webcollage/1.77 (単なるRCS Id)
Referer: inlinking query
作者のJamie Zawinski(jwz)は Mosaic Netscapeの古株で、
mozilla屋には名が知れわたっている
ようですが、個人的には DaliClockの作者とゆー印象があります。
これもmozilla屋の間では知れ渡っている(らしい)
辞職時のコメントは
なかなかおもしろいのですが、
初期のNetscape(時期的には2.0以前)の熱気みたいなものを
知らないと「ふーん、そうなんだ」で終わってしまいそう。
User-Agent: WebCompass 2.0Symantecに買収 されたことに伴い、 生産終了品 となりました。…
User-Agent: WebCopier Session #
User-Agent: Web Devil
User-Agent: Mozilla/3.01Gold (WinNT; I) (Web Devil 2.0)
User-Agent: IBM WebExplorer /v1.01
User-Agent: IBM WebExplorer DLL /v1.13
User-Agent: IBM-WebExplorer-DLL/v1.1g
User-Agent: WebFetchおそらくただの "WebFetch" では 「ページによってはうまく先読みしてくれない」と言われて、 そのうち "Mozilla/3.X " とかになるんぢゃないでしょうか。
ClientHost: wfp2.almaden.ibm.com[198.4.83.49]
User-Agent: WebFountain 1.0 (408-927-1838) (2000/08/17-2000/08/21, 2001/03/15)
From: webcrawl@almaden.ibm.com
Accept: text/*
Accept-Language: en
基本的な性質はそのままで名前だけ変わったのが
2001/04 から動いています。 Web Fountain ARChiver かなんかの略?
From: は今は到達可能のようです。(人間が読んでるかは?)
(2001/05/17)
2001/08/28 からhttp:// なUAになってますが、
内容は
"wfarc" の明示
(…むむ、修正されている)
以外は単にRXPの焼き直しであまり役に立たない。
メールアドレスが画像なのは UCE対策ですかね。
取得はきっちり10秒間隔にリセット。
text/* だけでもなく、 application/postscript も持っていきます。
(2001/08/29)
User-Agent: WFARC (2001/04/18-2001/05/17)
User-Agent: www.almaden.ibm.com/cs/crawler (2001/07/25-2001/07/31)
User-Agent: http://www.almaden.ibm.com/cs/crawler (2001/08/28-)
From: webcrawl@almaden.ibm.com (-2001/05/17)
From: crawler@us.ibm.com (2001/08/28-)
Accept: text/*
no Accept-Language
WWW10に出ている "An Adaptive Model for Optimizing Performance of an Incremental Web Crawler" (Jenny Edwards, Kevin McCurley, John Tomlin) てのが数少ないそのものズバリの資料。
ただAlmaden研究所 を漁っても WebFountain については言及もなし。 他のWeb検索エンジンを掘っても資料は極小で、 WebFountain全体が何なのかは今だに不明。 (2001/05/17)
User-Agent: WebGather 3.0
Accept: text/html, text/plain
From: xiong@csnetlib.pku.edu.cn
ロボットがMozillaを名乗るようになっちゃ世も末だぁね。
User-Agent: Mozilla/2.0 (compatible; Webinator-crazy.convict.com/1.3)"i13.inet911.com" は cyberalert.com より。ここはClipping屋です。
User-Agent: Mozilla/2.0 (compatible; Webinator-www-eval.srv.cis.pitt.edu/1.3)
User-Agent: Mozilla/3.0 (compatible; Webinator-i13.inet911.com/2.53)
User-Agent: Mozilla/3.0 KOMATSU WL/3.0
User-Agent: Mozilla/3.0 KOMATSU (AveFront/2.6 WebLight) WL/3.0 V2.44ohi
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*
InternetAutoDial()
を呼ぼうとするので、
評価しようにも起動できない。
電話回線専用のため?なのか、あまり使用実績は多くないようです。
(2001/12/07)
Accept: */*
User-Agent: WebLink/2.02
User-Agent: Mozilla/4.0 (compatible; E-Soft WebProbe/WebSurvey/Network Audit; http://www.e-softinc.com)
User-Agent: Mozilla/4.0 (compatible; E-Soft WebSurvey; http://www.e-softinc.com ) (定期調査、1999/11-2000/11)
User-Agent: Mozilla/4.0 (compatible; SecuritySpace WebSurvey; http://www.securityspace.com ) (定期調査、2000/12-)
Accept: text/plain,text/html
No Host: (not needed anyway unless "reverse-proxy"ed)
これもなんかいかにも安直で衝突してそうな名前です。
ちょろっと調べてみると出てくる出てくる
User-Agent: MSWebPostPostInfoProcessor/1.5 (compatible; MSIE 3.02) /,/postinfo
User-Agent: Microsoft FTP WebPost Service Provider FTPアップロード時確認
User-Agent: MSFrontPageWpp/4.0
User-Agent: Microsoft HTTP Post (RFC1867)
User-Agent: Mozilla/2.0 Canon-WebRecord/2.0.10.5
User-Agent: Mozilla/2.0 Canon-WebRecord/2.0.28.5
Clienthost: wcpp.directint.net安直な名前なので、UAだけでWCPP用だと判断するのは 危険だと思われます。
Accept: */*
Accept-Language: *
User-Agent: Webrobot
Clienthost: 209.132.98.162 (sluggo.websense.com, no forward DNS )
No User-Agent
User-Agent: Webshuttleヘルムシュテット や アドニクス の モデムに遠慮しているのか、 "Webshuttle" (小文字) だったりします。
User-Agent: Mozilla/2.02 (Macintosh; I; PPC) via proxy gateway WebTrack-HTTPP/1.2 libwww/2.17
User-Agent: Mozilla/1.22 WebTV/1.0 (compatible; MSIE 2.0)
User-Agent: Mozilla/3.0 WebTV/2.2 (Compatible; MSIE 2.0)
WebTVのためのスタイルガイド は、WebTVに限らず、サターン や MediaBox、小型機器用のページを書く際にも 参考になるでしょう。
User-Agent: WebVCR/2.1 (録画時のみ)ライセンスには「米国から輸出禁止」とあるのに、 日本語版があるのがなかなか謎です。 最近では調べるのがめんどくさいのか、暗号化が入ってなさそうな ソフトにも輸出禁止条項が入ってたりするので、 単に書いてあるだけかもしれませんけど… (1999/06/21)
User-Agent: Mozilla/3.01 [de] (Win95; I) WebWasher/1.0.3
User-Agent: WebWhacker v1.0.1
User-Agent: WebWhacker/1.0.8
User-Agent: WebWhacker 32 Version 1.0J
User-Agent: Mozilla/3.0 (WebWhacker) バージョン2.0以降
User-Agent: WebWatch
Accept_Charset: Shift_JIS,*Accept-Charset: の綴りが違うよーな気がしますが
User-Agent: Mozilla/4.0 (compatible; WebShot 2000 Ver.3.0) (β)
User-Agent: Mozilla/4.0 (compatible; WebShot2000 DLL 3.00.0003) (3.0.1)
Referer: source document
User-Agent: Wget/1.4.2TODO にも書かれていますが、
-N
時は
IMSは使わず HEAD → GET となります。ミラーリングには不向き。
(2000/02/02)
User-Agent: WhizBang! Lab (2000/02/23-2000/03/26)
Accept: text/html
From: crawler@whizbanglabs.com
2002/01/26 から、にせもじらになりました。
ていうか2年くらい空白期間があるんですが。
flipdog以外の仕事に
ありついたようで。
From: は削除。
30秒〜1分半くらいの間隔で一通り持っていきます。
(2002/02/07)
ClientHost: pixnat06.whizbang.com [63.173.190.16]
User-Agent: Mozilla/4.7 (compatible; Whizbang) (2002/01/26-)
Accept: text/html
Connection: Close
User-Agent: wherebot/0.2
From: dlg@where.com
User-Agent: Mozilla-Compatible(Wildcat)/1.26_libwww/unknown
User-Agent: Mozilla/4.0 (compatible; Win32; WinHttp.WinHttpRequest.5)
Accept: */*
Accept-Language: lang
Forwarded: by WinProxy (Version 1.55) for XX.XX.XX.XXVia: は残さず Forwarded: をつけるのだが、 製品名はそこに入れるのではないのだよ…
Forwarded: by WinProxy(-RAS) (Version 1.55) for XX.XX.XX.XX
X-Forwarded-For: XX.XX.XX.XX
Remote-Host: XX.XX.XX.XX
商標をとられた つーことで今は "BlackJumboDog" に変更されています。
Forwarded: by BlackJumboDog(-RAS) (Version 2.1.1) for XX.XX.XX.XX商標登録料 てのは個人がほいほいと払う額ではないです。 札幌WinProxyは、こう書かないとわからんくらい同名のものが 出回ってたので商標でなくても問題があったでしょうけど、 金持ってるほうが勝つとゆーのは なんか いやーんな感じではあります。 (2000/10/12)
Remote-Host-Wp: XX.XX.XX.XX (2.00-b4以降)
(以下同文)
User-Agent: WinProxy (Version 2.1R2h) (winproxy.comへのユーザー登録時のみ)
Proxy-Agent: Ositis-WinProxy (エラー時のみ?)
User-Agent: WiseWire-Widow-1.0もともとは Ken Lang氏の研究で、 (そのころのは NewsWeeder と呼ばれていた) 検索エンジンとしてよりも "Information Retrieval" とか "Collaborative Filtering" の分野で有名のようです。 求人にも 依然として研究としての位置づけが見てとれます。
User-Agent: WiseWire-Widow-Beta-2
User-Agent: WiseWire-Widow-1.0
From: WWU@wisewire.com
User-Agent: WiseWire-Spider-1.0
From: spiderman@wisewire.com
User-Agent: WorldTALK V 2.0.2(P)
User-Agent: Version 2.0.1(P)
User-Agent: World TALK Ver1.1-1.20
User-Agent: Mozilla/4.5 [ja](WorldTALK/2.0.0)
User-Agent: WWWC/0.151.0の HTTPエンジンは beta71-79 で大幅に書き替わっており、 beta78でのロジックは最適解に近くなっています。 ただし更新チェッカという性質上ダウンロード後の保存は行なわないので、 一秒たりとも無駄な転送はしたくない人にはやはり向いていません。 (1999/10/21)
User-Agent: WWWC/0.25
Referer: http://www.kinet.or.jp/naka/tomo/
User-Agent: WWWC/0.25 (WinNT)
User-Agent: WWWC/0.84 (Win32; http://www.kinet.or.jp/naka/tomo/)
User-Agent: WWWC/1.00
User-Agent: WWWcp/1.83; (Perl 5; SunOS 5.5.1 sun4m)
User-Agent: Mozilla/2.01; (WWWcp/1.83; Perl 5; SunOS 5.5.1 sun4m) -Mオプション
User-Agent: wwgetall/3.14; http://infonet.aist-nara.ac.jp/~tsuneo-y/soft/wwgetall/wwgetall.html
User-Agent: Mozilla/4.0 (compatible; MSIE 4.01; wwgetall/3.14; http://infonet.aist-nara.ac.jp/~tsuneo-y/soft/wwgetall/wwgetall.html) (-U オプション
User-Agent: WWWD/0.01
Server: WWWOFFLE/2.4
User-Agent: WWWOFFLE/2.2 (詐称デフォルト)
User-Agent: xyro
Accept: text/html text/xml
From: sebastie.nailleret@inria.fr
Yahoo! Japan: User-Agent: yahoo-fetch
本家Yahoo! : User-Agent: Proxy gateway CERN-HTTPD/3.0 libwww/2.17
[
locale]
がつきます。
統計では [Yahoo! Maintenance] としてあります。
(1999/08/27)
User-Agent: Mozilla/4.05
ClientHost: adsl-63-201-189-50.dsl.lsan03.pacbell.net (2000/04/24, 2001/02/15)
User-Agent: earthlisten.com spider;http://www.earthlisten.com/search/world/main.htm (2000/04/24)
User-Agent: http://www.earthlisten.com (2001/02/15)
ClientHost: adsl-216-101-213-160.dsl.lsan03.pacbell.net [216.101.213.160] ({yabbering,earthlisten,clonker}.com, 2001/07/11)
User-Agent: yabbering.com (2001/07/11)
Accept: */*
User-Agent: YuiSearch/0.0.1 (I; Linux 2.0.36 i686)
From: YuiSearch <yuisearch@yui.gr.jp>
Accept: */*
Accept-Language: ja
resume by Range:
User-Agent: ZeusBench/1.0
Request-Line:00000000: 47 45 54 20 2F E2 80 BE:69 77 61 6E 2F 6D 69 79 GET /...iwan/miy 00000010: 61 5F 62 6C 5F 72 65 68:61 5F 61 73 73 2E 68 74 a_bl_reha_ass.ht 00000020: 6D 6C E3 83 88 EF BC 8A:EF BC 8A EF BC 8A 20 48 ml............ H 00000030: 54 54 50 2F 31 2E 30 0A TTP/1.0.
Referer:教えたくなきゃ書かなければいいようなもんですが(意味不明)00000000: A1 A1 A4 E0 A1 BC A4 E0:A1 BC A5 D6 A5 E9 A5 A6 むーむーブラウ 00000010: A5 B6 20 56 65 72 2E 30:2E 31 20 28 A4 DF A4 C1 ザ Ver.0.1 (みち 00000020: A1 F7 C6 C7 B0 F2 C3 EE:29 @毒芋虫)
User-Agent: miharun_antenna
User-Agent: ネットスケープ 2.0 (compatible; インターネット エクスプローラ 2.1; Mac_PowerPC)Macのソフトのlocalizeをやった人は判ると思いますが、 実際問題としてリソースの文字列だけ見ても、どれを訳して どれは訳しちゃいかんのかなんてのはまずわからんので、 こういうことも十分起こり得ます。 試験項目に UA のチェックは入ってなかったんでしょう。
00000000: D5 82 E7 82 E7 83 75 83:89 83 45 83 55 81 5B 20 .ららブラウザー 00000010: 56 65 72 73 69 6F 6E 20:32 2E 30 2E 32 28 54 29 Version 2.0.2(T)
その後改心したらしい。
User-Agent: Plala-Browser/2.10ブラウザ部分はWorld TALKのカスタム版のようで、 古い Spyglass Mosaic のクセをそのまま持っています。 櫛状の転送メーターを持っているブラウザは これとHotJava/1くらいで、かなり珍しい。
User-Agent: 詩織ちゃん(compatible; 沙希ちゃん; 大好き 97)