]> Some Gripes on User-Agent

▼User-Agentについてのたわごと▼

-- Unrecognized User-Agents (URA) sweeps - or mess up - your server

前口上は 註の註 に移しました。 当ページはデータに専念します。

[アクセス統計][筆者のホームページ][註の註]
$Id: agentgripes.html,v 7.103 2003-01-21 04:22:58+09 kabe Exp $


A+HTTPD (server)
Amdahl Corp.で使用している サーバー。betaだし 商品リスト にはない(1997 1/18)し、売りものではなさそう。 HTTP Response の Serverヘッダ と proxy時に User-Agent に追加する名前が違う。 将来A+シリーズに追加されることを想定しているのかなぁ。
UAにくっつくのは CERNベース であるためなのでしょう。 1995年の時点ですでに Netcraftの統計 にも出てこないので、おそろしくマイナーかも。 (2001/05/25)
User-Agent: Mozilla/1.0 (Windows) via proxy gateway A+HTTPD/1.0beta3 libwww/2.17
Server: Amdahl/1.0beta3
…なんか富士通に買収されて(ja)ゐる…

A.G.E.N.T.
多分ディレクトリサービス維持用のリンクチェッカ。 IMSなし。常に GET なのは Netscape-Enterprise対策?
移転後も UA の文字列は移転前のまま。 (2000/02/02)
User-Agent: A.G.E.N.T. http://masui.net/agent/libwww-perl/5.36
User-Agent: A.G.E.N.T. http://masui.net/agent/libwww-perl/5.44     (2000/01/15-)
Acoon Robot
検索エンジン用ロボット。 ドイツ製検索エンジンとしては初の国際化デビュー となってますが、Fireball の方が先だったような。
robots.txt は読まない模様。 ドイツ語ページでないとわかると再帰動作にならないようで、 当方では単発アクセスしか観測していません。 なんでか知りませんが IMS は以前取得した日の 00:00:01 GMT に 丸められてしまいます。 (Last-Modified:を返さないサーバーに対する悪あがきかもしれない) →KIT_Fireball, indexpert
User-Agent: Acoon Robot v1.01 (www.acoon.de)     (1999/06/17-2000/11/27)
User-Agent: Acoon Robot v1.50.001 (www.acoon.de)     (2001/01/02-)
Accept: */*
If-Modified-Since: XXX, nn XXX nnnn 00:00:01 GMT
AcornSearch
おそらく検索エンジン用ロボット。 一応再帰型のようですが、Acorn関係のページしか 拾わないようになっています。 (そんなに阿呆ではないそーです)
/robots.txt は拾わない。 が、リンクはなくとも /links, /products, /support, /news を自動的に拾います。 (fuzzy logic paths てこれのこと?) 統計では "[AcornSearch]" としてあります。 (2001/04/02)
ClientHost: www.acornsearch.com [194.153.168.129]
Accept: */*
User-Agent: Mozilla/4.0 (compatible; AcornSearch; IRIX)     (2001/03/12-2001/06/17)
User-Agent: Mozilla/4.0 (compatible; JavaHunter/AcornSearch; Linux)     (2001/07/25-)
[addresses.com AEE]
電子メールアドレス検索サイト addresses.comの 電子メールアドレス収集用ロボット。 初めの頃は Advanced Email Extractor (AEE) をそのまま使っていたようですが、嫌われていることに気づいたのか、 すぐに MSIE詐称に切り替えています。 もとが AEE なので /robots.txt なんかは持っていきません。 (2002/02/03)

リスト浄化のための spam送信も 行っている (NANAE 2002/02/10) ようです。 (資料不足なので第三者によるイヤガラセの可能性もありますが) (2002/02/11)

ClientHost: 64-42-36-100.atgi.net [64.42.36.100]
User-Agent: Mozilla/4.0 (compatible; Advanced Email Extractor v2.31)     (2002/01/27-01/31)
User-Agent: Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)     (2002/02/01-)
Referer: http://addresses.com/links.php
Accept: */*
Accept-Encoding: gzip,deflate
AIR Mosaic
SPRY製のブラウザ。 SPRYのページからはAIRという文字は表だって見つからない… obsoleteな名前なんだろうか。

[Alexa Crawler]
アーカイバ用ロボット。 モノはia_archiverと 同じだと思われます。 1999/3月下旬から試験的には動いていたようですが、 1999/06/17 から本格稼働の模様。 From: を見ないと区別不能なヘッダを使うようになりました。 統計では "[Alexa Crawler]"としてあります。
一応 RXP 対応のはずなのですが無視されています。 苦情が来たのか、1999/7月末を最後にこの形式は使われていません。 (1999/09/05) →ia_archiver
Clienthost: green.alexa.com [206.132.186.131]
User-Agent: Mozilla/3.0 (compatible; Win95)
From: crawler@alexa.com
MSIE等ではこんなUAをつけるものは存在しないようです。

AllAboutJapan LinkChecker
All About Japan Link Patrol

All About Japan Link Patrol
リンクチェッカ。 All About Japanの どっかからリンクされていると、 定期的にリンク確認しに来ます。 毎日一回(!)。Java製。 404 でもあきらめない。(意味ないぢゃん…)
ClientHost: [202.222.92.131], prev.allabout.co.jp [202.222.92.165]
User-Agent: Java1.2.2     (2001/03/02-2001/04/10)
User-Agent: All About Japan Link Patrol/1.0 (info@im.allabout.co.jp)     (2001/04/16-2002/02/14)
User-Agent: All About Japan Link Checker/1.0 (info@im.allabout.co.jp)     (2001/06/16-07/16)
Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2

2002/06頃に システム入替 があったらしく、 一週間毎のチェックとなっています。 非Java。 相変わらず404等にもめげません。 ご主人様に報告しろよ…

ClientHost: [202.222.92.195]
User-Agent: AllAboutJapan LinkChecker     (2002/06/23-)
Pragma: no-cache

"Link Checker" は過去に一ヶ月だけ使われてましたが、 なんで "Link Patrol" を捨ててしまったんでしょうおかね

AlterNex
検索エンジン用ロボット。 .brドメインとポルトガル語のページを漁っていくらしい。 でもRefererのページ、 コメントの入れ方が腐ってて何も見えないのん。 (以前は見えてたような気が…)

AngryChair (proxy)
「proxomitronとかenproxyと同系統のツールです」。 UA偽装が目的の一つなので当然のように MUSTなVia:等は つきません。 UI は VC初心者にありがちなメニューなしアイテム適当並べタイプ。 HTTP的にはかなり変。(Ver0.002で調査) HTTP/1.1では Host: が必須なのは事実ですが、 HTTP/1.0要求でも必要としてるみたいなのでかなりクライアントを選びます。 そのうち修正されてくるとは思いますが、現状がこれだと HTTPエンジン全面書き直しになるんぢゃないかと想像します。
127.0.0.1以外は接続拒否しますが、INADDR_ANYでバインドして 接続後に判定するという方式。 いろいろな意味で enProxy と似ています。 (Proxomitronとはずいぶん違うよーな気が) (2000/08/24)

THE ANONYMIZER! (proxy)
HTTPリクエストから、User-Agent以外の情報をそぎおとす (不完全、後述) Anonymous Proxy サービス。確かに もぢら や MSIE なんかは いまだに Referer: の使用/不使用の切替ができないので こういったサービスが出てくるのでしょう。
HTTP Specには「From, Referer, Accept-Language は個人情報を 表すことがあるので、送信する場合はユーザーに注意を促せ」 と書いてあるんですが、Netscape や Microsoft がこれを真面目に 読んでいるとは思えない。
User-Agentを残したり、「匿名だよーん」と宣伝してるあたりが なんか中途半端な気もしますが、さすがにUser-Agentを削ると Frame なページが見えなくなったりするからでしょう。
User-Agent: Mozilla/3.01 [ja] (via THE ANONYMIZER!)
User-Agent: Mozilla/2.0 (TuringOS; Turing Machine; 0.0)
しかも実際に削っているのは From: とReferer: だけで、あとは そのまま素通しのようです。Via: や Forwarded: も しっかり残ります。おーい、バレ(て)るぞー。

最近では「User-Agentの最初の"("以降を置き換える」 方式になったようです。1998/Aprより観測。 依然 Referer: やら Via: やら UA-OS: やらは素通しです。(1999/05/26)

2000/03/06 現在、削除ヘッダ
Connection, Cookie, From, Proxy-Authorization, Proxy-Connection, Referer, Via, X-Forwarded-For
改変ヘッダ
Accept-Encoding, User-Agent
Forwarded:等 は削らない模様。

Another_HTML-lint
HTMLチェッカ。Another HTML-lint(htmllint)自身はHTTPはしゃべらず、 CGIとして設置 した際に取得機能がつきます。
Range: bytes=0-524288     (${MAXHTMLSIZE:=512}*1024)
User-Agent: Another_HTML-lint/0.97 +libwww-perl/5.48
ANT Fresco
Acorn RISC 専用ブラウザ。 AcornのNCにも採用。 "Mozilla" はユーザーで設定できるようです。
User-Agent: ANT Fresco/1.31 (RISC OS 3.70)
User-Agent: Mozilla/2.0NC-1 (compatible; NCBrowser/1.24; ANTFresco/1.51; NC OS 1.15)
User-Agent: ANT Fresco/1.60 (RISC OS 3.50)

AOL TurboWeb (proxy)
ようやっとマトモなヘッダをつけるようになったようです。 3.2に入れ替わったのは1997 03/04.
Via: by AOL TurboWeb
Via: 1.0 AOL TurboWeb (3.1)
Via: 1.0 www-aw7.proxy.aol.com:11523 (AOL TurboWeb/3.2)
Apache開発メンバーの評判は悪いです。 似たような話は RFC 2145 で述べられてたりする。

ApacheBench
HTTPdベンチマークプログラム。 超有名WWWサーバー Apache に附属しているもの。 ZeusBenchが元になっています。 (個人的には ZeusBench の名前は残してもよかったんじゃないかと 思うんですが…) (1999/06/05)
User-Agent: ApacheBench/1.3
Aplix
Aplix製のブラウザ一群。資源の限られた組込用機器のための GameSockライブラリを使用しているのが特徴。
User-Agent: Aplix HTTP/1.0.1
タイトー M88/X55用ブラウザ
User-Agent: Aplix_SEGASATURN_browser/1.0 (Japanese)
User-Agent: Aplix_SEGASATURN_browser/1.4 (Japanese/PLALA)
セガサターン・インターネット用ブラウザ
User-Agent: Aplix_SANYO_browser/1.0 (Japanese)
三洋 インターネットテレビ内蔵ブラウザ

appie
(WRD) Walhello検索エンジン用ロボットだ ということになってますが、えらく緩慢な上(月イチくらい?) 再帰性がなく、他のサイトの統計にもほとんど出てきません。
ホームページ(ツッコミ不可)には 大量の利用者追跡用のゴマが撒かれていていや〜んな感じ。 (2000/10/17)
User-Agent: appie/1.1     (2000/07/30-)
From: walhello@walhello.com
Accept: text/*
Arachne
(BW) DOS用ブラウザ。日本語は出ないので国内ではほとんど見かけません。 →WebBoy (2000/02/18)
User-Agent: xChaos_Arachne/1.48;beta (DOS x86; 800x600,256c; http://home.arachne.cz/)
Accept: */*
おすすめは DR-DOS になってますが、Win95のDOSモード (DOS窓はダメ)でも マウスドライバとパケットドライバを用意すれば動きます(当然か)。 NT でもネットワーク回り以外はコマンドプロンプトで動いてしまう。

Arachnoidea
ヨーロッパ専門の多国語検索エンジン EuroSeek(tm) のロボット。 2回目以降は典型的な HEAD→GET(IMSなし) である模様。 きっちり10秒間隔を空けてきます。 (wget -N -r -w 10 と似通った動きだが wget そのものではない、はず)
むこうの人が "internationalized" "multilingual" といった場合には 通常は多バイト文字系は入っていません。
~1997.05
User-Agent: Arachnoidea
Referer: http://euroseek.com
1997.08 ~ 1999.02
User-Agent: Arachnoidea
Referer: http://www.euroseek.com
From: team@euroseek.net
1999.02 - 2000/05/11
User-Agent: Arachnoidea (arachnoidea@euroseek.net)
No Referer
From: arachnoidea@euroseek.net
2000/07/28 -
User-Agent: Arachnoidea (arachnoidea@euroseek.com)
From: arachnoidea@euroseek.com

1999.02以降は From: arachnoidea@euroseek.net になってますが、 これは届きそうにありません。以前の team@euroseek.net を使うのが正しいようです。 2000/07以降で使われている arachnoidea@euroseek.com は ちゃんと届きそうです。 (2000/07/29)

ArchitextSpider
(WRD,obsolete) Excite用の 検索エンジン用ロボット。 以前は Excite に "ArchitextSpider" を明示した文書があったような 気がしますが、今では RXP へのリンクで お茶を濁しています日本語版では明示 されてますが、単に昔に和訳した文書をそのまま ほったらかしているだけのような。 (2000/07/24) →[Excite w.libwww-perl]
User-Agent: ArchitextSpider
From: spider@atext.com

2001/05/22 から /robots.txt だけをホスト分散(30くらい)で 狂ったように持っていっています。1日1500回はやりすぎだと思う。 (2001/05/24)

Aruyo
(2002/04/29) 検索エンジン用ロボット。 検索そのものは Namazu かもしれない。
一応 RXP には従っている模様だが、 常に 爆装 しているので DoS 攻撃機となる場合もあり。 IIJ4U のダイアルアップ領域から更新を行うらしく、 クライアントアドレスは一定しません。 詐称している方は "[Aruyo]" と表示しておきます。
ClientHost: h*.p253.iij4u.or.jp [210.130.253.*] (IIJ4U dialup region)
User-Agent: Aruyo/0.01 (http://www.aaacafe.ne.jp/)     (2002/02/16-2002/04/03)
From: postmaster@aaacafe.ne.jp
User-Agent: Mozilla/4.0 (FreeBSD; U;with aruyo0.01)     (2002/04/24)
User-Agent: Mozilla/3.0 (FreeBSD-4.0;http://www.aaacafe.ne.jp/ ;aruyo0.01)     (2002/04/27-2002/05/29)
From: support@aaacafe.ne.jp
User-Agent: Mozilla/3.0 (aruyo/0.01;http://www.aaacafe.ne.jp/ ;support@aaacafe.ne.jp)     (2002/06/03-)
If-Modified-Since: legit
朝日奈アンテナ
更新時刻チェッカ。「アンテナ」の元祖。 出力を入力として使えるのはこれが最初だったと思います。
大昔(2.0以前) のものは HEAD 発行でのチェックが可能ですが、 最近(2.1付近) のものは アーキテクチャ変更か 腐れサーバー対策のためか HEAD を発行することは ありません。キャッシュファイルか リモートアンテナ からの情報がある場合のみ IMS がつきます。 このIMS値はサーバーからもらったLast-Modifiedではなく、 最後にチェックした際に作ったキャッシュファイルの時刻。 (2000/02/14)
User-Agent: Asahina-Antenna/1.11
User-Agent: Asahina-Antenna/1.957 (libhina.pl/0.05 ; libtime.pl/0.01)
User-Agent: Asahina-Antenna/2.196 (libhina.pl/0.58 ; libtime.pl/0.05)
Referer: 設定可能
「朝比奈」ではなく「朝日奈」です (カタギな人は間違えやすい)。 普通の辞書には前者しか含まれてませんが、ちゃんと由来があるので 尊重してあげましょう。

ASPSeek
検索エンジン(用ロボット)。 "search engine"だと言っているが、収集と検索の両方が同梱。 MySQL(かOracle)を併用。 "ASP"は ASPLinuxのブランドで、 まんま"application service provider"らしい。
ソースを見る限り IMS と If-None-Match の両方を使うように なっとるよーですが、当サイトでは事象が少なく観測せず。 INM を使う検索ロボットはこれが初めてではないでしょうか。 →Enfish Tracker
設定ファイルにて IMS,INM,Host以外は追加、UAは上書きが可能。
(If-Modified-Since:)
(If-None-Match:)
User-Agent: ASPSeek/1.2.3
User-Agent: ASPSeek Portal Edition
(Accept-charset:)
C++で書かれているが、sprintf(str+strlen(str), ...)なんてのを 常用するのはまずいのでは…

Astra
Mercury Interactive Onlineの Webサイト管理ツール Astra SiteManager。 HEAD であっても律義に(?) IMS を発行するのは、 おそらく GET とプログラムを共有しているためでしょう。
User-Agent: Astra/1.0 (WinNT; I)

Autonomy
自律探索エージェント。本当にこれが Autonomy Corp.のものなのかは 確信が持てない。バージョン番号もそれっぽいし多分正解でしょうけど…
URLが"autonomy"でないのはすでに取られたからとも思える。
User-Agent: Autonomy/1.1
User-Agent: Autonomy (Windows; I; 16bit)    体験版のバイナリで確認

Auto-Proxy Downloader
Microsoft Internet Explorer 3.02 (つーかwininet.dll) が、 Proxyの自動設定 をダウンロードする時にだけ使う名前。 ここで述べなくてもサイト管理者の方は昔から知ってたんでしょうね…
User-Agent: Auto-Proxy Downloader

Netscape やMSIE4以降では 通常と同じく "Mozilla/..." をよこします。

AvantGo
AvantGoシステムの中でHTTPをしゃべるものは がありますが、下記がどれなのかは不明。 多分ブラウザだとは思いますが… (1999/10/15)
User-Agent: Mozilla/3.0 (compatible; AvantGo 3.0)
CNETの表記では「アバントゴー」 ですが、読みは「アヴァンゴー」だと思います (フランス語混じりで「前ニ進ム」)。
AvantGo HTMLスタイルガイド

AVE-Front
アクセス製の ITRON用ブラウザ。 志高いTRONが わざわざ もぢら を名乗らんでもええじゃろ〜に。
リンク先にいい所がないので、記述のある ニュースレター を挙げておきます。 →NetFront
User-Agent: Mozilla/1.1N AVE-Front/1.0 (BrowserInfo Screen=640x480x256; InputMethod=PEN, KEYBOAD; Page=250K;)    (sic)
User-Agent: sharp wd browser/1.0[ja](MR-1/1.0) AVE-Front/1.0 (BrowserInfo Screen=640x480x256; InputMethod=PEN, KEYBOARD; Page=512K;)
User-Agent: sharp wd browser/1.0[ja](MR600/1.0) AVE-Front/1.0 (BrowserInfo Screen=640x480x256; InputMethod=PEN, KEYBOARD; Page=511K;)
User-Agent: sharp wd browser/1.0[ja](MR-2/1.0) AVE-Front/2.0(BrowserInfo Screen=640x480x256; InputMethod=PEN, KEYBOARD; Page=1.8M; Category=WP; CPU=x86; Storage=1G; Product=SHARP/WD;)
User-Agent: sharp tv browser/2.6[ja](PC1/1.0) AVE-Front/1.0 (BrowserInfo Screen=640x480x64K; InputMethod=REMOCON; Page=490K; )
User-Agent: Mozilla/1.1N So-netStation/1.0 AVE-Front/1.0 (BrowserInfo Screen=640x480x32K; InputMethod=PEN; Page=600K; )
User-Agent: Mozilla/1.1N AVE-Front/1.0(BrowserInfo Screen=640x480x256; InputMethod=PEN,KEYBOARD; Page=512K; Category=PDA; CPU=x86; Storage=NO; Product=Fujitsu/Debut;)
User-Agent: Mozilla/1.1N AVE-Front/1.0 (BrowserInfo Screen=640x480x256; InputMethod=PEN, KEYBOARD; Page=250K; Category=WP; CPU=V810; Storage=NO; Product=NEC/VX601; )

sharp wd てのは 書院です。 ブラウザとしての能力は AVE-Front のバージョン番号で見るのが 正しいようで。 (MR-2では わざわざ「HTML3.2対応」と言っている所を見ると、 中身はNetFrontと思われる) ホントに TRON なんでしょうか。

Debut て InterTOPのことですかね。 →eNavigator

VX601 てのも何だかわかりません。 文豪なら 型番は "JX" のはずだし…

このくそ長い UA は一応 Client-Specific Web Services by Using User Agent Attributes (筆者はアクセス所属) という名前で W3C Note に なってるのですが、他のブラウザで採用した例はありません。 キャッシュ的にもやさしくない。

[av-Mercator]
Mercator は AltaVista の Scooter とは無関係のはずだったのですが、 Mercatorのホームページ によると AltaVista Search Engine 3 になったとあるので、 あるいはこれかもしれません。 年末にかけていろいろといじくっているようで、 UA文字列が変化しています。

Mercator-1.0 とはヘッダ(Accept:)が違い、 robots.txtを拾う頻度や再帰の仕方など 挙動もだいぶ違っているので(単なる設定の違いかもしれませんが) "-1.0" とはついてますが Mercator-1.0 とは別モンでしょう。

基本的に 旧Scooter は 画像は拾っていなかったのですが、 画像検索 を提供するようになったためか画像も持っていきます。 (画像だけあとでまとめて持っていくのでブラウザとは取得特性は違う)

UA にはホスト名と個別ID?が入っているなど、 Dave's Engine 以上にひねくれています。 統計では "[av-Mercator]" としてあります。 (2001/01/16) →Mercator,→Scooter

ClientHost: hostname.sv.av.com (AltaVista)
User-Agent: hostname_Mercator_id-1.0     (2000/11/24-2000/12/19)
User-Agent: hostname4_Merc_resh_id-1.0     (2001/01/13-2001/01/15 画像は拾わない)
User-Agent: Scooter-hostname_Mc_f65m_id     (2001/01/30- 画像なし)
From: search@support.altavista.com
Accept: text/html, */*

User-Agent: Scooter-1.0     (2000/11-2001/01/11)
From: search@support.altavista.com
From: http://www.altavista.com     (vscooter.sv.av.com)
No Accept:
vscooter の v は確か videoかvisual の v かなんかだったような気が

[beautypacket] (converter proxy)
21世紀になってからはiYappoロボットを 見かけなくなりましたが、2001/04/01 から もぢらなものが 観測されています。 ついにニセもじら化?と思わせておいて実は 帯域削減変換器の「ビューティーパケット」 のようです。 UAだけはオリジナルのものが残るのですが他のヘッダが完全に 入れ替わるみたいで、Referer: は、帯域削減前のURLに変換されます。 精密な判別を行なっていると「怪しい」と思われそうです。
分類としてはproxyというかゲートウェイなんですが、 Proxy統計のほうで"[beautypacket]"としてあります。 →Ginga,PDXGW, GetHtml (2001/04/07)
Clienthost: queue.yappo.ne.jp[202.221.244.156] (bp.to)
User-Agent: original User-Agent
X-Forwarded-For: clientIP
From: ko@yappo.ne.jp
Referer: logical referrer
X-Uid: ####
B-Collector
アクセス間隔が緩慢で脈絡がないので何なのかよーわからんのですが、 Referer: は、ただの企業のホームページです。

…なんかむしょうに腹が立ちましたよわたしゃ (もっとなんか有用な情報 を提示せんかい←直接グチれよ)
User-Agent: B-Collector/0.31u (Linux2.0.30; i586)
Referer: http://www.b-session.com/
単なる URL 収集プログラム」ぢゃわからんよなぁ

BackRub
(WRD) Webページの結合グラフ調査用ロボット。 Referer:で見元を明かす ロボットの内では初期のもの。 →Googlebot

BBB
BTRON仕様OS B-right/V R2 (超漢字) の附属ブラウザと思われる。
R1の頃はフリーソフトを作っても勝手に配っちゃダメという つまらん制限がありましたが、最近は 自由になったようです。 ソフトが増えてくればユーザーも増えるでしょう。 (1999/11/15)
User-Agent: Mozilla/2.0 BBB/2.000 (BrightV/2.000)
[Bess]
確証はないが、おそらく N2H2 の カテゴリチェックの ためのロボット。 アクセス間隔は数カ月に一回、同じURLを数時間間隔でGETするという よくわからん動きをします。
偽装しなければならんようなサイトをチェックしてるんでしょうかね? 統計では[Bess]としてあります。(2000/06/06)
Clienthost: birddog*.bess.net
User-Agent: Mozilla     (-2000/06/14)
From: birddog@n2h2.com
Via: 1.0 birddog*:9998 (N2H2 Proxy Server/4.20b)

上記形式 のは 2000/06/14 までで、2000/06/15 からは単に libwww-perl になっています。From もなくなりました。 (イタヅラメールが多かった?) 動作は変わってないので多分同じ物でしょう。 (2000/07/27)

Clienthost: birddog*.bess.net, 209.102.77.*
User-Agent: libwww-perl/5.XX     (2000/06/15-)
Via: 1.0 birddog*:9998 (N2H2 Proxy Server/4.20b)

実は数回だけ (2000/06中旬) "N2H2-BirdDog/flyingace" とついた ものを観測しており、これには Referer がついています。 たどると Bess や Searchopolis 用のロボットであることが明記されています。 現在動いている物がこれと同じ物かは不明。同じような気がしますが…

User-Agent: N2H2-BirdDog/flyingace-1.071
Referer: http://duke.bess.net/~larry/bots/flyingace.html
From: Larry Gilbert <larry@n2h2.com>
Big Brother
(WRD) シェアウェアのリンクチェッカ。User-Agentに 作者のホームページ が埋め込まれているけど、宣伝のためかなぁ。
User-Agent: Big Brother (http://pauillac.inria.fr/~fpottier/)

BlackJumboDog (proxy)
札幌WinProxy

BMChecker
ファイル・ブックマークのリンクチェッカ。Win32用。 なぜかAcceptを二回吐いたりする。 (1.18) 
UIや性能については、 問答無用で全部リンクチェックする事以外は 特にクセがないので、いいんでわないでしょうか。 ファイルをチェックさせると爆撃モードになるけど、 ブックマーク管理が主であればそのままでもいいような気が。 (1999/07/01)
Accept: text/*
Accept: text/*
User-Agent: BMChecker
bmChecker
リンクチェッカ。Winなperl。 BMChecker とは全然別モノ。 ありきたりな名前では衝突する典型例。
HEAD固定。 Accept-Languege は Hyd-Http.pm固定ヘッダなので、モジュール自身を改造しない限り修正不可。
Accept: */*
User-Agent: bmChecker Hyd-Http.pm/0.62 (http://way.direct.ne.jp/)
Accept-Languege: ja, en

perlで書かれてますが、本体にもモジュールにもバグが 何個か入っていてまともに動きません。 (API変更が原因のような匂いがする。) 気合で虫とりすべし。 v 1.1.1でも根本的には直っていない。

Accept: text/plain, */*
Accept-Language: ja, en; q=0.5
User-Agent: bmChecker Hyd-HTTP.pm/1.1.1 (http://way.direct.ne.jp/HTTP/Perl-Module/)
Accept-Charset: Shift_JIS, ISO-2022-JP; q=0.8, EUC-JP; q=0.6, *; q=0.01

Bookmark Mate
ブックマーク管理ツール。 ローカルではなく bookmarkonline.com 上に保存するようにできるので、 どこからでも参照できるというのが売り、の模様。 定期的に server?.bookmarkonline.com:888? に接続して、現在の ブックマークを保存するようです。
HTTP的にはリンクチェッカ。HEADのみ。 更新検出もできるようですが、検出の条件が不明。 (bookmarkonline.com側で判定する?) (2000/03/14)
User-Agent: Bookmark Mate
Bookmark Update Checker
おそらくBookまーくの 更新検出用ロボット。 一日おき てことになってますが実際はもっと頻繁です。 (ユーザー毎になってるのかもしれない)
HEAD しか使ってないので niftyではうまくいかない んでしょう。 Netscape-Enterpriseで良く観測される、 GETは200だがHEADが404になる現象が原因。 どんな対処ロジックを組み込むかお手並拝見です。 (2001/02/21)
Clienthost: hangedman.fsi.ne.jp [210.199.215.14] == www.bookmark.ne.jp
Request-line: HEAD absurl HTTP/1.0
User-Agent: Bookmark Update Checker [http://www.bookmark.ne.jp/]     (2000/07/26-2001/02/18)
User-Agent: Bookmark Renewal Check Agent [http://www.bookmark.ne.jp/]     (2001/02/18-)
BorderManager (proxy)
Novellの ファイアウォール統合ソフト。HTTP的にはlevel-3キャッシュ。 BorderManager Enterprise Edition 3 のHTTPキャッシュは、 2.1以前では行なっていなかった 先読み(read-ahead)機能を持っています。 "BorderManager" とつくアクセスは画像が多く、 大抵はその直前に通常のブラウザでのアクセスがあります。 一応、巡回機能も ついているようです。
User-Agent: Mozilla/4.0 (compatible; BorderManager 3.0)
先読みというのは劇的に効くのですが結構危険な技術で、 予想が外れると無駄な要求を大量に生成することがあります。 今の所、インライン画像などに限定することで 歯止めをかけているようです。(1999/06/22)

なお、Novellのいう "HTTP Acceleration" は先読みではなく、 reverse-proxy (MS-Proxy用語) のことです。 ちょっと読めばすぐにわかりますが一応注意。

BrowserCrasherChecker
「ブラウザクラッシャー検出」 分類としてはvalidatorになるんでしょうけど、 処理が複雑なわりにはやってることは単なる文字列照合。 (スクリプトエミュレーションやバイナリ検証をやるのかと思ってた)
ソース配布もされてますがちょっと古い。 オンライン版 が最新ですが、Referer:とかに やたらうるさいくせに HTTPエンジン周りは全然変わっておらず、 チェック先への要求はなんだかなあ↓です。
Clienthost: [192.244.1.10] cgi.coara.or.jp
Referer: Request URI
Host: hostname w/o port#
Accept: */*
User-Agent: BrowserCrasherChecker 0.11
BSpider
WRD によると RXP には対応しているとありますが、登録されているのは "libwww-perl" がついている昔のもの。 現在の "1.0" (1997 06/-) は対応していないようです (一回だけ読まれているが中身は無視されているような)。 "1.0" から本来の Referer: を渡すようになっていたのですが、 1997 11/26- 以後は空になってしまいました。(1998 01/28)
User-Agent: BSpider/1.00 libwww-perl/0.40     (WRD登録版)
User-Agent: BSpider/1.0     (1997 06/-)
Referer:
From: okumura@rsl.crl.fujixerox.co.jp

Bullseye
端末側に導入するメタ検索エンジン。 存在確認や妥当性検証のために HEAD や GET を検索結果に対して発行します。 メタ検索エンジンなのでアクセスは基本的には つまみぐい的です。
偶然だとは思いますが、バナーに使われているのダーツ板の絵柄は、 同じく端末側メタ検索エンジンの WebCompass(羅針盤)と良く似ています。 (1999/07/01)
User-Agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
bumblebee
おそらくrelevare (旧 Search Works, [Katriona]) のロボット。 主旨としては検索より 専用ポータル作ります らしい。
/robots.txt は持っていってはいますが守ってない模様。
2001/06 になってから、UAには"bumblebee"と入るようになりました。 searchworks.co.uk は他の所に買われてしまったらしく、 24sevennonstoppower.co.uk, relevare.com に変わっています。 なお http://www.24sevennonstoppower.co.uk/ に行っても RIPE Whois に飛ばされるだけです。 (2001/07/04) →[Katriona]
ClientHost: www.24sevennonstoppower.co.uk [212.135.130.131], [212.135.130.13[012345]]
User-Agent: bumblebee@relevare.com     (2001/06/26-)
Accept: text/*
Accept-Charset: ISO-8859-1
Cab
(BW) ブラウザ。Atari ST 用の TCPドライバ(?)、 STiKの 上に 構築されている。
User-Agent: Cab/01.50 STiK/01.07

CacheFlow (proxy)
専用キャッシュサーバー機。 「従来のキャッシュはレイテンシに何ら貢献していない」として やたらに景気のいい口上を 並べているが、よーく読むと先読みをしているわけではなく (やってたら大声で述べるはずだ)、 並列コネクションと自動リフレッシュについて述べていることがわかる。 …Netscapeが先にやってるぞ。
この自動リフレッシュ時には "Mozilla/3.01 (compatible;)" が使われます。 統計では "CacheFlow/2" としてあります。
proxyなのだが、Via:などがつきません。 Xroxy-Connection などは request側にあった Proxy-Connection が加工されたものです。(ある意味正しい動作) これを行なうのは CacheFlowだけのようです。 "Cache-Control: max-stale=0" も、これ以外では 滅多に見かけない。(2000/01/14)
User-Agent: Mozilla/3.01 (compatible; CacheFlow-Cache/1.1 - 10945.R)
User-Agent: Mozilla/3.01 (compatible; CacheFlow-Cache/1.2.00 r11005.R)
User-Agent: Mozilla/3.01 (compatible;)     (自動更新時)
Cache-Control: max-stale=0
Xroxy-Connection: Keep-Alive
Xonnection: Keep-Alive

このエントリを初めて掲載したのは 1999/06 ですが、 この自動更新時(あるいはヒット数維持用)のUAは いまだに多くのログ解析依存症患者を悩ませているようです。

CacheOS 3.0以降では{Proxy-,}Connection の変換はせず、 単に削除します。IMSや If-None-Match: は素通しになったようです。 クライアント側で Cache-Control: max-age=0,max-stale=0 / Pragma: no-cache とかやっても取りに行かないことがあります。 2.0以前ではどうだったか忘れましたが自動更新時はなぜか HOST: と大文字になったりします。 (2000/10/31)

(CacheOS 3.0.14.13679)
HOST: host[:port]
User-Agent: Mozilla/3.01 (compatible;)
Accept: text/html, */*
If-Modified-Since: legitimate
Cache-Control: max-stale=0

CERN/3.0 (proxy)
3.0preでも3.0Aでもありません。(順序は 3.0pre → 3.0 → 3.0A) User-Agentを渡していないproxy要求に対しては、こんな User-Agentに加工されます。libwww/2.17 の持病(仕様:P)のようで、 ほかの名前がついているのも見かけました。
User-Agent: Proxy gateway CERN-HTTPD/3.0 libwww/2.17
User-Agent: Proxy gateway WebTrack-HTTPP/1.2 libwww/2.17

Charlotte
(BW) IBMの大型機VM/CMS用の3270端末のためのブラウザ。 Charlotteとくればアメリカ人は "Charlotte's Web"という児童書 を連想するでしょう。 同様にWilburといえば その本に出てくるブタのことを指します。
(「二年生の時に読んだ」という記述が多い所を見ると、 国語の教科書に採用されていたのかもしれない)

Checkbot
(WRD) リンクチェッカ。本物の Referer: をつけてくれる。
User-Agent: Checkbot/1.42 LWP/5.05

Checker
リンクチェッカ。 ここ へのリンクは死んでます。死んでからもうずいぶん経つんですが、 検索にかけても新しいページは引っかかってこないようで、 もしかしたらもうサポート外or入手不能かもしれません。
User-Agent: Checker/v1.30 libwww/3.0

[Code Red Worm]
Microsoft IIS に感染するワーム。 統計では "[Code Red Worm]" としてあります。
Request-Line: GET /default.ida?XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX%u9090%u6858%ucbd3%u7801%u9090%u6858%ucbd3%u7801%u9090%u6858%ucbd3%u7801%u9090%u9090%u8190%u00c3%u0003%u8b00%u531b%u53ff%u0078%u0000%u00=a
No User-Agent (intrusion binary follows)
この場合、user agent の userって誰だろ(ワームの作者?)

Commerobo
メタ検索エンジン COMMENTON のロボット。 メタ検索エンジンでは リンクチェック用のロボットを持つ物もたまにありますが、 これはもう一歩踏み込んで要約を自分で取りにいって生成するもの。 要約欄を最新にできフォーマットも統一できますが、どうしても 遅い
Range: は使ってませんが 100kbyte あたりで接続を切るようです。
Accept: */*
From: kensaku@po.dcn.ne.jp
Referer: search result page
User-Agent: Commerobo/0.1.0.3 (http://www2.dcn.ne.jp/~kensaku/)

配布版 には From: 発行ロジックや100kB切断は無いようです。 (2001/07/02)

User-Agent: Commerobo/0.1.0.4 (http://free01.plala.or.jp/~commenton/)
Accept: */*
Pragma: no-cache

contype
MSIE4で <EMBED> されたものを見る際に、 Content-Type: の確認だけ?に使われるもの。 MSIE4では 8kByte転送後切断。 MSIE5でも使用している模様だが、当方では再現不能。 PLUGIN.OCX に生息。
User-Agent: contype
従って、ログには MSIE(途中切断) → contype(途中切断) → MSIE と残る。

MSDNによると、MSIE 4.0 以降ではサーバーからもらったContent-Typeを 知っている場合は、嘘でないか 中身もチェックする ようです。 HTMLをtext/plainとして食わせてもplainにならないのはこれが原因ですな。

COPERAWEB
パソコン通信ネットCOPERNICUSからWWWへ出るための専用ブラウザ。 Spyglass Enhanced_Mosaic/2.0 ベース

[COTSE Anonymous Web]
匿名化プロクシ。偽装UA,元Accept:, Host: くらいしか残さないので、 遅いのを除けば 裏が好きな人 が喜びそうな仕様です。 統計では [COTSE Anonymous Web] としています。 (1999/11/19)
Remote-Host: 216.112.42.61   (=anon.cotse.com )
User-Agent: DidYouSeeAnElephant? [en] (X10; cotse; WetElephant99)

Remote-Host: 216.112.42.60   (=anon.cotse.com )
User-Agent: Mozilla/4.7 [en] (compatible; Cotse; DidYouSeeAnElephant?)     (2000/06-)

Child Research Net Spider
CRNナビゲーターの 検索エンジン用ロボット。 奇抜な Referer: だ…
User-Agent: Child Research Net Spider 0.91
Referer: commandline

cURL
コマンドラインHTTPエンジン。 アップロードや範囲指定など、wgetより高機能で小回りが効きそうです。 (再帰機能はない。)
User-Agent: curl/6.4 (config.guess) libcurl 6.4
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*

ただ観測しているのは *.uswal.alltheweb.com (逆索きなし) から Range: 0-15000 がついているもの。 おそらく FAST Search の検索エンジン用ロボットでしょう。 以前の "FAST-WebCrawler" (1999/03/08-2000/02/10) は Range: は つけません。 (2000/03/09) →[FAST-WebCrawler w.libwww-perl]

Cyberdog
OpenDocなブラウザ。"/"がうしろに移っているのは 単なる勘違いか、意図しているのか…
User-Agent: Cyberdog/1.2
User-Agent: Cyberdog 2.0/a1 (Macintosh; PPC)
User-Agent: Cyberdog/2.0a2 (Macintosh; PPC)
User-Agent: Cyberdog/2.0 (Macintosh; PPC)

Dave Garaffa (BrowserWatchの作者)に 指摘 されて 直した みたいです

CyberSpyder
…とくれば CyberSpyder Link Test がメジャーですが、 以前のUser-Agentはちゃんと "CyberSpyder Link Test" だったはずなので、 "CyberSpyder" だけだと確信が持てない。単にこれだけだと オーストラリアのWWWオーサリング会社のことを指すようである。
/robots.txt を持っていきますが、リンクチェックのためだけに これを参照べきかどうかは意見が分かれる所でしょうね。
User-Agent: CyberSpyder
User-Agent: CyberSpyder Link Test/2.0 alpha 2

[cyc-lab Wget]
不明。 再帰っぽいのだが、検索用ロボットなのかメールアドレス収集なのか 検閲用かは、 そもそもドメイン所持者が誰なのかわからんので調べようがない。 (JPNICもGANDIも要するにプロバイダが代行取得している) このヘッダ形式と不定間隔な挙動から、Wgetは単なるHTTPエンジンとして 使われていて、再帰処理部は別にあるような感じ。
/robots.txtを読んだ形跡はないのだが、どこからか供給を受けているのか 微妙に避けているようです。 クラスタされていてクライアントAは何種類かあります。 (2002/01/19)
ClientHost: m*.cyc-lab.com [211.13.216.19*] (*.nethack.co.jp)
User-Agent: Wget/1.6     (2002/01/02-)
Accept: */*

IMS を使えないとか、あまり細かいヘッダ制御ができないてのもあって、 単なるHTTPエンジンとしてならWgetはおすすめしませんが、 人気はあるようで他のプロトタイプ?ロボットで使われているもの見掛けます。

D-Engine
Web掲示板SPAMツール。 同一掲示板へ連続投稿する機能はありません。
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*     (MSINET.OCXのデフォルト)
User-Agent: D-Engine Lite 1.02     (投稿時)
User-Agent: Microsoft URL Control - 6.00.8169 (FORM解析時、MSINET.OCXのデフォルト)
Referer: 「投稿フォーム」
[Pragma: No-Cache]
"Microsoft URL Control" は UA を設定しないようなプログラム でしか観察されないので、無条件でアクセス拒否してもいいんでないですかね

Device Mosaic
商用 Mosaic の供給元Spyglass の 組込用ブラウザ。 IBM の Network Station で採用。 現在はWin32用もある。
User-Agent: Mozilla/DM_3.03 Unix Spyglass/0 (Dec 15 1997)
User-Agent: Mozilla/4.0 (compatible; Spyglass DM 3.1.0; Win32)
User-Agent: Mozilla/3.0 (compatible, Spyglass DM 3.2; Win32)

DiaGem
不明。たぶん検索エンジン用ロボット。 同一ホストへのアクセスは、いったんため込んでからまとめて 行うようで、内部的には凝った作りになっていそう。
ヘッダの構成やきっちり1分間隔という挙動は、 Steeler とまったく同じと言っていいほどです。 提携か共同研究でしょうか。 Steelerの方は 2001/10/06を最後に観測されなくなりましたが… (2001/11/18) →Steeler
ClientHost: crl.00skyrocket.88.178.203.in-addr.arpa [203.178.88.244] (no A)(SKYROCKET/Mitsubishi Electric)
User-Agent: DiaGem/1.0 (crawleradmin@icc.melco.co.jp)     (2001/11/18-2001/12/10)
From: crawleradmin@icc.melco.co.jp
Accept: text/*
Accept-Language: ja,en
Accept-Encoding: identity
Connection: close

結局「いかにも三菱」な名前のDiaGemは ひと月だけ使われて、 ずっと以前に一回だけ使われていた i-mode詐称UA を使うようになりました。にせ i-mode はGoogleに次いで2件目。 きっちり一分間隔も同じです。 /robots.txt を読む頻度がかなり遅いかも。一応守ってはいる模様。 NTTドコモに訴えられるのが こわいのか、 WRDには 登録されていません。 (自主的に登録する人はもうほとんどいなくなってしまった) 統計では "[DiaGem as DoCoMo]" としてあります。 (2002/01/19)

ClientHost: 203.178.88.226 (*.melco.co.jp/*.mind.ad.jp)
User-Agent: DoCoMo/1.0/D503i/c10/ (crawleradmin@icc.melco.co.jp)     (2001/07/03, 2001/12/14-)
From: crawleradmin@icc.melco.co.jp
Accept: text/*
Accept-Language: ja,en
Accept-Encoding: identity
Connection: close
末尾の "/" は printf("DoCoMo/1.0/D503i/c10/%s (%s)\r\n", tanmatsu_id, from); とでもしているせいでしょう

DialProxy
汎用proxy。 proxy時にはVia:等は一切つかない。 1.82以降には先読み機能がついており、 その際は↓のような UA がつきます。 (詐称も可能というか 推奨されている。 めんどくさいのでそのままの場合が多いかも) ただし、1.83以降であっても UA は "DialProxy/1.82;" のまま。 (1999/12/02)
User-Agent: Mozilla/4.0 (Compatible; DialProxy/1.82; Windows95/NT)   (デフォルト)
User-Agent: Mozilla/4.0 (Compatible; MSIE 4.0 DialProxy/1.82; Windows95/NT)
Direct Hit Grabber
(WRD, obsolete) Direct Hit謹製の Popularity Engine をサポートするためのものと思われる。 HotBotと提携して、クリックスルーを統計処理し人気ページが 上位に来るように仕組むという、「他人のpreference活用」型の 情報検索システム。 確かにアクセスログを解析すると、 Direct Hit Grabber が持っていくURLは HotBotをReferer:とするURL からリンクされた ものが大部分である。
User-Agent: Direct Hit Grabber/1.0
User-Agent: Mozilla/4.0 (Direct Hit Grabber)/1.2
研究としては似たようなものはずいぶーんやられてたような 気がするんですが、やっぱアメリカは違うわ… (MITのベンチャー助成コンテストの優勝プロジェクトらしい) (1999/05/30)

詳しいログをとってみるとHTTP-Accept-Charsetなるナゾのヘッダが ついています。

User-Agent: Mozilla/4.0 [en] (Direct Hit Grabber) (1999/02/22-)
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*
Accept-Language: en
HTTP-Accept-Charset: iso-8859-1,*,utf-8     (not Accept-Charset:)
From: DirectHitGrabber@directhit.com
Uses IMS sometimes
DLC
MSIE3以降専用リンクチェッカ。 別にこれといった特徴があるわけではないが、 単機能なのはわかりやすくていいかも。 UIもわりと「わかっている」感じ。
基本は HEAD のみ。 Netscape Enterprise 対策らしき HEAD→404→GET ロジックも 組み込まれている。 Content-Length:0 は何かのライブラリのデフォルト?
HEAD absurl HTTP/1.0
Accept: */*
User-Agent: DLC/0.55
Host: host     (no port#)
Content-Length: 0     (???)
Pragma: no-cache
DocuMagix HotCargo Express
再帰型巡回プリフェッチャ。機能的にはNearSiteに 酷似してます。
User-Agent: Mozilla/1.22 (compatible; MSIE 1.5; Windows NT) via DocuMagix HotCargo Express/1.1 proxied Open-Market    (proxy時)
User-Agent: Mozilla/1.22 (compatible; MSIE 1.5; Windows NT) via DocuMagix HotCargo Express/1.1 retrieval Open-Market    (巡回時)
Forwarded: by http://127.0.0.1/ (DocuMagix HotCargo Express/1.1)

Do!Get's
画像ダウンロード専用ツール。再帰機能はない。
「大きいサイズはスキップする」という機能がありますが、 当然のように受信中の接続切断で実現しています。 もっともデフォルトでは off なので使っている人は ほとんどいないと思われますが… (2000/07/14)
Accept: */*
Referer: usually real referrer
User-Agent: Do!Get's
No Range:
Dream Passport
セガの Dreamcast に同梱のブラウザ。 モノはNetFrontなのですが、 AVE-Front特有の長ったらしい UA は ついてません。
そのうち WebTV や WinCE版MSIE (どっちにしたってMSIEだ) に 入れ替わるみたいです。 SS Internet(Aplix) と NetLink(Planetweb) のなわばり争いと 似ているような気が…(1999/06/10) →Planetweb
User-Agent: Mozilla/3.0 (DreamPassport)
User-Agent: Mozilla/3.0 (DreamPassport/1.01)
User-Agent: Mozilla/3.0 (DreamPassport/2.0)
User-Agent: Mozilla/3.0 (SonicPassport)
ドリキャスのブラウザ名

Drip
画像専用プリフェッチャ。それほど開発時期が古いわけでもないのに RXP未対応とか 爆撃モードは、いまさら指摘してもしゃーないですが、 ユーザーインタフェースのスタイルガイド整合性は 他の巡回ソフトよりはるかに優れています。 (1998.1.27)
User-Agent: Drip

EasyRider
Τεκnεмαの セットトップボックス型ブラウザ。 中身はARMで、ブラウザも独自開発のもの。 ところが "EasyRider" とはどこにも明示されてないんですね。 バナー画面には出ている みたいですが。 (1999/07/15)
User-Agent: Mozilla/2.0 EasyRider-FF/D1.3 (ARM; 32bit; compatible; MSIE 2.0; IA) libwww/2.17 modified

EchO!
確証はないが、おそらく検索エンジン用ロボット。 /robots.txtは持っていっているが無視されている。 (1999/06/15)
User-Agent: EchO!/2.0

「フランス語専門」てのはこれが二つ目。 →Voila(現行), Lokace

EMC Web Hopper
Empirical Media Corp.の 個人嗜好検索エンジン、WiseWireの ロボットだと思われる。 β期間が終ったようなので上のリンクは切れてます。 アイデア自体は以前からありますが、 普及させるなら作ったもん勝ちです。 →WiseWire-Widow(正式サービス版)
User-Agent: EMC Web Hopper

そんなにバッティングするような名前とは思えんのですが、 "Web Hopper" はほかにも存在します。

[e-mining]
企業情報収集サービス e-mining のロボットと思われる。 要するに MarkWatch, WebClipping, i-Scope(netfilter) と同じ民間検閲支援用。 もとは "Enterprise Cyber Cops" という名前だったらしい。
メタ検索を併用しているので、 普通のサイトではあまり再帰しない (むしろ更新チェックに近い) ようですが、 「裏サイト・特殊サイト」 ではドブさらいもやってるかもしれません。 目的からしても当然 /robots.txt は持っていかず。 統計では "[e-mining w.libwww-perl]" としてあります。 (2002/01/24)
ClientHost: em0?.em.gala-net.co.jp [211.4.250.??]
User-Agent: libwww-perl/5.48     (2001/02/02-)
Range: bytes=0-1000000     (2001/12/31-)
eNavigator
Network Computer (現 Liberate) の組み込み用ブラウザ。 国内では 新INTERTopOASYS LX-9500SD にて採用。 他サーバーの統計を見てもマイナー度では突出していて、基本的に 1998末-1999年まで。 Liberate DTV もこの系統と思われます。
富士通側の紹介文 には「ネットスケープ社の先進ブラウザテクノロジーを継承する…」 とありますが、本当かどうかは… NC側の資料 などにはNetscapeとの協力関係はあっても ブラウザ自体に関する記述はない。 (2001/08/22)
User-Agent: Mozilla/3.0 eNavigator (7; 1; Fujitsu; INTERTop; ; (null); 1.0)
User-Agent: Mozilla/3.0 eNavigator (7; 1; Fujitsu; OASYS; 1998.10; (null); 1.0)
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*
Accept-Language: ja-JP
(null) てのは printf("%s", NULL) が漏れているんでしょうな

Enfish Tracker
ローカル型検索エンジン。情報整理ツールともいう。 基本的には自分が貯めこんだe-mailやら文書やらを検索するための ものですが、ホームページ(ツッコミ不可)を 対象にすることも可能。更新間隔や再帰の設定もできるようです。
非ブラウザで If-None-Match に対応しているのは これが初めてでわないでしょうか。
User-Agent: Enfish Tracker
passes IMS and If-None-Match
Enhanced Mosaic
うーん困ったなぁ。"Enhanced Mosaic"だけでは どこのMosaicかわからん。 Spyglass製、 Esplanade製、 Firefox製 (などなど;_;) があるのだが…(同じもんだったりして) バージョン番号から察するにSpyglass製か?
User-Agent: Enhanced_Mosaic/2.10 Win32 WRQ/7
User-Agent: Enhanced_Mosaic/2.10 Win32 Luckman/6
User-Agent: Enhanced_Mosaic/2.00 Win32 FTP Software/Spyglass/3

enProxy (proxy)
proxy切替えツール。 レジストリ等をいじくるのではなく自分がproxyとして動作するタイプ。 おまけで User-Agent と Referer 書き換え機能があります。 *.ini のパーサーに バグ (or 配列要素の参照違い) があるようで、作者の意図したようには UA は書き換わりません。
MUST な Via: がつかないというのは仕様の可能性もありますが、 接続をちゃんと切らない (HTTP/1.1に中途半端に対応している?) のは変です。ブラウザによっては止まるかも。 もっとも今は全然メンテされてないような感じです。 (そもそも作者自身は もう使ってないのでは) (1999/12/03)
User-Agent: enProxy 1.0   (選択肢の一つ)
ヘルプを見ると 127.0.0.1:8080 に bind しているようですが、 実際は INADDR_ANY のようです。

EudoraWeb
Palm用のブラウザ。 二重詐称のバージョンがえらく違う。 JavaScriptには対応してないので、100%サーバーをだます 閲覧性を高める ためてことです。 (2002/01/24)
User-Agent: Mozilla/1.22 (compatible; MSIE 5.01; PalmOS 3.0) EudoraWeb 2.1
Accept: */*
[Excite w.libwww-perl]
不明。検索エンジン用ロボットのような感じですが…
Excite の通常のロボットは "ArchitextSpider" で、 複数のホストで分散取得を行なっているみたいですが、 これは ArchitextSpider との連係を行なっているような感じは ありません。稼働ホストも別。挙動は似通っているところもあります。 /robots.txt は読まないようですが守っている模様 (他から供給を受けてるんでしょう)。 統計では "[Excite w.libwww-perl]" としてあります。 (2000/09/11) →ArchitextSpider
Clienthost: (within Excite NETBLK-UU-199-172-144 netblock, mostly no PTR)
User-Agent: libwww-perl/5.32     (1999/10/14-15)
User-Agent: libwww-perl/5.33     (2000/03/22-2000/06/15)
User-Agent: libwww-perl/5.47     (2000/06/16-)

*.atext.com (これもExcite、ただしネットワーク違い) からも 似たようなアクセスが散見されるようになりました。 こちらのほうは "[atext-Excite w.libwww-perl]" としてあります。

Clienthost: *.atext.com
User-Agent: libwww-perl/5.48 (2000/09/07-)

EZResult
検索エンジン用ロボット。 追加は速いよ 以外の売り文句がなさそうな気がする。 If-Modified-Sinceも使わず、すべての URL を 一旦 HEAD→GET していくのは結構うっとおしいかも。 (1999/05/28)
2000/05/10 から観測しているものには HEAD->GET癖はなくなっています。
なぜか MSIE3のUA-* 系のヘッダがついています。 また、Referer: の正綴りの Referrer: を渡してきます。 (普通のサーバーではログに残らないのでは) (2000/10/22)
User-Agent: Mozilla/2.0 (compatible; EZResult -- Internet Search Engine)
User-Agent: Mozilla/2.0 (compatible; EZResult -- Internet Search Engine acurtis@directhit.com)     (2000/03/29-, from ghost.directhit.com)
Accept: text/html, text/plain
UA-Color: color8
UA-Pixels: 800x600
UA-CPU: x86
UA-OS: Windows NT
Referrer: http://www.ezresults.com/     (not Referer)

[FAST-WebCrawler w.libwww-perl]
おそらく FAST の 検索エンジン用ロボット。 curl を使用していたのは 2000/05/28 までで、 2000/06/11 からは libwww-perl を使用したものに切替えたようです。 FAQ の記述は まだこれを反映していません。 統計では "[FAST-WebCrawler w.libwww-perl]" としてあります。 →curl (2000/06/28)
Clienthost: rdsr5r1.uswal.alltheweb.com [209.67.247.195]
User-Agent: libwww-perl/5.48 FP/2.1     (2000/06/11-)
Accept: text/html
From: gv@fast.no
Range: bytes=0-100000

Favorites Search
「FavoritesSearch〜お気に入り検索〜」 (固有名詞としては空白が入らないらしい)
自動巡回に単純な文字列検索機能を加えたもの。 取得データは全部メモリに蓄えるらしく、巨大文書を食わせると みるみる太り出します。
Accept: text/*
Accept-Language: ja
Date: RFC1123 date
User-Agent: Favorites Search Ver.01.00
No IMS
検索結果の 参照回数を数えるため(だけ?)に、 単にRefresh: で引数を反射する簡易サーバーが18888番で動きますが、 これの出力がなんか変です。 全部 Server: ヘッダになってしまうことより <LF><CR> が問題になるかも。
HTTP/1.0 200 OK<LF><CR>
Server: Favorites Serach; Date: Wed Feb 14 03:24:13 2001 ; Content-Type: text/html; charset="x-euc"; Content-Length: 238;<LF>
<LF>
HTMLヘルプが同梱されているので 「Internet Explorer 4.01SP1が必要」なんですが、 そのことがHTMLヘルプ内に書かれていたりして。 (経験値があれば *.chm はHTMLヘルプだとわかるでしょうけど) 今後は無意味にHTMLヘルプが増えそうでなんかヤです。 ヘルプをあきらめれば IE3 環境でも動きます。 (2001/02/14)

Fenrir
Loki

Flashnavi
自動更新型ブラウザ。旧FreshNews。 やろうとしていることは PointCastや TELETEXTと同様。 バグ報告 出しておいたので、そのうち直ることを期待しましょう…(1997 05/14)
1.2でも直ってないみたいです…こんなんで金とるなよ…(1999/06/13)
User-Agent: Flashnavi/0.37    バージョン1.0?
User-Agent: Flashnavi/0.38    バージョン1.1
User-Agent: Flashnavi/1.2

FlashSite
InContext製のプリフェッチャ。 WebAnalyzerの後継 (→WebAnalyzer) ということだが、 要するに自動巡回機能をつけ加えたものらしい。 一番控えめな設定にしても、当該ページのリンクチェックを 行なうため HEAD 爆撃されることがある。 Content-Typeを見ないらしく、CGIを指定すると発狂することも… (ほんとにこれウリモンか?)
一応robots.txt対応(デフォルトoff)。 From:の設定もあるのだが送信されていない。
User-Agent: Mozilla/1.22 (compatible; FlashSite 1.0; Windows)

Flipper
ベルリン技術大学情報工学科の ドイツ語専門検索エンジン用ロボット。 →KITTY(KIT_Fireball)
User-Agent: Flipper/1.1 libwww/5.0a
[Fluffy the spider]
検索エンジン用ロボット。 全部を網羅するわけではない ので、観測数はかなり以上に控え目。 (2001/11/12)
ClientHost: 208.148.122.16/28 (KEVIN MARCUS (NETBLK-CW-208-148-122-16))
User-Agent: Mozilla/3.0 (compatible; Fluffy the spider; http://www.searchhippo.com/; info@searchhippo.com)     (2001/04-)
Accept: */*
Accept-Language: en
fly
Open Text製の検索エンジン LiveLinkの 収集ロボット、 LiveLink Spider のデフォルト値と思われる。 ここのロボットは過去もいろいろ名前を変えているらしい。 →OpenTextSiteCrawler

AltaVistaやInfoseekも検索エンジンを外販していますが、 基本的にはイントラネット用なのでロボットが外部から 観測されることはあまりありません。 そんな中で OpenTextは外部を含む収集にも良く使われているようです。 UAは完全カスタム可能なので、 "fly" 以外でも LiveLink である可能性はあります。

現在動いているのは、学情センターで運用している Web Search Project のもの。 検索だけでなく テストコレクションの 生成にも使われてそうです。 (2001/05/31)

User-Agent: fly/6.01 libwww/4.0D     (fully customizable)
Accept: */*;q=0.3,text/plain,text/html
Accept: image/png,image/jpeg,image/tiff,image/gif,application/postscript,*/*;q=0.3,text/plain,text/html     (マルチメディア収集設定?)
From: fully customizable

NACSISからは、はっきりとテストコレクション生成用と 述べているものが出るようになりました。 →OpenTextSiteCrawler (2001/12/07)

Folio_Retriever
Folio Infobase のためのオートパイロット型HTTPエンジン。 フリーウェアではなく商品。 (体験版は入手可能) とりあえず "V" は入れちゃいけません。
Request-Line: GET /robots.txt HTTP/V1.0
User-Agent: Folio_Retriever
いわゆる巡回ソフトの中で「同一サーバーに対してはアクセス間隔をあける(デフォルト5秒)」 になっているのは珍しい。

Four11 Web Crawler
メールアドレス探索ロボット。この手のロボットは比較的 挙動がおとなしいようです。 →WhoWhere,Roverbot
カンマで区切られているのは、たぶん 2回送信された User-Agent を サーバー側で一行にまとめているため。(確証なし) →Python-urllib
User-Agent: Python-urllib/1.2, Four11 Web Crawler

FreeLoader
プリフェッチャ。 フリーだから Freeloader ということで…。 「初期の製品だ」ということですが 私の実感としてはNearSite のほうがずっと早くから こちらに来てました。
もぢらがつくのはhttpエンジンとして 使ってるからでしょうね。(MSIE使うと何になるんじゃろ)
User-Agent: Mozilla/1.22 (Win16: I) Freeloader

FreshEye
東芝の 更新チェッカ+学習型情報フィルタ。 Yet Another にせもぢら。 かなり気合いが入っているように見えますが、Win95用しかないので どの程度なのか確認できません。(手近にはNTしかないんですよーぅ) →indexpert
User-Agent: Mozilla/2.0 (FreshEye)

FrontPage
MicrosoftのHTMLエディタ。
User-Agent: Mozilla/1.22 (compatible; MS FrontPage 1.1)

Fureteur
Multi-Médias Québecの ケベック専門検索エンジン、 Fureteur Québécois のロボット。 彼もReferer:にホームページが仕込んである。

GAIS Robot
検索エンジン用ロボット。 GAIS 自体は強力 grep みたいなもので、特に WWW 用というわけではない。 中正大学から来ていたものは GAIS-WWWの実験用だと思われますが、 最近は SEEDNet搜索引擎用に移行しているようです。
ロボットは gaisindex とは別物ですから .gais_exclude は効きません。 ( RXP には対応している) …(リンクを張って.gais_excludeを持っていかせることはできるかも)
User-Agent: GAIS Robot/1.1B1
User-Agent: GAIS Robot/1.0B2
From: ssc85@cs.ccu.edu.tw
From: hph82@gais.cs.ccu.edu.tw     (1998 01/-)

Gensho Checker
不明。 おそらくYahoo! JAPANの 担当者自作のリンクチェッカかなんかだと思われます。 他のサイトでも、観測されている所はY!JAPANに登録されているようです。 手動起動なのかアクセス間隔は不定。 リンクチェッカっぽいですが GET です。 (2001/07/02)
ClientHost: jdb00.yahoo.co.jp[210.140.123.52],gbaba.yahoo.co.jp[210.140.123.58]
User-Agent: Gensho Checker V1.1     (2001/05/14-2001/06/24)
User-Agent: Gensho Checker5 V1.1     (2001/06/13-15)
User-Agent: Down Site Checker V1.1     (2001/06/24-)
Accept: */*
Cache-Control: no-cache

2001/05/09 までは MSIE4.01(本物ぽい)でチェックしていた模様。

GET HEAD POST
libwww-perl-0.40 に含まれているサンプルプログラムget。 コマンドラインからは
	% GET http://www.somehere.com
と打つことになる。機能は御想像の通り。 新しいlibwww-perl-5.xxでは "lwp-request/1.26" になる。
User-Agent: GET/0.5 libwww-perl/0.40
User-Agent: HEAD/0.5 libwww-perl/0.40
User-Agent: POST/0.5 libwww-perl/0.40
でも HEAD や POST は見たことがない。原理的には PUT や OPTIONS も 可能なはず…

GetHtml
ONCコンバータひゅぅてっちの UA。 むちゃくちゃに安直ですが驚いたことに未だバッティングしていません。 →Hutech, Ginga,PDXGW (2000/10/17)
User-Agent: GetHtml    (2000/10-2000/12?)
Geturl
Wget旧名。 1.3.5というのはWindowsに移植されたバージョンなので、 いまだに使っている人もいるのかもしれない。
User-Agent: Geturl/1.3.5
Wget 1.4.5 は千秋広幸氏による移植があるようです。

Getweb!
再帰巡回プリフェッチャ。 UI的には、左クリックだけではすべての操作ができないという 重大な欠陥があります。(1999/05/30)
User-Agent: Mozilla/4.0 (compatible; Getweb!/2.63)
User-Agent: Mozilla/3.0 (compatible; Getweb!/2.50 [I-O DATA Edition])

IMS成功とただのHEADではネットワーク負荷は全く同じですから、 設定可能ならともかく無条件にHEAD→GET ロジックを採用している人は 勉強不足と思われても仕方ありません。

GetYou!
再帰ダウンローダ。 更新チェック・巡回用ではなく、単にコピーするだけを 設計方針としており、その分軽量で UI も単純になっています。
更新検出はおまけであるせいか(?)、 IMSは RFC850型になってしまっています。 (自分でフォーマットしてるっぽいから言い訳できないぞー)
User-Agent: GetYou! 0.34a (prototype; http://www.educ.cc.keio.ac.jp/~uc06557/)
Accept: *.*
Referer: real referrer
Accept: *.* を使っているツール類はこれだけではないので (GetRight, MemoWeb, IAM, minixpc, ...) そう書いてある資料なり参考書なりがありそうな気がするんですが どうなんでしょ。(1999/09/01)

Ginga
ONCコンバータ。 デフォルトで簡単なアクセス制限機構がついているので、 普通のブラウザからは濫用しにくくなっています。 (2000/10/17)
Accept: text/*
User-Agent: Ginga/1.0.7 (CGI:SERVER_NAME/SCRIPT_NAME http://homepage)
GNNworks
AOL専用ブラウザのブラウザ部分を 取り出して Internet用にしたもの。 GNN に以前置いてあった GNNworks紹介のページは今は抹消されてるようで、 妥当なリンク先が今の所見つからない。 (このページを見つけるもなんか苦労したような気がする。) 今はGNNpressに含まれているんかな…

Googlebot
(WRD) 検索エンジン用ロボット。RXP対応。 おおよそページの更新頻度に合わせたようなアクセスをする模様。 (Googlebot/2 には あまりそのような性質はない) Backrub後継 となっています。おおなるほど。(1999/06/18)
User-Agent: BackRub/2.1 backrub@google.stanford.edu http://google.stanford.edu/
User-Agent: Googlebot/1.0 (googlebot@googlebot.com http://googlebot.com/)
From: googlebot@googlebot.com
User-Agent: Googlebot/1.0 (googlebot(at)googlebot.com)     (1999/11/09-2000/02/17)
From: googlebot(at)googlebot.com
User-Agent: Googlebot/2.0 beta (googlebot(at)googlebot.com)     (2000/02/24-2000/06/23)
User-Agent: Googlebot/2.0 (+http://googlebot.com/bot.html)     (2000/06/28-)
[Google CHTML Proxy]
Google謹製のimode cHTMLコンバータ。 実際には端末には何を使っても UAは "DoCoMo/1.0/P502i/c10" に 固定されます。 電話番号に見えるものは tel:リンクを張る ようになっとるよーです。
imodeに偽装するというのは 現状では珍しいのですが、 そのうちなしくずし的にあたりまえになる、かも。 (常にウソだというわけではないが…) (2001/07/19) →j-mode, IBM Transcoding Publisher →DiaGem
ClientHost: 216.239.35.4
Accept-Language: ja, en
Accept: text/html, text/plain
User-Agent: DoCoMo/1.0/P502i/c10 (Google CHTML Proxy/1.0)     (2001/03/01-)
[Google WAP Proxy] (proxy)
Google謹製のWAP用帯域削減?proxy。 こちらは UAだけは保存する模様。 (2001/12/03) →[Google CHTML Proxy]
ClientHost: 216.239.3?.*
Accept-Language: en
Accept: text/vnd.wap.wml, text/vnd.wap.wmlscript, application/vnd.wap.wmlc, application/vnd.wap.wmlscriptc, text/x-hdml, application/x-hdmlc, application/x-up-alert, application/x-up-cacheop, application/x-up-device, application/x-up-digestentry, text/html, text/plain
User-Agent: Origianl-UA (Google WAP Proxy/1.0)
[unknown goo]
不明。 単純に見ると検索エンジンロボットというより更新チェッカのような感じ。 気に入ったURLをあらかじめソートして毎日持っていきます。 mogetと同様に取得間隔が空かず、 URL末尾の "/" を削り落して 301 を食らいます。 ただ再帰性がないので通常は DoS にはならない。 初めから特定のURLだけ持っていくので、 よそからURLの供給を受けていると思われます。
request-line以外のヘッダは一切なし。 IMSのたぐいは使いません。 Host: もないのでバーチャルホストでは困りそう。 統計では "[unknown goo]" としてあります。 (2000/10/29)
Clienthost: ipt10{1,2}.goo.ne.jp [202.229.31.{4,5}], goo101.goo.ne.jp [210.150.25.1]
No User-Agent:     (2000/10/18-)
No If-Modified-Since:, Host:, ...
GoTit
再帰ダウンロード+リンク書き換え+巡回。 Macにはこの手のツールでまともなものが少ないので、 貴重と言えば貴重ですが… 無限再帰下降・常時爆装・RXPなしはきっつい。 (wgetの--no-parent相当はあるが、他の停止条件はなさそうだ…) UA, Referer は偽装可能。他のヘッダにユニーク性があるので、 厳密に判別したい人はUA以外を見るべし。 (2002/01/28)
User-Agent: GoTit/3.0
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, image/xbm, image/png, */*
Accept-Charset: Shift_JIS,*,utf-8
Accept-Language: ja, en
Cache-Control: no-cache
でもMacOS8.6以上らしい。試せない。 query string のことを PERL と述べているのがナイス。 ナイスぢゃありません

griffon
(WRD) OCN naviの 検索エンジン用ロボット。 IMSは使っていない。 うんちくページから 察するに gazz の実用版?
ひとしきり /hoge/boge.html を持っていった後、 リンクがなくても /hoge/ も持っていこうとします。 →[WebSENSE robot] (2000/11/07)
User-Agent: nttdirectory_robot/0.9 (super-robot@super.navi.ocn.ne.jp)
From: super-robot@super.navi.ocn.ne.jp
User-Agent: griffon/1.0 (griffon@super.navi.ocn.ne.jp)     (2000/02/04-2001/03/18)
From: griffon@super.navi.ocn.ne.jp

2001/04/02 で ロボット検索は終了 てことで、今後は griffon は使われなくなるのでしょうか。 当サイトでは 2001/03/18 が最後のアクセスでした。 (LookSmartは ディレクトリサービスなので代替にはならない) (2001/04/03)

Gulliver
(WRD) 検索エンジン用ロボット…だと思うんだけど… 作者のページ?にはロボットのテストのためのリンクが張りめぐらされている。 でも稼働している prod.dwsearch.com とはどんな関係があるんでしょうね。 まさかNetAnswerのロボットが これだってことはないよねぇ…
ありがちな名前なので衝突している可能性も否定できない。(1997 01/07)
northernlight.comから しきりにアクセスがあるが、認証かけてて見れなくなってるの。 …ケチ(1997 03/29)
/1.2 になった時点で公開 するようになったようです。アクセス間隔は1分。(1997 12/23)
/1.3 は HEAD と GET を併用します。1999/11 あたりから稼働。 HEAD間隔は最大半月くらいまで伸びるようで。 更新間隔と人気で間隔が決まる? /1.2 は2000/02/22を最後に停止。 (1.3と協調動作しているような感じはない)
たまに逆索きのない 216.34.109.190 て機械からも来ますが、 peabody.stratus.northernlight.com というホストらしくニセモノでは ない模様。(正索きもできない) (2000/07/18)
User-Agent: Gulliver/1.0
User-Agent: Gulliver/1.1
User-Agent: Gulliver/1.2   &nsbp; (1997/07/05-2000/02/22)
User-Agent: Gulliver/1.3     (1999/08/15-)
Accept: text/*
Accept-Encoding:     (空欄)
From: crawler@northernlight.com
「マイク・マリガンの蒸気ショベル」は、 米国ではそれなりに有名な絵本です。 (どっかで聞いたことのある名前だと思ったら…)

Hatch Meta Checker
Hatch自体は 番号→URL変換サービスなわけですが、 内容による検索も できるようになってます。これのキーワードを拾うための アクセスでしょう。
User-Agent: Hatch Meta Checker

[he.ne robot]
不明。 検索エンジンというより、まるごとダウンロード系のプリフェッチャ的な 挙動で、HTML以外も見境なく持っていきます。 爆撃密度 5req/sec くらい。 見事なまでに robots.txt は無視します。 相対 URL の解釈が少し腐っていて404を大量発生することもあり。
he.net自体は Colocation屋ですが、当ロボットのアドレスは顧客に割り当てる アドレス領域にではなく he.net自身のためのような雰囲気です。 他のサーバーのログにも現れているので、一利用者のプリフェッチャ ということでもなさそう。 統計では"[he.net robot]"としてあります。 (2001/04/09)
ClientHost: analysis.he.net [216.218.130.79]
User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)     (2001/02/08-)
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*
Accept-Language: en-us
No Accept-Encoding
[Hi-Fi-Net Checker]
不明。一日一回、ピンポイントで GET を発行している。 統計では "[Hi-Fi-Net Checker]" としてあります。 (2000/02/08)
Clienthost: truffle.hi-fi-net.com (== start.hi-fi-net.com)
No User-Agent 1999/12/06-
HotJava/3
(BW) Javaベースのブラウザ。 HotJava/1.0 より若干速くはなってるようですが、 激重であることに変わりなし。 1.0 にはあった櫛状の転送メーター、HTML文法チェック、 「タグを表示」、デューク君が削られているのがかなり残念かも。
単に "Mozilla/3.0" だけだと HotJava以外と思しきもののほうが圧倒的に多くマッチします。 最低でもAcceptくらいは条件に追加すべきでしょう。 精密な判別方法は たぶんありません。 (2000/07/13)
User-Agent: Mozilla/3.0     (Solaris版デフォルトJRE)
User-Agent: Mozilla/3.0 (x86 [ja] Windows NT 4.0; Sun)     (Win32版 JRE1.1.7)
User-Agent: Mozilla/3.0 (sparc [ja] Solaris 2.6; Sun)     (sparc版 JRE1.1.7)
Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2     (Javaのデフォルト)
「タグを表示」できたのは HotJava/1 と Panorama くらいしか 見たことがありません。(HTMLエディタではあるかもしれない) 埋まっている<A name>を掘り出すのにけっこう便利だったのですが

httpdown
プリフェッチャ。ううむ改心したか…
User-Agent: httpdown 3.0 using http.cc
User-Agent: httpdown/3.2 http.cc/3.2

http engine
リンクチェッカと思われるが…正体不明。 なぜ もぢら を名乗るかはなぞ。 他の所からも来ているので、一般に入手できる プラグインかなんかでしょうけど…気になるー
User-Agent: Mozilla/3.0 (http engine)

HttpGet (TEEN)
そのまんま。 TEEN は PC-98 や 88VA で動かす TCPスタックで、ありがちな詐称UAではありません。 ただ他のサイトの統計で見かけることはまずなく、 当サイトで観測されるのも 特定少数によるもので統計的有意性は小。
User-Agent: HttpGet/0.5g (PC-9801; PC-88VA; TEEN)
"httpget" という名前のプログラムは 、 その中でUA をつけるようなものは です。

http://www.almaden.ibm.com/cs/crawler
WebFountain

HTTrack
再帰ダウンローダ。 帯域制限機能は一応ある(-A)のだが、取得間隔ではなく 平均転送量で制限しているので、proxyが挟まっていると うまく制限されない気がする。 デフォルトでは帯域制限なし(爆撃)、10並列接続。
UNIX版とWin32版があるが、どちらもUAは詐称 "Windows 98"。 MSIEではないが "deflate" があるのが要注意。
(Referer: )
(Cookie: )
Connection: close
User-Agent: Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*
Accept-Language: en, *
Accept-Charset: iso-8859-1, *
Accept-Encoding: gzip, deflate, compress, identity
Hubater
おそらくディレクトリ自動生成ロボット。 間隔はえらく緩慢で一日一回あるかないか程度。 似たようなものにLinks2Goがありますが、 登録されているものを見る限りあんまし賢くなさそうです。 タイトルは<TITLE>をそのまま拾っていないものもあり。 自動生成?
Accept: は Javaで書かれていることを思わせます。 (2000/08/21)
ClientHost: 209.114.176.250
User-Agent: Hubater (http://www.hubat.com)     (2000/04/15-)
Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
Hutech
ONCコンバータひゅぅてっちの UA。 さすがに "GetHtml" はヤバイと思ったのか "Hutech" に変更されています。
ポートは80固定ですが GETベースの あらしに使われないか ちょっと心配。 (2001/07/07) →GetHtml, Ginga, PDXGW
ClientHost: www.hutech.ne.jp [211.10.128.151] (no PTR)
User-Agent: Hutech2.01[original UA]     (2001/01?-)
Accept: text/*
サービス名ではなく社名としては ヒューテック が正しい。

I-Proxy (proxy)
Unified Research Lab.の 統合パッケージ、I-Gear に含まれている Proxy Cache。 おそらく以前はQuickSilver(←死リンク) だったものでしょう。→QuickSilver
Forwarded: by http://www.corp.urlabs.com:8002/ (I-Proxy-1.3.4 + I-Guard-2.0.4 + I-Visor-2.1.2 + History-1.11 + Ding-1.7) for wlm-as2s05.erols.com

ia_archiver
Internet Archive Archiver (うーむ)。収集ロボット。 発行元のAlexaInternet Archiveの 違いがよくわかりませんが (設置場所も構成員も同じ)、 蓄積が Internet Archive で それの利用が Alexa ということなんでしょうか。
テラバイト級の蓄積技術というのは それなりに面白い分野なので、今後とも地味にがんばって欲しいものです。… →[Alexa Crawler], IAArchiver
User-Agent: ia_archiver/1.3
User-Agent: ia_archiver/1.6
User-Agent: ia_archiver     (1998/05/28-)
From: crawler@alexa.com
設立者のBrewster Kahle氏は WAIS の発明者です。
経済原則には勝てなかったらしく、 ランキング用のブラウザアドオンを配り始め、 更には Amazon.comに買収されてしまったという… (1999/09/05)

IAArchiver
Internet Archive Archiver。 Internet Archiveの収集ロボット。 依然 ia_archiver も稼働しているので、何が違うのかは不明。 挙動は似てますが。(バージョン番号つけただけ?) (2003/01/15) →ia_archiver
2003/01/07-
ClientHost: 209.237.233.192
User-Agent: IAArchiver-1.0
From: info-loc@archive.org
iBOX
日本電子計算機のインターネット端末 iBOX。 Mozilla/2.0 を名乗ってますが Java はまだ使えないはず…(1997 3/20) どこまで対応してるんでしょう。
User-Agent: Mozilla/2.0 (compatible,iBOX)
Mozilla/3.01 (X11; iBOX; powerpc)

IBrowse
(BW) Amiga用ブラウザ。"AmigaOS" の字がまぶしい。 でも ";" で区切るのは変だぞ。気持ちは分かるが。
User-Agent: IBrowse/1.02demo; AmigaOS/3.1; HTLib/1.02
BrowserCapsの 投票には意外にAmiga系のブラウザが多く、実は結構有名な ブラウザなのかもしれない。

Foliage iBrowser
Windows CE用ブラウザ。 1.10beta7以降は腐れサーバー対策のため Mozillaになります
User-Agent: Foliage iBrowser/1.0 (WinCE)
Referer: www.foilage.com     (固定)
User-Agent: Mozilla/2.0 Foliage-iBrowser/1.1 (WinCE)     (1.10b7以降)
iCab
(BW) Macintosh 専用ブラウザ。 一応商品化を目指しているはずですが、かなり長いこと プレビュー版を配っている状態が続いています。 組込の使用期限が切れると、"icab" を含む URL しか アクセスできなくなります。 (== "#icab" "?icab" を追加すれば大抵のページは継続して見れる)
腐れ HTML に対しては 初代 HotJava のようにエラーを表示させる ことができます。 HotJava もけっこう厳しいですが iCab様もなかなかにうるさい。 <LINK REL> に対して専用ボタンを用意してくれるのも NCSA Mosaic 3.0 以来の希少機能でしょう。 なお、当ページのように i18n HTML だとハナから文句を頂戴します。
User-Agent: iCab/Pre1.2 (Macintosh; I; PPC)
User-Agent: iCab/Pre2.2 (Macintosh; I; PPC)
User-Agent: iCab(J)/Pre1.6 (Macintosh; I; PPC)     (日本語版修飾)
User-Agent: iCab J/Pre1.8 (Macintosh; I; PPC)     ()
User-Agent: Mozilla/3.0 (compatible; iCab Pre1.6; Macintosh; I; PPC)     (Mozilla詐称モード)
User-Agent: Mozilla/4.5 (compatible; iCab Pre2.2; Macintosh; I; PPC)     ()
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, image/xbm, image/png, */*
Accept-Language: {en,ja}
iCab は書かんでもええじゃろと思ってましたが ダメらしーです。 私は 1.2 previewのころから試用してましたが、 軽いと言われる割にやたら重いので常用はしてません。 (普段は CyberDog/2.0 と MSIE/3.01)

i-Checker
HTMLアクセシビリティチェッカ。 毎回 HEAD→GET しますが、HEADの段階で302などを済ませてしまおうと いう魂胆のようです(んなことしても意味はないんですが〜)
Host:がないので困る場合もあるかも。 あと心配なのは濫用されるかもくらいですか。 統計では "[HIROBA i-Checker]" としてあります。 自分とこで動かす用の pChecker.exe はHTTPエンジンとレンダリングにMozilla(NN)を使うため、 Mozillaと区別がつきません。 (2000/11/01)
Clienthost: www.hiroba.japan.ibm.co.jp
Accept: */*
User-Agent: Mozilla/3.0 (HIROBA)
No Host:
IE_Fev
ブックマークチェッカ。 HEAD発行 (と 綴訂正)は、v1.61a以降。 それなりにバージョンアップされてるようですが、 1.61以前は区別がつきません。 "IE_Fev2" は、1998/10月にちらっと観測されたのみ。 (1999/11/26)
User-Agent: IE_Fev
User-Agent: IE_Fev1X
User-Agent: IE_Fav161a(Free)
iefck
「IEお気入リンク切れチェッカー」。 UA は "iefck" ですがパッケージは "ielck" で配られています。 (2000/03/15)
User-Agent: iefck/0.9.1(Win95/98/NT4.0)
Accept-Language: ja
ImageLock
(WRD) 画像照合用ロボット。企業ロゴなどの違法使用の検出が主な目的。 電子透かし(watermark)より 圧倒的に優位 てことで「特許出願中」らしいですが、 大声でそう述べているため個人的にはまゆツバもんに感じます。
User-Agent: Mozilla/3.01C-PBWF (Win95; I)
User-Agent: Mozilla/3.01C-PBWF
User-Agent: Mozilla/3.01C-PBWF-ip3000.com-crawler
複数の機械で並列に探索させているので、アクセス間隔は不定ですが、 10〜30秒くらいのようです。 大義名分があるためか、RXPには 対応していません昔は爆撃型 だったよーです。 →MarkWatch
違法使用検出だけでは食っていけなくなったのか、 画像検索サービス らしきものも始めました。 "ip3000.com-crawler" とついているのは これ用と思われます。 (1999/10/12)
さらに "Dave's Engine" と名前が変わっています。ip3000 はろくに機能してなかったような 気もするので、今後どうなるか注目でしょう。 (2000/03/15)
User-Agent: user##.davesengine.com     (2000/03/14-)
User-Agent: user##.ip3000.com     (user##以降はclientの逆索きがつく模様)
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*

"Image Locking" てのは、衛星画像などの照合・相関をとる 操作を指すらしいです。(専門用語ではないかも) (IMGLOCK -- Image Lock)

indexpert
検索エンジン用ロボット。 ac.jpは除く とありますが、実際はロボットは来るし検索もできます。 (1.7以前はちゃんと制限されていたらしく有史以来3アクセスしかない)
From: は明らかに到達不能です。 Via: も腐ってます。(UAの代わり??) IMS も使いますが、Last-Modifiedの値ではなく 以前取得した時刻を分単位に丸めてよこします(なんだそりゃ)。 (2000/04/06)
User-Agent: indexpert/1.8     (2000/03/24-)
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*     (Mozilla/3型)
From: info@feyeye.com
Last-Modified: time of previous access
Pragma: no-cache
Via: BGW/1.0
FreshEyeの名前は、以前は各自がインストールする 更新チェッカだったんですが、いつから 検索サービスに すりかわったんでしょ →FreshEye

[Indy Library]
Delphi用のインターネット通信ライブラリ。
Outer Technologiesの Linkman も これで書かれてるっぽい。 (2001/11/15)
Accept: text/html, */*
User-Agent: Mozilla/3.0 (compatible; Indy Library)     (no version)
電子メールでは X-Library: Indy 8.0.xx の形になる。

Inetdown
Webショットに 含まれる HTTPエンジン INETDOWN.DLL のUA。 わざわざ別ファイルになっているので、 WebShot以外で使用されている可能性もあり得ます。 ただ、"1.43" "2.5" といった番号は WebShot の版番と対応しています。 (1999/10/20) →Webショット2000
User-Agent: Mozilla/4.0 (compatible; Inetdown 1.43; Win32)
User-Agent: Mozilla/4.0 (compatible; Inetdown 2.5; Win32)
User-Agent: Mozilla/4.0 (compatible; Inetdown 2.6 Debug; Win32)
InfoNavirobot
富士通InfoNavigator検索サービスのロボット。 "InfoNaviRobot" (バージョン番号なし) は、個人用の robots.txt は 読まなくなりました。
User-Agent: InfoNavirobot/2.1
From: navi-staff@web.ad.jp
User-Agent: InfoNaviRobot     1997.10.07~
From: navi-staff@web.ad.jp
User-Agent: InfoNaviRobot(F104)     1999.05.11~
From: navi-staff@web.ad.jp

Informant
(WRD) 更新情報通知サービス Informant のロボット。 検索エンジンの検索結果もしくは特定のページの更新をメールで知らせてくれる。 アンテナを自分で建てられない人用のサービスですかね。 いずれにしろ、こういった中央集中型のサービスはいずれ 破綻するような気がするんですが…
User-Agent: Informant
Referer: http://informant.dartmouth.edu
User-Agent: The Informant     (1998/03~)
From: info_adm@cosmo.dartmouth.edu

InfoSeek Sidewinder
(WRD) 旧Infoseek Robot。 Sidewinderに代わってからこちらに来たのは 1996 9/12 から。
/hoge/* を一通りさらっていったあとは、リンクがなくても /hoge/ も持っていこうとするようです。
User-Agent: InfoSeek Sidewinder/0.9
Accept: text/html, text/plain
From: spider@infoseek.co.jp     (spider2.infoseek.co.jp∈PSInet 2000/04/11-)
From: spider@infoseek.co.jp     (spider.infoseek.co.jp∈DION 2000/09/18-)
From: webbuild@infoseek.com     (*.infoseek.com, 2000/08/02-)
InterGet
再帰プリフェッチャ。 最新版では IMS使用可能など、HTTP 的には大分改善されているのだが、 デフォルトでは HEAD→GET (IMSなし)に変更されているのが よくわからん。 この手のツールに非常にありがちな 「同ホスト異ポートで腐る」特性もそのまま。
1年以上更新されていないので、整備放棄されたも同然。 動作が不安定な所もまだ残っているので、使っている人は 別のツールへの乗り換えをすすめます。(1999/06/15)
User-Agent: InterGet(by rayesper:Japan)/1.00
User-Agent: InterGet/1.20
User-Agent: InterGet/1.39

InternetCabin
プリフェッチャ。もぢらやMSIEと組み合わせて使いますが、 製品版では独自ブラウザも内蔵(「クイックビューワ」)しています。
リンク解析時と取得時で UA が変わるようにも 思えるが、そう単純ではないようです。 If-Modified-Sinceを同じ所に連射する機能もあり。
お試し版 (製品版とはだいぶUIが違う) は プリフェッチができないという、 何のためのお試し版なのかわからない制限がついています。 なぜか製品版のマニュアルは入手可能。 ここの ftp サーバーはメッセージをSJISで送りつけてくるので、 直接 ftp する人は注意しましょう。
User-Agent: InternetCabin/0.9
User-Agent: InternetCabin/0.9(Analyze)

InternetLinkAgent
いろいろ機能はあるようですが、 ローカル型メタ検索 + ブックマーク管理 + 更新チェッカ、 て所ですか。ドキュメントにある「リンクチェック」は更新チェック のことを指しています。
「無駄なデータを受信しないようにしながら更新されているかどうかを判断する独自のアルゴル(sic)で高速チェック」 するそうですが、あんまし効率は良くなさそうです。以下実験結果 ヘルプの「各種設定」「設定メニュー」「データ長判断」を つつけば上記のアルゴリズムらしきものが書かれています (が、ここまでたどり着く人は何人いるのか…) あたりはヘルプには書かれていません。 (書いても使う人にはほとんど関係ない項目ではある) 作者は「この方法が速い」 と主張していますが、やっぱり 批判は されますわな。 作者は HTTP/1.1 (RFC2068) なんかを読んでないことがモロバレです。 (2000/07/04)
Accept: */*
User-Agent: InternetLinkAgent/2.1
[Pragma: no-cache]
[Cache-Control: no-cache]
InterNotes Navigator
Lotus Notes に附属してくる Notes <-> WWW ゲートウェイ。いわゆる「ブラウザ」ではない。 かといって Forwarded: をつけるような性質のものでもないので User-Agent がついているのでしょう。 (Via:だったらつけられるかも)
アクセスはまさにプリフェッチャ的なパターンを示している。
"Lotus-Notes"のほうは、Notesドキュメントに直接URLが 書かれているのをたどった時につくのかな?
User-Agent: Mozilla/1.22 (Compatible; Notes v4.0 Windows-NT Server; InterNotes Navigator/4.0)
User-Agent: Lotus-Notes/4.5 ( Windows-NT )

iron29
ロボット。 civray.ueda.info.waseda.ac.jp (早稲田大学上田研) から来ているが これについての記述は特にない。 検索エンジン用のような挙動だが、まだ実験用か? (1.0だけどなぁ) →Iron30
User-Agent: iron29/1.0

iSpi
Interpix Software製の 画像/文書処理ロボット。 長い間どこのロボットか不明だったが、 ちょっといやな方法で調べてみた結果、 どうやらHole-in-One で使っているものらしい。 現在では Interpix の 画像検索エンジン Image Surfer(日本語版) で使用されている。
User-Agent: iSpi/2.0
Capsの違うISpiは全然別物。

IWENG
AOLのブラウザ。 IWENG となっているものは Win3.1専用のものに限られる。 Win95以降では MSIEを流用し、コメント欄に "AOL 3.0;" が入る。
User-Agent: IWENG/1.2.003
User-Agent: Mozilla/2.0 (Compatible; AOL-IWENG 3.0; Win16)
AOLブラウザ一覧 (An AOL Guide for Webmasters)

iYappo
検索エンジン用ロボット。 iモードで 見られる文書だけを蓄積します。 (1999/10/12) →KO_Yappo_Robot
User-Agent: iYappo/0.9 (http://i.yappo.ne.jp/robot/)
Referer: http://i.yappo.ne.jp/robot/
From: ko@yappo.ne.jp
Shift-JISという制限が嫌いな人もいるでしょうが、 セットトップ系以上に制限のきついiモードで「見られる」ページなら どんなブラウザでも大丈夫でしょう。

Jabot
ODINの検索エンジン用ロボット。 Jerky/5 以降と 現行のJabot では Referer: はなくなり、 「10個採集した後小休止」という感じです。 連続取得数は動的に変更されているのかも。 →Jerky(旧名)
User-Agent: Jerky/5.04 Java/1.2.2 (http://odin.ingrid.org/)     (1999/12/09-2000/04/06)
User-Agent: Jabot/6.0 (http://odin.ingrid.org/)     (2000/04/06-04/20)
Accept: text/html
Accept: : text/plain, text/html     (/robots.txt取得時)
From: harada@ingrid.org
JCA-NET Search Retriever
「盗聴法」(a.k.a.通信傍受法)に反対する JCA-NET のロボット。 登録済URL の維持に使われているようで、GETかHEADかは URLによって一定している。 /robots.txtに関してはロジックが手抜きなのか GETとHEADが両方行なわれる。 (1999/08/23)
ClientHost: 82.85.149.210.economy.2iij.net[210.149.85.82] == www.jca.apc.org
User-Agent: JCA-NET Search Retriever/1.0 (http://www.jca.apc.org/search.html; 19980827)
Referer: http://www.jca.apc.org/search.html
From: search@jca.apc.org
JChecker2
HTMLエディタ。Rev2.1 からはHTTPを使ってのリンクチェックも できるのですが、 普通の環境であればすげー困るはずなので、開発者はおそらく Layer-3 proxy (CacheFlowなんかが相当) の 内側に住んでいるんでしょう。 「使えん」という苦情がいっぱい届いてるんではないかと想像します。 実際、観測できたのは CacheFlow経由のものでした。 (2000/02/11)
Request-Line: GET http://hostname/path HTTP/1.0
Content-Type: text/plain; charset="us-ascii"
User-Agent: JChecker2
なぜに Content-Type ?

JDL SQUI
たぶんブラウザ。"UA-OS"がついているものといないものがある。 ついている方は MSIE 3 の改造品の可能性もありますが、 「財務コンピュータ」用にわざわざブラウザを新造するとは 考えにくいですが、ついてない方は なんでしょおね…
User-Agent: Mozilla/3.0 (compatible; JDL SQUI 2.20; JDL OS (Windows NT based))
Mozilla/3.0 (compatible; JDL SQUI 0.20b3; JDL OS (Windows NT based))
Jerky
新生 ODIN の 検索用ロボット。 Jerky/4.20 からは正規Referer: がつきます。 (口でいうほど簡単ではなかったと思う)   改良が続いているので一概にいえませんが、 「5個採集したあと小休止」という特徴的な動作をします。
Valkyrie はperlで書かれていたみたいなので、 完全に新造品なんでしょう。 (1999/08/14) →PRS-Robot,Valkyrie
User-Agent: Jerky/4.00 Java/1.2 (SunOS/5.6; x86; http://odin.ingrid.org/robot.html)
User-Agent: Jerky/4.20 Java/1.2.2 (http://odin.ingrid.org/odin.html)
From: harada@ingrid.org
Referer: real referrer
Accept: text/html, text/plain
現行のJerky/5以降(Jabot)は またちょっと違います。→Jabot (2000/08/21)

j-mode
携帯端末用HTML変換サービス。 CGI型の書き換えproxyとして動作する。 X-Forwarded-For: を残すが、逆索きがないとカラッポになる(たぶんバグ)
のは速攻で修正されたようです。 (2000/02/02)
User-Agent: j-mode (clienthost(clientIP))
Referer: original Referer
X-Forwarded-For: clienthost
other headers deleted
JTOPIC Web Robot/EX
「インターネット高性能情報探索ロボット」 (自称だと自分で分類せんでもいいので楽だわ)
SEARCH'97ベースということになってるんですが、 Verityのプレスリリース を探しても NEC との提携については なーんも書いてないのが ちょっと不思議。→vspider
UAの前半は設定可能らしく、頭だけ切り出してくれば 発行元毎に区別できる(はず)です。 (1999/09/11)
User-Agent: site-def-string JTOPICrobo/1.0
JUSTWEB/1.0 (server)
JustNetのhttpd。 proxy もできる。JustNet専用だし これについてのページなんぞあるわけがない。 1996/9月から0.9->1.0になったようである。

[Katriona]
不明。/robots.txt を持っていく回数は多いが、 他の通常ページは なかなかアクセスしない。 Search Worksのロボットの ような気もしますが、長いことMacroMedia Flashを貼りつけてある だけなので詳細不明。
統計では "[Katriona]" としてあります。 (2000/08/23)
ClientHost: 213.219.19.148
User-Agent: Autonomy Spider     (2000/06/03-10)
User-Agent: Microsoft Internet Explorer     (2000/06/17-19)
User-Agent: Katriona     (2000/06/22-07/08)
User-Agent: Katriona (compatible; MSIE 4.0; WINDOWS NT)     (2000/07/12-19)
User-Agent: Katriona (compatible; MSIE 4.01; Windows 95)     (2000/07/22-08/05)
User-Agent: Mozilla/5.0 (compatible; MSIE 5.0; Windows 95)     (2000/08/12-2000/08/24)
Accept: text/*

2000年の年末にかけて本格稼働を始めたようで、再帰っぽい動作に なっています。UAはより検出困難な物に変更。 途中でプロバイダを変えたらしく、2001/07 になるまで 検出をしくじってました。 (2001/07/04) →bumblebee

ClientHost: [212.135.130.13[012345]]
User-Agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 95)     (2000/10/21-2001/06/18)
Accept: text/*
Accept-Charset: ISO-8859-1     (2001/04/19-)
更新風鐸 (upcheck)
専用更新検出ツール。汎用品ではなく、基本的には 検出される側で特定のフォーマットに沿った *.inf を 用意し、これをチェックするもの。 *.inf 一本に複数の更新情報や お知らせを詰め込むことが可能。 ただ朝日奈アンテナ のように検出ファイルを併合・再利用することは想定していない感じです。
User-Agent はつきません。From: がつきます (…バグのような気がする…)。 対応ソフトウェアを作っていないと観測することは多分ないはずです。 proxy上なら観測できるかも。(From:を採ってれば、ですが) (1999/09/14)
From: K.Futaku/2.04 [G.ib]
No User-Agent

新版の2001 では UA になるよう修正されています。 依然ふつーのサーバーで観測されることはないでしょう。
試用してみると、 インストール・実行時に作者のプログラムの宣伝が 大量に入るようになりました。 対応環境には明示されてませんが、インストーラーが問答無用で 「MS UIゴシック」を使用するので、 NTではSP4以降対応ということになります。 いざ実行すると終了できません。(タスクマネージャで撲殺するしかない)

Accept: www/source, text/html, video/mpeg, image/jpeg, image/x-tiff
Accept: image/x-rgb, image/x-xbm, image/gif, */*, application/postscript
User-Agent: K.Futaku/2001 (available at www.t-nexus.com)
Content-type: application/x-www-form-urlencoded
不要なContent-Type: や1行目のAccept: は、たぶん Delphiのデフォルトと思われます (マイナーバージョンアップの時はUAはどうすんだろ…) (2001/04/04)

KIT_Fireball
ドイツ語専門検索エンジン用ロボット。 Flipper,Kittyの後継。 収集はFLP/KIT、 検索がAltaVistaと いうことのようです。 →Flipper
User-Agent: KIT_Fireball/1.1 libwww/5.0a
User-Agent: KIT_Fireball/2.0
User-Agent: KIT-Fireball/2.0     (1998.02.11~)

Kokopelli
検索エンジン用ロボット。 基本的にはキヤノン社内へしか行脚しないはずなので、 何かの間違いでしょう。
User-Agent: Kokopelli/2.0
From: wrigley@cre.canon.co.uk
KO_Yappo_Robot
(WRD) Yappo用収集ロボット。 正常 Referer: を渡す。 いちおう RXP 対応のようですが、なんか無視されているような 感じだし、こうrobots.txtを読む頻度が少なくては意味がないと思う。 →iYappo
User-Agent: KO_Yappo_Robot/1.0.4(http://yappo.com/info/robot.html)
From: KO@highway.or.jp

Kpost
Web掲示板爆撃ツール。 連続投稿防止対策対策のためか、何種類かの UA をランダムに 渡してきます。再現性は高いのでUAだけでは区別不能。 UA以外のヘッダは Netscape をマネているようです。
使用時には・メールアドレス・NetBIOS名・Windowsのユーザー名 を http://www.boobu.com/cgi-bin/kpflgchk.exe宛に 送信するというオマケつき。(要するにトロイの木馬) ライセンス違反検出が目的なんでしょうけど、 外国サイトに良くある Privacy Policy は ないようです。
Request-Line : POST 掲示板URL HTTP/1.1
Referer: 設定可能
User-Agent: Mozilla/4.0 (compatible; MSIE 4.0; MSN 2.5; Windows 95)
User-Agent: Mozilla/4.01 [ja] (Win95; I)
User-Agent: Mozilla/4.03 [ja] (Win95; I)
User-Agent: Mozilla/4.04 [ja] (Win95; I ;Nav)
User-Agent: Mozilla/4.5 [ja] (Win95; I)
User-Agent: Mozilla/2.0 (compatible; MSIE 3.02; Update a; Windows 95)
User-Agent: Mozilla/4.0 (compatible; MSIE 4.01; Windows 98)
User-Agent: Mozilla/4.0 (compatible; MSIE 4.01; Windows 95)
同様のツールに BBS Write てのがありますが、こちらは体験版はないので試していません。 最新版(V1.33a)の UA は誰かに 脅迫? されて "BBS Write" になっているみたいですが… _

LEIA
おそらく検索エンジン用ロボット。 数時間間隔とわりと緩慢ですがいちいち HEAD→GET します。
たぶんEilsen Soft.の Leiaプロジェクトのものでしょうけど、一向に成果が公開される気配なし。 (2000/08/21)
User-Agent: LEIA/2.90     (2000/03/23-)
Libertech-Rover
(WRD) 再帰的リンクチェッカ。 SiteTech-Roverに改名、 さらに現在はSiteSweeperに改名。
SiteTech-Rover は 本来のReferer: をつけてくれる。
User-Agent: SiteTech-Rover

LinkAlarm
リンク切れ検出サービス LinkAlarmのロボット。 お客様のサイトの外へのリンクは HEAD でチェックする模様。 一応 RXP 対応。(1999/10/22)
User-Agent: LinkAlarm/1.5
From: linkalarm@linkalarm.com
User-Agent: LinkAlarm/2.0
Linkbot
再帰リンクチェッカ。3.0ではUser-Agentを好きにいじれるので 挙動がブラウザにしては変ならこれの可能性があります。 最初からメニューにあるニセモノは 最近では見かけないタイプなのですぐ分かるでしょう。
User-Agent: Linkbot/2.0
User-Agent: Linkbot 3.0    デフォルト; "/"がない〜
User-Agent: Mozilla/2.0    ニセモノ、以下同様
User-Agent: Mozilla/2.x (OS/2)
User-Agent: MSIE 4.01 ( Windows 97)

LinkChecker
あまりにもありがちな名前なのか衝突しまくり。 UAがぶつかっているのは今のところ2つだけですが 同一名称のツールはまだまだ存在します。 単語を連結するのが好きなドイツ出身のものが多い気がする。

LinkChecker (python)(calvin@debian.org)
リンクチェッカ。 要Pythonのためか、観測例希少。 デフォルトで /robots.txt を読みますが、この時は UA はつきません。 ここの挙動だけ違うのは旧Java版ゆずりかも。 405,501,500,"Netscape-Enterprise/",Zopeサーバーでは GETでやり直す細工がされている。 (2001/12/14)
HEAD absurl HTTP/1.0
User-agent: LinkChecker/1.3.10

LinkChecker (Java)(calvin@cs.uni-sb.de)
リンクチェッカ。 Python版の元となっているJava版。 観測例希少。 Python版のChangeLogには「Java版はもうメンテしない」とある。 LinkCheckerのURLエンジンは KeepAlive対応 ながら HEAD しかできないらしく、 /robots.txt 取得時(デフォルトoff)は HEAD→GET になり、 GET時は生Javaヘッダ。 (2001/12/14)
HEAD abspath HTTP/1.1
Connection: Keep-Alive, TE
TE: trailers, deflate, gzip, compress
User-Agent: LinkChecker/0.9.8 RPT-HTTPClient/0.3-2
Accept-Encoding: deflate, gzip, x-gzip, compress, x-compress
(Raw Java HTTP headers)
GET /robots.txt HTTP/1.0
User-Agent: Java1.1.3
Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
Connection: keep-alive

LinkChecker (Rinn's)
リンクチェッカ。 HEAD固定。
ありがちバグ:proxyなしの直結では80番以外につながらない。 (2001/12/03)
Accept: */*
User-Agent: LinkChecker 1.03
LinkChecker (yossy)
リンクチェッカ。 UIはMSIE4におんぶだっこ。 リンクチェックもHTTPエンジンではなく MSIE直接起動のようでブラウザとの区別不能。 (2001/12/03)
(headers of your default MSIE engine)
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*
Accept-Language: ja
Accept-Encoding: gzip, deflate
User-Agent: Mozilla/4.0 (compatible; MSIE 4.01; Windows 95)
Connection: Keep-Alive
LinkChecker (ugoltsev)
Java(Swing)のリンクチェッカ。 HTTPエンジンは生Javaのまま。 (…遅い…) (2001/12/14)
(Raw Java HTTP headers)
GET absurl HTTP/1.1
User-Agent: Java1.3.1_01
Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
Connection: keep-alive
LinkChecker (Ruff-Tech)
リンクチェッカ。 MSIE5を要求する?わりには機能が薄味すぎる。 UA はなく、これもポート番号つきURLは全滅。 (":80" ですでにダメ) 謎のConnectionヘッダも (2001/12/15)
GET absurl HTTP/1.0
Accept: */*
Connection: Keep -Alive

LinkGuard Online
リンクチェックサービス。 実験した所、サイト内は1秒間隔、サイト間は40秒間隔くらいですか。 RXP にも対応していますが、Lycos と同様 ~ と %7E は同一視していないようです。 ポート番号つきのリンクは拾わない模様。 統計では "[LinkGuard Online]" です。
User-Agent: Mozilla/4.0 (compatible; www.linkguard.com Online 1.0; Windows NT)
LinkLint
リンクチェッカ。通常はローカルファイルのみのチェックを行なうが、 「外部リンクを確認」で "-checkonly"、 「初めからhttp使用」で "-spider" をつけてHTTPをしゃべる。 RXP 対応。(1999/10/21)
User-Agent: LinkLint/0.92
User-Agent: LinkLint-checkonly/2.1   (-net)
User-Agent: LinkLint-spider/2.1   (-http)
[Linkman]
「URLマネージャ及び更新モニタ」。 通常の更新チェック時は GETのみ。 デバッグ用とおぼしき "GET URL Header from server" でのみ HEAD発行。 Refererは固定。
proxyを指定するとポート番号つきURLが参照できなくなりますが、 これは Linkman の問題ではなく、使用していると思われる Indy Libraryが原因と思われます。 (2001/11/15)
Accept: text/html, */*
Referer: http://www.outertech.com
User-Agent: Mozilla/3.0 (compatible; Linkman)
Links2Go Similarity Engine
大まかには検索エンジン用ロボット。 Links2Goでは、 被リンク数を利用して 相関の強いページを選び出してくれる。 当然前もって全ページをたどってみないとリンク関係はわかりませんわな。
From:なし。 Referer: は厳密ではありませんが、関係のありそーな 階層を渡してきます。メンテナンス用かも。 (1999/10/12)
User-Agent: Mozilla/3.01 (Compatible; Links2Go Similarity Engine)
Referer: http://www2.links2go.com/relevant topic hierarchy
各ページには 他のロボット用のワナ が仕掛けられています。 (普通のブラウザでも頑張ればたどれないこともない)

LinkSonar
リンクチェッカ。再帰型ではないので HEAD のみ。 Last-Modified のないURLは見捨てるという方針は実にさっぱりしています。
実験してみるとLast-ModifedではなくContent-Lengthしか見てないような 感じがしますが… (1999/09/13)
User-Agent: LinkSonar/1.35
Link.Alert
オーストラリアのプロバイダ MoreInfoから来たロボット。 検索顧客のページ が対象なので、名前の通りこれはただのリンクチェッカでしょう。 (HEADだけだし) ちゃんとReferer:も渡してくれます。
事例が少ないので Lycos Link Alert との関係は不明。
User-Agent: Link.Alert

Lite
軽量ブラウザ。 軽量っても <FRAME> 対応ですんでそれなり。MSIE1.5 よりは重い。 とりあえず試したバージョンでは 開発途上ですからそのうち直ってくるでしょう。 もともとデバッグ用だという、HTTPヘッダを表示する機能は そのスジの方にはなかなかソソるものがあります。 これができるのは他には TransCom SurfACE しか見たことがありません。 (HTMLエンジンは同じだったりして…Delphiだし…) (1999/09/20)
User-Agent: Lite 1.07 (Trial)
User-Agent: Lite 1.08a (Regist)
Referer: Request URL
LMCOSpider
Lockheed Martin COrporation Spider. /robots.txt をとっていったきり音沙汰がなく、 せっかくのReferer: もアクセスできず。なんだったんだろう。
User-Agent: LMCOSpider/OTWR:002p116 libwww/2.17
Referer: http://www.lmtas.lmco.com:8001/ot/LMCOSpider.html
www.lmtas.lmco.com は 今は www.lmtas.com のようです。 が、やっぱり上記URLはアクセスできない。…

Lockon
(WRD) 検索エンジン Inside View 用のロボット。 一応、 学内専用 ということになっていますが、WRD に登録されているし、 実際 1998/06 からこちらにも来ているので、学外デビューを 画策しているのかもしれません。 (一応論文ネタ)
HEAD→GETしているのが非常にうっとおしかったが、 "WebSize Edition" とついている物は対外用らしく、HEADのみ。 (1999/08/23)
User-Agent: Lockon/0.324(Test version sasazuka & ohmori)
From: sasazuka@rsch.tuis.ac.jp & ohmori@rsch.tuis.ac.jp

User-Agent: Lockon/0.047(Test version sasazuka & ohmori)WebSize Edition
From: search@rsch.tuis.ac.jp
Lokace
フランスのディレクトリサービスLokaceより。 フランス語で書かれたページ以外は登録されないので、 単に使用言語を確認しているだけとも思える。
User-Agent: Lokace v2b9(dk@astech.fr)

Loki
統計調査用ロボット。 画像も読む再帰型ですが、HTML以外は全部 HEAD です。 大きさだけ採集しているんでしょう。
「ロボット規則を遵守するよう…」 と述べてありますが、/robots.txt は読んでも うまく照合しきれていないようです (全く無視しているわけではなさそうなんだが…)。 (1999/09/10)
ClientHost: pf-231-069.tokyoweb.or.jp [210.140.231.69] (no A)
User-Agent: Loki/0.11 libwww-perl/5.18
User-Agent: Loki/0.51(http://www.a-brain.com/Loki.htm) libwww-perl/5.35
User-Agent: Loki/0.5(http://www.a-brain.com/Loki.htm) libwww-perl/5.35     (-2000/03/06)
User-Agent: Loki/2.0 (http://www.a-brain.com/Loki.htm) libwww-perl/5.35     (2000/08/04-2000/09/26)
User-Agent: Loki/2.0T1 (http://www.a-brain.com/Loki.htm) libwww-perl/5.35     (2000/12/12-2001/01/26)
User-Agent: Loki/2.01 (http://www.a-brain.com/Loki.htm) libwww-perl/5.35     (2001/02/01-2001/03/19)
User-Agent: Fenrir/0.5 Loki/0.5(http://www.a-brain.com/Loki.htm) libwww-perl/5.47     (2001/04/23-)
Accept: text/*
Accept-Language: ja,en
From: loki@allied-c.co.jp
Referer: real referrer

調査時期によってほんのちょっとだけ UA が変わってますが、 2001/04 のはいきなり変わっています。 「新型」 (というか子供?)っても実は先祖帰り? 北欧神話はネタが多いので今後どうなるでしょーね (ODINと かぶらないように注意!) (2001/05/09)

Lycos_Spider
検索エンジン用ロボット。 robots.txt には 対応しているはず なのですが、~%7E を 同一視しないようで、 Disallow: /~hoge/ と書いておいても /%7Ehoge/ は持っていかれてしまいます。
User-Agent: Lycos_Spider_(T-Rex)/3.0     (~1998/03/01)
From: spider@lycos.com
User-Agent: Lycos_Spider_(T-Rex)     (1998/04/11-)
From: spider@lycos.com

~%7E を同一視することは オリジナルのRXP では良くわからんのですが、 Internet Draft候補 の方には明示的に書かれています。 オリジナルが参考として挙げている libwww-perl でも この同一視を やってないのが原因の一つか。

LWP::RobotUA
libwww-perl のWWWロボットクラス名。名前を省略した場合には "libwww-perl" になるので、明示しないと"RobotUA"にはならないはず。 なので識別性は実は高い。 だからといってlibwww-perlで書かれていると断言するのは危険ですが。
観測したアクセスは tokiwa.jaist.ac.jp より。 JAISTの 佐藤研 では情報検索を扱ってるので、 ロボットを動かしていても不思議ではありません。 (1999/07/08)
User-Agent: RobotUA
From: sato@jaist.ac.jp
[MarkAgent]
おそらく中央集中型更新チェッカ。 間隔はきっちり1日。同一サイト内は連続アクセス。 データベースの並び順のせいか間隔が開くこともあるが、 開き方は毎日同じ。 Backoffのような凝ったメカニズムは全くとっていない。
ヘッダ類は本物のマネをしているのだが、 どういうわけか UA だけは最初から一貫して間違っている。
ClientHost: [210.239.243.130]     (2001/04/17-06/12)
User-Agent: User-Agent: Mozilla/4.75 [ja] (Windows NT 5.0; U)     (2001/04/17-06/06)
ClientHost: xdslxxxxxx.xxxxxx.metallic.ne.jp [61.20x.xx.xx]     (2001/07/04-08/01)
ClientHost: pppxxxx.tokyo-ip.dti.ne.jp [210.159.xxx.xxx]     (2001/07/21-2002/01/09)
ClientHost: www.markagent.com [210.239.243.130]     (2001/10/24-11/12)
ClientHost: [61.194.6.118] (*.markagent.com)     (2002/01/10-)
User-Agent: User-Agent: Mozilla/4.07 [ja_JP.EUC] (X11; I; FreeBSD 2.2.8-RELEASE i386; Nav)     (2001/06/09-)
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, image/png, */*
Accept-Charset: iso-8859-1,*,utf-8
Accept-Encoding: gzip
Accept-Language: en, ja

サービス開始は 2001/07 つことで、試験運用は3ヶ月くらいだった つーことですな。

[MarkWatch]
商標追跡サービス MarkWatch のロボットと思われる。 上記サイトにはロボット自体についての記述は特にありません。 ドブさらい系のロボットではなく、サーチエンジンの結果を 手で選んで使用しているような感じ。 IMS は使っています。 RXP非対応。User-Agent がつかない。 調べてみたら1997年ごろから動いてるみたいです。 (1999/06/26) →ImageLock
Clienthost: *.markwatch.com
From: mwuser@
From: bhaskar@     (1999/09-1999/11; still rarely seen)
専門会社に依頼するより 学生を雇った方が安い とゆー話もあります。

Marvin/Project
医学関係専門検索エンジンHealth on the Netのロボット。 変なとこに"/"入れんでくれー
User-Agent: Marvin/Project baujard@dim.hcuge.ch

Spider/MaxBot.com
たぶん検索エンジン用ロボット。 .mil, .gov, .eduのインデクス に *.jp は含まれるとは思えないので、 将来の海外進出に向けた準備か? アクセス自体は5回/日 程度でかなり緩慢。
ClientHost: search.wport.com
User-Agent: Spider/MaxBot.com admin@maxbot.com
MedWebPlus Bot
保健科学分野専門のディレクトリサービス MedWebPlus では 検索もできるので、その基礎データ収集のためと思われる。 RXP対応の模様。 手動登録制なので、ドブさらいはせずピンポイントで持っていく。 (1999/06/11)
User-Agent: MedWebPlus Bot
From: info@y-dna.com

MemoWeb
再帰巡回ツール。デフォルトは同一ホスト100階層再帰下降。
Memoweb 98 ではデフォルトでは UA はつきません。 にせものオプションも "Anonymous","Netscape 3","IE3" は区別不能。 IMS は なぜか RFC850型に変換されてしまう。 (1999/07/24)
User-Agent: Mozilla/2.0 (MemoWeb 1.072)
User-Agent; Mozilla/3.0 (compatible; MemoWeb 98 ; Windows 95)     ("Memoweb 98")
User-Agent: Mozilla/3.0 (Win95; I)     ("Netscape 3.0")
User-Agent: Mozilla/2.0 (compatible; MSIE 3.0; Windows 95)     ("Internet Explorer 3.0")
User-Agent: Mozilla/2.0 (compatible; MSIE 4.0; Windows 95)     ("Internet Explorer 4.0")
Mercator
Webロボットに適用した際のJavaの 性能検証のための試作品。 RXP 対応。 頻度は一日一回程度ですが、 アクセスする時はまとまった量をガガッと持っていきます。 (ネットワークなどの状態によってはこっちの方が速いでしょう)
User-Agent: Mercator-1.0     (1998/09/25~)
From: http://www.research.digital.com/SRC/mercator/
No Accept:
From: しかついてないんで、From: を採ってないと気づかないかも。 メールアドレスではなくURLが入っているのは初見参。 (1999/05/29)

2000/07以降は、なんと逆索きにメールアドレスを突っ込んであります。 何があったんでしょうか。旧来の物も頻度は低くなってますが稼働中。 (同一製品を別の目的で動かしている可能性もあり) (2000/08/21)

2000/10 以降のバージョンは、見た目は変わってませんが 積極的にインライン画像も拾っていきます。拾う順番は割と素直。 (2000/12/06)

ClientHost: crawler0-complaints-to-admin.webresearch.pa-x.dec.com[204.123.28.10]     (2000/07/29-)
From: admin@webresearch.pa-x.dec.com
User-Agent: Mercator-1.0

Meta
メタ検索エンジンのリンクチェッカ。 ホームページ (ツッコミ不許可) からはたどれないので、まだ未公開? (2000/01/14)
User-Agent: Meta/1.0 (http://www.ulis.ac.jp/~f275/meta/)
Referer: http://www.ulis.ac.jp/~f275/meta/
From: f275@ulis.ac.jp
MilliCentWalletProxy (proxy)
小額取引システムMilliCentで ユーザー側の面倒を見るproxy。
1997年にはもうVia: の形式は決まってたはずだから、 得意気に宣伝 するのは かっこわりいと思います。 (1999/07/24)
Via: MilliCentWalletProxy (1.00.0336)
moget
(WRD) もぎたてGoo用のロボット。 取得間隔を全く空けず、サイト全体を持っていこうとするので、 DoS攻撃を受けたような状態になる。 当方では一時間ほどネットワークが遅くなった程度で済みましたが、 落ちたり作業不能になったサイトもあるんじゃないかと想像します。
IMSは使わない。 一応 RXP は見ている模様。 "HTTP/1.1"とかいいつつ Connection: close ぢゃ意味ないよな
Clienthost: g###.goo.ne.jp
User-Agent: moget/1.0 (moget@goo.ne.jp)     (2000/03/15 - 2000/08/31
From: moget@goo.ne.jp
Connection: close
ニュースリリースによると max3日、min12時間 みたいなので、狙われたサイトの方は たまったもんでないと思います。(回線が細い所とか…)
2000/08/31 を最後に moget は使われなくなったようです。 実働半年は短命か? (2000/10/25)

MOMspider
(WRD) リンクチェッカ。 アクセスはほとんどHEADのみ。

Mosaic
本家 NCSA Mosaic は今は少数派で、主にSpyglassの Enhanced Mosaicがベースになっている 商用のものが多くなってきました。
User-Agent: NCSA_Mosaic/2.6L10N+ (X11;SunOS 5.5.1 sun4u) libwww/2.12 modified
User-Agent: COPERAWEB/2.0002 Win32 /6
User-Agent: DACOM_Mosaic/2.10 Win32 DACOM/3
User-Agent: DCL SuperMosaic/1.0.2.7J_Win32
User-Agent: PC-VAN Mosaic/1.1002 Win32 NEC/6
User-Agent: SPRY_Mosaic/v8.32 (Windows 16-bit) SPRY_package/v4.00
今では意外に知られてないかもしれませんが、NCSA Mosaic/2.0 for Win には "AutoSurf" という簡単な再帰取得機能がついてます。 発表が 1995/10 なので、それ以後のプリフェッチャの台頭と 無関係ではないでしょう…
今のブラウザでこれを装備したものが少ないのを見ると、 やっぱり濫用されたんですかね。

Mothra/126
一見、細工したブラウザにしか見えませんがロボットの模様。 目的は BackRub と似ているようですが、詳しい情報は アクセス制限で見れません。 そのうち論文かなんかが出ると思うので、それで明らかになるでしょう。 (1999/09/30)
User-Agent: Mothra/126-Paladium
From: hseo@cs.rutgers.edu
User-Agent: ru-robot/1.0
From: hseo(at)cs.rutgers.edu
"@" が "(at)" になってますが (Googlebotがハシリか) SPAM Harvester対策ですかね

Mozilla
(BW) いわずと知れた超有名ブラウザ。 統計をとる時はバージョン番号以下は削っているので、 この中には純粋のもぢらだけではなくMSIEなどが 化けているのも含まれていることがある。 極力除くようにはしています。 MSIEは Netscapeと区別がつかない ような時代もあったようですが、 今のMSIEは改造していない限り区別できます。
User-Agent: Mozilla/1.1N (Macintosh; I; 68K)
User-Agent: Mozilla/2.01I [ja] (X11; I; SunOS 5.5.1 sun4u)
User-Agent: Mozilla/4.6 [en] (X11; I; SunOS 5.5 sun4u; Nav)
統計ではUser-Agentの中に"MSIE"があればMSIEと判断してます。 その他のニセモノも手でつまみ出してカウントしてるので、 統計スクリプトの手入れは欠かせません。(←手間かかるんだこれが…)

Mozzilla
(2002/04/06) おそらく エム研24時間ネットワーク監視機能 のロボットと思われる。 取得間隔は全く空かない爆撃機。 既取得のデータは (IMSではなく) HEAD→GETする模様。 ヘッダの感じは wget ではないのでシロート製カスタムロボットでしょう。 性質上 RXP なんかには対応しておらず。 隠しページ?を探しているつもりなのか、href= でなくても リンクっぽい文字列は全部さらっていこうとするので、 大量に 404 を発生させています。 他のサーバーのログを少し漁ると、コンテンツの 「不正利用」 がありそうな画像・音声サイトで多く観測されるようです。
なぜにアシのつきやすい UA や逆索きを使っているのかは不明。 (ブラウザアクセスも散発的にあるので、単なるNATな防火壁の可能性もある。)
ClientHost: secret.mken.co.jp [218.45.232.200]
User-Agent: Mozzilla/3.0     (2002/04/05-)
No Other Headers(besides Host:)

爆装しているので、立入禁止札を立てて落とし穴を掘っておけば、 ダミーページ とかでなくても過負荷の威力業務妨害で訴えることは可能なような (以前の netfilter がそうだったからねー)

Mime Typeの登録料を 教えろ と出してるあたりになんかそのーアレを感じる(何だよ)

Microsoft Internet Assistant
Microsoft Word のアドオンツール。エディタ・ブラウザ。
User-Agent: Mozilla/1.22(compatible; MSIA 2.0z)
User-Agent: Mozilla/1.22(compatible; MSIA 2.03j)

Microsoft Internet Explorer
(BW) 古き良き時代のMSIE。ブラウザ。 最近のMSIEは Mozillaを名乗る。
User-Agent: Microsoft Internet Explorer/4.40.300beta (Windows 95)
User-Agent: Mozilla/1.22 (compatible; MSIE 1.5; Windows NT)
User-Agent: Mozilla/4.0 (compatible; MSIE 5.0; Windows 98)

MSIECrawler
MSIE 4.0以降に装備された 「購読」の 更新チェック時につくもの。 分類するなら更新チェッカということになりますな…
チェック時に再帰ダウンロードさせることも可能。 いまさら実装しても新規性ないぞ。
User-Agent: Mozilla/4.0 (compatible; MSIE 4.0b2; MSIECrawler; Windows NT)
一応 RXP 対応。ちゃんとIf-Modified-Sinceも使っているようです。 UA-OS: なんかは更新チェック時はつかないようなので、 これでvariantを切替えているサーバー(いねーよそんな奴)は 気をつけなければならないかも。 (1999/05/28)

MSProxy (proxy)
ちゃんとHTTP/1.1を読めー凸(`、’)
Via: red-03-prxy (MSProxy/1.0) for 157.55.186.106
User-Agent: MSProxy/1.0    (監視時?)

MultiText
おそらくMultiTextプロジェクトの 基礎データ収集用ロボット。 MultiText自体は単なる検索システムで、以前は Internet Archiveのデータを使っていたようです。 Text REtrieval Conference (TREC) の データ集めだとすると、TREC-9には特に 「集めた」 という話が出てないので、出るなら TREC2001待ち?
一応 /robots.txt を一日一回持っていく。間隔は不定ながら 2分以上は空く。アクセス数が少ないので RXP を守っているかは不明。 雰囲気的に既存ロボット改造ではなくフルスクラッチ品のような感じ。 (2001/05/06)
ClientHost: flax*.uwaterloo.ca [129.97.186.*], crawler.dlib.vt.edu [128.173.49.57] (20010504-)
User-Agent: MultiText/0.1     (2000/04/27-)

MuscatFerret
(WRD)   検索エンジン用ロボット。 ヨーロッパ専門 つーことですが、1-2分間隔で観測されるようになったので、 米国 TLD 以外は全部ヨーロッパ、というロジックを 使っている可能性もあります。 あだ名は Claude君 らしい。 (1999/09/20)
Dialogが運営する webtop の方は特にヨーロッバ限定というわけでも なさそう。 現在 Muscat は Dialogの傘下会社です。 From: は同一人物。 →[MuscatFerret]
User-Agent: Mozilla/3.0 (compatible; MuscatFerret/1.7; http://www.euroferret.com/)
Referer: http://www.euroferret.com/
From: tom@muscat.com
Accept: text/html;text/plain

User-Agent: Mozilla/3.0 (compatible; MuscatFerret/1.7; http://www.webtop.com/)     (1999/10/31-2000/01/14,2000/03/11-)
Referer: http://www.webtop.com/
From: tom_mortimer@dialog.com
From: ferret@dialog.com     (1999/11/10-)
Accept: text/html;text/plain
Accept: text/html, text/plain     (2000/03/11-)

その Accept: は形式ちがいまっせ

[MuscatFerret]
たぶん検索エンジン用ロボット。 わざわざ関係ない人がこういうFromやRefererをつけることは ないでしょうから、WebTop用の EuroFerret なんでしょう。 本物の Mozilla にもこの UA は存在するので、UA だけでは判別不能。 Accept: は直っとるよーです。 統計では "[MuscatFerret]" としてあります。 03/11以降は以前の UA に戻っています。 (2000/03/23) →MuscatFerret
User-Agent: Mozilla/4.51 [en] (X11; I; Linux 2.2.5-15 i686)     (2000/02/09-2000/03/10)
From: ferret@dialog.com
Referer: http://www.webtop.com/
Accept: text/html, text/plain
Accept-Language: en
Accept-Encoding: gzip, compress
Accept-Charset: iso-8859-1,*,utf-8
[My Translator]
機械翻訳サービス。 本来の業務は 翻訳者ブローカー なので、機械翻訳はあくまでおまけ(のはず)。
対象取得時に MSIE4 型の UA を渡してきます。 一般には区別不能。統計では [My Translator] としてあります。 (1999/11/24)
User-Agent: Mozilla/4.0 (compatible; MSIE 4.01; Windows NT)
N2H2-BirdDog/flyingace
[Bess]

[nabot]
おそらくnaver.com (韓国の検索サービス) 用の収集ロボット。 以前は識別困難でしたが、 文句が来たのか 2001/05/13 から 短期間だけ "nabot" を含めるようになりました。 UA 以外の特性は全く変わっていません。 統計では "[nabot]" としてあります。 (2001/05/17) →[naver robot]
Clienthost: apncnnn.216.216.211.in-addr.arpa (211.216.216.mmm, no A record)
Cookie:     (Always pass blank Cookie:)
User-Agent: Mozilla/4.0 (compatible; nabot 1.0; rotty@naver.com)     (2001/05/13-2001/05/15)
Via: 1.0 NetCache111 (NetCache NetApp/5.0.1R1)
X-Forwarded-For: 211.218.150.47     (no PTR, naver22.naver.com)

(2002/03/07) 管理主体が複数あるのか用途が違うのか、 2001/07 あたりから 詐称、nabot, NABOT が入り乱れています。 逆索きが単なる "apnc[0-9]+" になっていることがあるので、 IPアドレスを残さない通常の Common Log Format だと なんだかわけわかんなくなることうけあい。 %7E と ~ を同一視しないらしく、NABOT は RXP立ち入り禁止区域にある蟻地獄にしっかりはまっていました。
爆撃を行うのは NABOT ですが、 naverの登録は nabot_1.0 で行われているようです。 (NABOT とは検索空間が違う…が、 LANG≒koなページをnabotが拾う?)

ClientHost: [211.218.15[01].nnn] (no PTR, navernnn.naver.com)
User-Agent: NABOT/5.0     (2001/11/03-2002/06/07)
User-Agent: nabot_1.0     (2001/09/27-)
ClientHost: [211.216.216.95] (PTR=="apnc10")
User-Agent: Mozilla/4.0 (compatible; MSIE 4.01; Windows 98)

アドレスを見ていると kobot は naver用ではなく一般用かも。

(2002/07/02) NABOT/5.0 は libhttp化。 →naver_robot

Nagara
更新検出ツール A-Scope。 Host: がついてないので、これを使った virtual host では 困りそうですが、 「プロクシーサーバーを利用するとA-Scopeの能力不足を補ってくれ」 るということです。
基本はHEAD+Last-Modified検査のようですが、調べた所 IMSは使ってないのでサーバーが304を返すことはありませんが、 むりやり304を返すと無限ループします(笑) <300番代は全部リダイレクトと解釈しているみたい (2000/02/16)
HEAD absuri/abspath HTTP/1.0
Accept: www/source, text/html, video/mpeg, image/jpeg, image/x-tiff
Accept: image/x-rgb, image/x-xbm, image/gif, */*, application/postscript
User-Agent: Nagara/3.4
Content-type: application/x-www-form-urlencoded
Accept: が なかなかに独自です。www/source てのはMosaicが 内部で使っているものだったような気が。 Content-Typeは将来POST対応するための準備?

[nameprotect]
おそらく商標侵害検出用ロボット。 nameprotect.comを ほじくりかえしても「Web上の」ものを探す、という検索サービスは ないので、将来の準備かゼニ払う客に対するサービスと思われます。
UAは今時めずらしい偽装方法。 HTTPエンジンはRPT-HTTPClientを使用。 性質上、当然 robots.txt なんかは見ません。
Clienthost: crawler1.crawler918.com [12.148.209.196] (/26 owned by nameprotect.com)     (2002/03/30-)
User-Agent: Mozilla/4.7     (2002/10/04-)
Connection: Keep-Alive, TE
TE: trailers, deflate, gzip, compress
Accept-Encoding: deflate, gzip, x-gzip, compress, x-compress
[naver robot]
naver.com (韓国の検索サービス) 用の収集ロボット。 2001/05/13 からは UAだけ "nabot" に変更。 (完全詐称は2001/07/25まで生息) →nabot 直近のクライアントはKorea TelecomのNetCacheらしくて 他の利用者も使っていますが、 ロボットのものはすべて X-Forwarded-For: 211.218.150.47 がついています。 逆索きがないが naver22.naver.com の模様。 (2001/07 からは中間キャッシュを NetCache から CacheFlow に変えたらしく X-F-F は無くなっている) WWW検索 (文字化けすると"瀬庚辞 伊事"になる)の検索結果からするに これ用の収集ロボットであることは確実のようです。
Clienthost: apncnnn.216.216.211.in-addr.arpa (211.216.216.mmm, no A record)
User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; DigExt)     (2000/12/12-2001/07/25)
Cookie:     (Always pass blank Cookie:)
Via: 1.1 Netcachennn (NetCache 4.1R6)
X-Forwarded-For: 211.218.150.47     (naver22.naver.com, no PTR 2001)
No Accept:, Accept-Encoding:

2001/01 上旬の非常に短期間、UA="kobot/5.2.8 libwww/5.2.8" でのアクセスを観測。libwwwは改造しないとRXPに対応しないので、 現在もlibwwwをそのまま使っている可能性が (…いや、Accept:が ないから違うか) naverでは検索をかけても 韓国語ページしか出てこないので、 おそらく korean robot なんかの略でしょう。

なんで日本のページを爆撃するのか謎でしたが、 単に日本法人もある というオチだったりして。 ここに入っているデータは上の UA,X-F-F で持っていっていることを確認。

普通の拡張ログには Referer: と User-Agent: しか残らないので、 確実に判別することはできません。他のヘッダを含めて判定する 必要があります。 統計では "[naver robot]" としてありますが、誤判定している 可能性もあります。割合からすれば普通のブラウザのアクセスは 極小なので、影響は小さい?

(2002/07/02) naver.co.jp から、画像だけを絨毯爆撃していくものが 一瞬だけ "Naver PageStat (Are you alive?)"、 完全詐称 MSIE 5.5, その後は "libhttp 1.0" になっています。 画像検索用の更新検出専門か?

Clienthost: [202.234.172.3] (naver1.naver.co.jp, no PTR)
Clienthost: [202.234.172.15] (naver105.naver.co.jp, no PTR) (2002/04/10-05/02)
Clienthost: [202.234.172.121] (hiho1.naver.co.jp, no PTR) (2002/05/09)
User-Agent: Naver PageStat (Are you alive?)     (2002/03/09-03/10)
User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; DigExt)     (2002/03/19)
User-Agent: libhttp 1.0     (2002/04/10-)

韓国 naver.comの方はやや遅れて (2002/06/28-) libhttp化。 HEAD か GET での絨毯爆撃は相変わらず。 アルファベット順に、画像も徹底爆撃していきます。…

ClientHost: [211.216.216.32] (PTR="apnc20") (2002/06/28-)
User-Agent: libhttp 1.0     (2002/06/28-)
Via: 1.0 Cache110 (NetCache NetApp/5.2.1R1D5)
X-Forwarded-For: 211.218.151.202     (naver640.naver.com, no PTR)

Wget を使っている時期もあってわけわからん。

[naver translator]
NAVER Japan翻訳サービス の 完全詐称UA。 :80 以外は直結で取りに来ますが :80 は apncキャッシュ経由。 昔のnabotと同じ文字列を使ってるので、 HTTPエンジンを使い回してるのかも。
Clienthost: 211.216.216.*
Clienthost: 211.218.151.80 (naver530.naver.com, no PTR)
User-Agent: Mozilla/4.0 (compatible; MSIE 4.01; Windows 98)
Connection: close
Via: 1.1 Cache110 (NetCache NetApp/5.2.1R1D5)
X-Forwarded-For: 211.218.151.80     (naver530.naver.com, no PTR)
裏には普通はブラウザがいるのでpage view数には影響 しないとは思いますが…

Navigate_with_an_Accent
多国語ブラウザ。i10nなWindowsでなくても日本語・中国語・韓国語・ タイ・ロシア・ヘブライ・アラブetc etc を見ることが できるようにするもぢらプラグイン。 1.1が試用できたので持ってきてみたんですが、 激烈に遅くて使う気しません。(Shodoukaなどより幾分ましですが) 2バイト系文字でまともに出るのは日本語だけのようなので、 前口上のわりには役に立たんという気がしないでもない。
今では<BLOCKQUOTE>をイタリックにするブラウザは 少なくなりましたね。改めて見てみると、やっぱり BLOCKQUOTEは引用のためにある、と実感します。
持ってきたのは 1.1 のはずですが、コードが Multilingual_Mosaicと共用らしく、こっちのバージョン番号(1.0e) がついてます。
User-Agent: Navigate_with_an_Accent/1.0e Win32 Accent/81_1044447665

NaviPress
(BW) 旧NaviSoft製のHTMLエディタ。 (←リンクは今はprimehost.com行き) 現在はAOLに買収されて 公の名前は AOLpress になっていますが、User-Agent では NaviPress の 名前が生きています。
直接 URL オープンの時はなかなか奇抜なRefererをつけてくれます。 プリフェッチ機能も内蔵していますが、この時はRefererはつきません。
HTTP/1.1の OPTIONS や 出所不明の BROWSE といったメソッドを吐きます。
User-Agent: NaviPress/2.0 AOLpress/2.0
Referer: AOLpress: Open Request    (Location: に直接入力)
Referer: AOLpress: Open Dialogue    (Open...メニューから)
Request-Line : BROWSE /~kabe/misc/ HTTP/1.0

HTMLのレンダリングスタイルは、なんとなく Panoramaを ほうふつとさせます。

NearSite
プリフェッチ機能つきのproxy。 無加工の統計情報では効果的な宣伝になると思われる文字列を含んでいます。 プリフェッチかproxyかでUser-Agentが変化する。 (1999/06/16)
User-Agent: NearSite/16.2 (<A HREF=http://www.evolve.co.uk/nearsite/><IMG WIDTH=74 HEIGHT=15 SRC=http://www.evolve.co.uk/nslogo.gif></A>)
User-Agent: Mozilla/1.22 (compatible; MSIE 1.5; Windows NT) via <A HREF=http://www.evolve.co.uk/nearsite/><IMG WIDTH=74 HEIGHT=15 SRC=http://www.evolve.co.uk/nslogo.gif></A>

Nekosogi
(2002/04/29) 大量ダウンロード専用ツール。 一応オフラインブラウザにも分類できるが、 画像などの大量ダウンロードにチューンされている。
UA は完全詐称。 proxyランダム切り替え機能もあるので、そーゆー用途に 使う人が多いんでしょう。 エラー時は5秒毎50回リトライ。
Accept: */*
Range: bytes=0-
Referer: initial blank, sane following
Accept-Language: ja
Accept-Encoding: gzip, deflate
User-Agent: Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)
User-Agent: Nekosogi Ver3     (MSIE5非詐称時)
Connection: close

謝辞に「Micro Soft社」とかありますけど、どこの会社でしょうね

NERV-JoSNITS
User-Agentだけを書き換えたブラウザ。 Netscapeを改造したものと思われる。 (STR#リソースをいじるだけで簡単に作れる) スペルミス入ってるのがカワイイかもしれない。
User-Agent: NERV-JoSNITS/3.0/for R. Ayanami (Macintosh on Melchior; I; MAGI-STSTEM)
User-Agent: NERV-JoSNITS/2.02 (MAGISYSTEM; I; Balthasar)

Nessus
(2002/05/04) 「セキュリティスキャナ」。 HTTP/1.0 選択時は UA等はつかない。 UA はソースに埋め込んであって変えられませんが、 "Mozilla/1.0 [en] (X11, U; OpenVMS)" に書き換えた人もいるようです。 頻度は1-2/秒くらいですが、帯域制限しているわけではなく 単に検査ドライバがインタプリタ(NASL)だからと思われます。
GET /cgi-bin/nessus_is_probing_this_host_nnnnnnnnnn HTTP/1.1
Connection: Close
Pragma: no-cache
User-Agent: Mozilla/4.75 [en] (X11, U; Nessus)
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, image/png, */*
Accept-Language: en
Accept-Charset: iso-8859-1,*,utf-8
NetBox
NetGemの セットトップボックス。 設計思想としては Webブラウザと言うより文字放送デコーダに近い。 走査線のすき間にHTMLを埋め込んでテレビ放送にWebをスーパーインポーズ するというのは文字放送そのものと言えます。 ヨーロッパでは文字放送は割と一般的で、NetBoxが シェア70% というのもなんとなく納得。(1999/07/15)
User-Agent: Mozilla/3.01 (compatible; NetBox/1.5 R80a; NEOS 5.19)
NetCache (proxy)
Harvest ベース の proxy。 まじめにVia:を解読しているサーバーはほとんどないとはいえ、 バージョン番号削ったら源サーバーが困るだろーが…
User-Agent: browser via NetCache version 3.1 Beta 1-Solaris
User-Agent: browser via NetCache version 3.2X3-Solaris
User-Agent: browser via NetCache version NetApp Release 3.2.1R1D6: Fri Sep 25 17:04:59 PDT 1998
Via: NetCache@mel.proxy.ozemail.com.au: Version 3.3R2D7
Via: NetCache@wwwcache.metronet.ca: Version NetApp Release 3.4X15: Tue Jun 1 21:27:42 PDT 1999-Solaris
NetApp の 技術報告集には 優れた文献も多く、ワンランク上を目指す人にはおすすめです。 (1999/06/07)

Netcaster
Netscapeのプッシュ型ツール。 定期更新の時にこのUser-Agentが使われる。 "Netcaster" の文字が入るのは、おそらく robots.txt に対応した PR3以降でしょう。 (そうしとかんと robots.txt に User-Agent: Netcaster と書けない) それ以前の Netcaster による更新は、普通のMozillaと区別がつきません。
User-Agent: Mozilla/4.03 [ja] (Win95; I)
User-Agent: Mozilla/4.04 [en] (Win95; I; Netcaster)

NetCaptor
ブラウザ。 SimulBrowseの後継。 今の所、レンダリングやhttpエンジンは MSIE を使用しているが、 Netscape使用型も開発中。 メタ検索機能以外はあまりぱっとしないような気がしますが… (1999/05/30)
User-Agent: Mozilla/4.0 (compatible; MSIE 4.01; Windows NT; NetCaptor 5.02)
NETCOMplete
Netcomの統合システム専用の 寄せ集めパック。 一応ブラウザだが Netscape 流用(というか、どんなブラウザでも使える)。 こっちはReferer:を残す。 NetCruiser()のメジャーバージョンアップと思っても 間違いではなさそう。

[Netcraft Server Tracker]
おそらく Netcraftが 行なっている WWWサーバー種類統計調査のためのもの。 User-Agent: はつきませんが、サーバーの変化追跡と思われる 定期的なアクセスには Referer: がついています。 統計では "[Netcraft Server Tracker]" としてあります。 (1999/10/05)
Request-Line: HEAD / HTTP/1.1
Referer: http://www.netcraft.com/
2001/02/13 から Mozilla 化したようです。 (2001/02/14)
Clienthost: *.netcraft.com
Request-Line: HEAD / HTTP/1.1
Referer: http://www.netcraft.com/survey/
User-Agent: Mozilla/4.0 (compatible; Netcraft Web Server Survey)
同様のことを行なっている JPドメインのWWWサーバソフト利用実態 では "WebScan/version" なので一発でわかります

NetCruiser
(BW) Netcomの 統合システムの中のブラウザ(?)。ううむRefererを残さないのか…?

[netfilter]
Updates: 2000/09/11, 2001/02/17, 2001/08/08, 2001/10/25, 2002/02/06
確証はないが、おそらく デジタルアーツ企業情報収集代行 (Net iScope)用 のロボット、もしくは フィルタリングソフト (「i-フィルター」)のデータベース構築用。 ドメイン名からすると後者っぽいですが、データを流用している 可能性もあり。
大義名分のためか、/robots.txt は読みません。UAもなし。 HEAD→GET したり、"...#XXX" と "...#YYY" は別に取得するといった、 シロート製ロボットに非常にありがちな動作をします。 (HEAD→GET間は基本的にあかない。 2001/10以降のものはGETのみ) ドブさらい系ではなく、めぼしい人の物だけを持っていく模様。 取得は割とアグレッシブで、非ブラウザではヒット数1位となる日も めずらしくありません。 単に有害サイト検出にしてはえらく頻度が高いので、 「企業情報収集」に使われているような気もします。 統計では "[netfilter]" としてあります。 (2000/09/11) WebClipping, Bess, [e-mining]
Clienthost: kk-gw.netfilter.ne.jp [202.214.67.220]
Accept: text/html
No User-Agent
実際に 大被害 にあったサイトもあるようです。 時期的には当方で観測した頃と同じですね。 実際にデジタルアーツとのやりとりが記録された貴重な資料です。

その後、一時期は "Internet-Html-Searcher" でのアクセスが 観測されていました。間隔はずっと緩慢です。 しかし最近 (2000/02) はデジタルアーツ所有のアドレス からのアクセスも含めて観測していません。 (ここは逆索きが *.245.32.202.ts.2iij.net などだったりするので すぐにはわからない) (2001/02/17)

User-Agent: InterNet-Html-Searcher/1.00     (2000/09/08-2000/09/27)
User-Agent: Internet-Html-Searcher/1.15 (012)     (2000/12/14-2001/01/16)
Accept: */*
Connection: close

2001/07/23 から、デジタルアーツ所有の 上記 202.32.245.144/29ブロックから、 にせもじらが観測されるようになりました。 緩慢ですが HEAD→GETな特性は変わっていません。 デジタルアーツは他にもいくつかnetblockを所有しているので注意。 (2001/08/08)

ClientHost: 146.245.32.202.ts.2iij.net [202.32.245.146]
User-Agent: Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)     (2001/07/23-)
Accept: */*
Connection: Close

2001/10/24 から、 にせ Referer: をつけるものに切り替えたようです。 たぶん掲示板対策でしょう。 HEAD→GET動作ではなくなり単なるGETになっています。 (2001/10/25)

ClientHost: 61.115.195.128/26
User-Agent: Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)
Referer: ==full Request-URI     (2001/10/24-)
Accept: text/html

以前は、あっても 数アクセス/日 だったものが、 2002/01 下旬から 数十アクセス/日 に 激増しています。アドレスは 61.115.195.180 で固定の模様。 ヘッダ形式などの変更はありません。 RXP での立ち入り禁止区域にもちゃんと入り込んできます。 (2002/02/06)

サンプルイメージ のために用意されている ダミー掲示板は、 結構良くできてます。どっかから無断引用して作ったのでは?

NetFront
アクセス製の 組み込み用ソフトウェアモジュール。(OSではないハズ) こちらの AVE-Front は 2.0 のようです。 →AVE-FrontITRONニュースレター No.25
User-Agent: Mozilla/3.0N AVE-Front/2.0 (BrowserInfo Screen=400x240x32K; InputMethod=REMOCON; Page=1.5M; Product=ALPINE/InterNavi1.0; HTML-Level=3.2; Language=ja.SJIS; Category=CarNavi; CPU=SH2; Storage=NO;) UA-pixels:400x240 UA-color:color15 UA-OS:NetFront UA-CPU:SH2
なんかアクセスパターンがわざとらしいんですけどー (テスト中ですかね)

NetJet
Peak Net.Jet というアクセラレータがあるんですが、これと同一のものかは不明。 というのも、お試し版 (でかい←JDKをかかえ込んでいるから)を使ってみたんですが、 GETを速射するという挙動は確かに似てます。 でもUser-Agentがつかない…製品版ではつくんだろうか… 実際に速射されたことがないし…使っている人教えてー
User-Agent: NetJet/1.0

NetManage Chameleon WebSurfer
ブラウザ。(us,ja) 5.0以降は にせもぢら(しかも判別不能なものも)
User-Agent: NetManage Chameleon WebSurfer/Ver4.5
User-Agent: NetManage Chameleon WebSurfer/4.5.2
User-Agent: NetManage Chameleon WebSurfer/4.6
User-Agent: Mozilla/2.0b5 (Win95; I)    5.0体験版
User-Agent: Mozilla/2.0 (Win95; I)    5.01.2体験版
User-Agent: Mozilla/2.0 (compatible; WebSurfer/5.1; Win32)

NetMechanic
(WRD) リンクチェックサービス。 robots.txt 対応、10秒間隔とよくできてます。 「ちょっと確認」程度にはちょうどいいでしょう。 本格的にやるならちゃんとしたツールを揃えてローカルで動かすべし。
User-Agent: NetMechanic

Netmind-Minder
更新通知サービス Mind-it のロボット。URL-Minderの後継。 更新時刻だけでなく 様々な検出オプション を指定でき、 情報提供側で細工をすることで より高機能になるという、 双方に使ってもらえるよう配慮しています。
基本的には *.netmind.com からしか来ません。 更新検出サーバー自体 (Enterprise Minder)は 販売もされているので、他の場所での動作が観測される場合もあり得ます。 →URL-Minder (1999/08/12)
User-Agent: Netmind-Enterprise-Minder/1.0.2     (1997/11/16-)
User-Agent: Netmind-Minder/1.0.4     (1998/01/28-)
User-Agent: Netmind-Minder/2.0     (1998/05/15-)
User-Agent: Mozilla/2.0 (compatible; NetMind-Minder/2.0)     (1998/08/22-)
User-Agent: Mozilla/2.0 (compatible; NetMind-Minder/3.0)     (1999/02/25-)
サーバーを売るのが商売だということになってますが、 実は利用者の統計情報を売ってるかもというのは妄想でしょうか

NetRecorder
機能てんこもりプリフェッチャ。
User-Agent: NetRecorder/1.0
User-Agent: NetRecorder/2.0
User-Agent: Mozilla/2.0 (compatible; NetRecorder 2.0; Windows NT)
User-Agent: Mozilla/4.0 (compatible; MSIE 4.0 NetRecorder3.0; Windows95/NT)
NetRecorder4 はproxyエンジンを分離し、 全面的に MSIE に依存するように書き換えられたようですが、 つまり区別不能です。 どーも最近 MSIE にしては爆撃が激しく、ブラウザらしくないものが あるのですが、こいつか…?
そこそこ知名度のあるソフトなのでタチが悪い。 UIのデキはそんな悪くないんですがね。(1999/06/13)
User-Agent: Mozilla/2.0 (compatible; MSIE 3.02; Update a; Windows 95)     (NetRecorder 4;区別不能!)
…ということを確認した後アンインストールしたら、 しっかりMSIEのproxy設定をチャラにしてくれました。やってくれるよ…

Netscape-Catalog-Robot
Netscape Catalog Server の索引作成ロボット。 Enterprise Server や Harvest と組み合わせて使用する。 /robots.txt の他に /rdm/incoming?type=status-request を持っていこうとしますが (大抵そんなもんは存在しないので 404 が返る)、 苦情メールを出すのはちょっと待った…後者は RDMサーバーの存在確認 です。From:を設定してから放たれるようなので、 身に覚えのない爆撃を受けているなら苦情を言ってもいいでしょう。
User-Agent: Netscape-Catalog-Robot/1.0

Netscape-Proxy (proxy)
「頻繁に使われるドキュメントは自動リフレッシュ」 する時のエージェント名。 普段の Forwarded: がついたままのリクエストを出す。 ←直接とりにいってるんだから本当は不要
User-Agent: Netscape-Proxy/2.5 (Batch update)
Forwarded: by http://somehost:80 (Netscape-Proxy/2.5)

NetScoop
(WRD) 徳島大学の検索エンジン。めでたく名前も決まったようです。
User-Agent: NetScoop/1.0 libwww/5.0a

NETSGO Browser
NETSGO が配っている MSIE4.0流用のカスタムブラウザ。 今後は MSIE 流用のブラウザは増えてくるでしょうが、 はたして峻別すべきかどうかてのもなかなかむつかしい所です。 ベンダの市場占有率を見るなら峻別すべきだし、 ブラウザに合わせた出力云々なら区別する必要はない。
とりあえず NETSGO のは写真を見る限りだいぶ手が入っているので、 一応検出して統計を出すようにはしてみましたが… (1999/07/02)
Mozilla/4.0 (compatible; MSIE 4.0; Windows 95; NETSGO Browser 1.0)
Mozilla/4.0 (compatible; MSIE 4.01; Windows 95; Netsgo Browser 1.0d)
NEWT ActiveX
NetManageの TCP/IPモジュール、 NetManage Enhanced Windows TCP/IP (NEWT) の中の HTTPをしゃべる ActiveX コントロール。 色々なアプリケーションに使われているので、これだけでは 何に使われているのかは不明。
User-Agent: Mozilla/2.0 (compatible; NEWT ActiveX; Win32)

Nocturne
プリフェッチャ。 ツール自身が HTTP をしゃべる場合は "Nocturne" だが、 MSIE や Netscape を HTTPエンジンとして使うことも可能。 その場合は User-Agent は当然ブラウザのものになる。 常に画像ファイルを取ってくる(画像なしにできない!)ので、 サーバーから見える挙動は一見ブラウザと同じ。 ドキュメントには書かれていませんが、常に1秒間隔を開けるようです。
User-Agent: Nocturne/1.05

Novita LiveLetter
HotJavaベースのメーラー。 ブラウザとして使っても、 ただの HotJava より少しだけ軽い気がするのは何故?
User-Agent: Mozilla/2.0 (compatible; Novita LiveLetter 1.0)
なんだか 買収されて しまいました。

oBot
おそらくOnly Solutions / cobion の 商標侵害検出用のロボット。 当サイトでは画像を貼っている人がめっきり減ったので はっきりしないのですが、画像も持っていこうとします。 一応1秒間隔は空けているつもりらしい。 /robots.txtの次に1分ほど手当たり次第に漁っていったあと小休止、 て感じのアクセスを行ないます。 おなかいっぱいになると数ヶ月は来ない模様。
Only のサイトはドイツ語なので、子会社の cobionの説明 の方が読める人が多いかも。 (2000/12/05) →[MarkWatch], [WebClipping]
ClientHost: 62.159.152.32/27, 195.127.173.128/26 (Only Solutions GmbH)
User-Agent: oBot ((compatible;Win32))     (2000/03/21-2001/09/22)
Referer: when Image Checking
Accept: www/source, text/html, video/mpeg, image/jpeg, image/x-tiff, image/x-rgb, image/x-xbm, image/gif, */*, application/postscript

(2002/02/12) 2001/05/22 から MSIE に偽装するようになりました。 検閲系のロボットは結局はそういう方向に落ち着くようで。 →netfilter, [e-mining], MarkWatch, WebClipping
普段は画像だけを更新チェックするような挙動ですが、 数ヵ月間隔で大爆撃して更新をおこなうようです。 統計は "[obot]" で抽出。

通信内容のフィルタを行う専用機 (OrangeBox) も提供しており、画像だけでなく文章の自動分類もやっているようです。 どういう分類が されているか 検索する こともできます。 リンク関係も考慮に入れている感じ。 (ドメイン名しか見てない気がしますが)


User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 4.0; QXW03018)     (2001/05/22-2001/09/22)
No Other Headers

ClientHost: gw-cobion.netcomnetz.de [195.127.134.66], [213.252.152.12]
User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 4.0; obot)     (2001/12/17-)

QXWxxxxx てのは Lycos Europe の MSIE(とNetscape) に特有の カスタム文字列 の模様。 (今確認したら QXW0336z だった。) ダウンロード時期等で変更されるのかバリエーションは豊富。 個人追跡もある程度できそうですが、 なぜか 問題 にする人が少ない。 ロボットに使われていたのは、開発者が使っていた MSIE の ヘッダのダンプを 深く考えずそのまま突っ込んだためと思われます。 (/2002/02/12)

Offline Explorer
再帰巡回ダウンローダ。 一応取得間隔を開けられるようにはなっているのですが(デフォルト0秒)、 並列にスケジュールされたものは間隔を開けずに全部同時に取りにいきます。 (例: htmlを取得→待つ→インライン画像を並列取得)
"Web Downloader" は旧名で、公式には 2.2 までです。 3.0 はOffline Explorer の UA切替メニューに含まれているもの。 他のエントリは再現度が高く一般には区別不能で、 わずかに IE3.0モードが本物と違うのみ。 (1999/07/06)
User-Agent: Offline Explorer/1.1
User-Agent: Web Downloader/3.0
User-Agent: Mozilla/2.0 (compatible; MSIE 3.0A; Windows 95)     (IE3.0モード)
OmniWeb
(BW) NEXTSTEP用ブラウザ。 2.0beta8 からそういう機能があるんですね。 (onにしている人は少ないようですが)
User-Agent: OmniWeb/1.0gamma libwww/2.16pre2
User-Agent: OmniWeb/2.0.1 OWF/1.0
User-Agent: Mozilla/2.0 OmniWeb/2.0.1 OWF/1.0
リリースノートなどの DOCTYPE は、 今となっては歴史を感じさせるものがあります。

[oncread.cgi]
通常ブラウザのための Pメール端末 エミュレーター(厳密には違う)。 HTTP/0.9 を使っているので UA はつかない。 (なおコメントアウトされた部分には "User-Agent:unknown" がある)
CGIとして実装されるが、アクセス制限等は普通しないだろうから、 「匿名串」として使われる可能性もあり。 必ず "?pdxdata=...%0d&0a" がつくのである程度は検出可能。 通常なら対応コンテンツを用意しているサーバーでしか観測されないはず。 統計では "[oncread.cgi]" としてあります。 (2000/02/11)
Request-Line: GET /abspath?pdxdata=pdxdata%0d%0a
オープンネットコンテンツ コンテンツサービス仕様書

OpenTextSiteCrawler
Open Text Corp.製の検索エンジン用ロボット。 販売もされているので、 The Open Text Indexで 使用されているものであるとは限らない。 その場合でも Referer: は Open Text の方を向いているので 役に立たないと言えなくもない。(設定し忘れてるだけと信じてあげよう) User-Agentに "OTI" "OTIR" が入っているものは大方これ(が/の前身)です。 →fly
User-Agent: OpenTextSiteCrawler/2.1
Referer: http://index.opentext.net/OTI_Robot.html

NACSIS から、 はっきりと テストコレクション生成用 と 述べているものが出るようになりました。 (2001/12/07) →fly

ClientHost: ws-1-67.sinet.ad.jp[150.100.1.67]
Accept: */*
From: ntcadm-web@nii.ac.jp
Referer: http://150.100.1.67/
User-Agent: OpenTextSiteCrawler/2.9.5.6     (2001/11/25-)

OpenTransportWWW
ブラウザっぽいですが、 OpenTransportに ブラウザなんてついてくるんですか?(よく知らない) MacOS8には Netscape,MSIE,CyberDogが附属してくる ようなので、将来は見られなくなるかも…(1997 05/27)
User-Agent: OpenTransportWWW/1.0_a5c7 (Built_in_MacOS8_b3c1; I; PPC)

Opera
(BW) 古い機械と障害者のために作られた 高速・軽量ブラウザ。 単にキーボードだけでも使えるってだけみたいですが…(1999/03/30)
最近のはやたら機能が増えてきたので、軽量かどうかは ちと疑問かも。メモリ 6M で軽いといえるかどうかは 微妙な所。 バージョン3.2あたりから変な UA を渡すようになってきました。 詐称しきれなくなったんかもしれません。(1999/06/25)
User-Agent: Mozilla/1.2 (Opera/2.04)
User-Agent: Mozilla/3.0 (compatible; Opera/3.0; Windows 95/NT4) beta 9
User-Agent: Mozilla/3.0 (compatible; Opera/3.0; Windows 95/NT4) 3.2
User-Agent: Mozilla/4.0 (Windows 4.10;US) Opera 3.60b3 [en]

Oregano
(BW) Acorn RISC 用のブラウザ。 観測例は希少。Arachneといい勝負か? 日本語は出ないでしょうから日本で使っている人はほとんどいないでしょう。 (2001/07/02)
User-Agent: Mozilla/4.72 [en] (Compatible; RISC OS 4.02; Oregano 1.10)
Accept: image/gif,image/jpeg,image/pjpeg,image/png,*/*

他のサーバーログを漁ると、初期は Mozilla/1.05 [en] (Compatible; RISC OS 4.03; Oregano 1.05) みたいな UA を使っていた模様。

PageDate
更新時刻チェッカ。こっちの方はようやっとまともなUser-Agent になったようである。→httpdown
User-Agent: Pagedate using http.cc
User-Agent: Pagedate/1.0 http.cc/1.0

PageDown
再帰巡回ダウンローダ。最新版はRXP対応、500ms間隔。 ソース(1.70)を見た限りでは IMS 発行ロジックはなく、 GETしたあと(ぉぃぉぃ)1日単位で比較して、 その後をreadするかどうか決めている。 (InternetDL.cpp:CInternetDL::Get())
UI的にも微妙な所でスタイルガイドと乖離しているので、 なーんかストレスがたまる。 (<だからぁ、そういうのは直接作者にグチれよ) (1999/06/09)
User-Agent: PageDown105
User-Agent: PageDown/1.70(Win32; http://www01.u-page.so-net.ne.jp/fa2/y_yutaka/)

PetreSpider
demonet.opentext.com から来ているロボット。 新手のOpenTextロボットかしらん。 (cf. fly)
User-Agent: PetreSpider/OTWR:002p116
Referer: http://www.opentext.com

PlanetWeb
PlanetWeb製の組み込み用ブラウザ。 発表時期は Aplix とほぼ同じ (PlanetWebは1996/5,Aplixは1996/4)ですが、 中身は別物です。(…たぶん)
国内版は伊藤忠が供給することになるようですが、 一向に話を聞きません。
User-Agent: Mozilla/2.0 (compatible; PlanetWeb/1.011 Golden; SEGA Saturn; TV; 640,480)
User-Agent: Mozilla/2.0 (compatible; PlanetWeb/4.026 Beta; SEGA Saturn; TV; 640,480)
User-Agent: Mozilla/2.0 (compatible; Planetweb/1.55 Japanese; Nishiden; TV; 640,480)
ドリームキャストに関しては 日本は NetFront、 米国では Planetweb と分割されたようです。
User-Agent: Mozilla/3.0 (Planetweb/1.219 JS SSL US; Dreamcast US)

GetHTMLW
再帰取得+組込proxy=オフラインブラウザ。 マニュアルを見ると非常に丁寧に作り込まれているのがわかるのですが、 作者の言う通り UI のとっつきは若干悪いです。 なんとなく作者は UNIX 出身ではないかと感じます。
"Pockey" は、再帰取得時のUA。 作者が飼っているウサギ の名前のよーですね。表の文書等には一切出てきません。 (いくら検索かけても見つからないわけだ) UA がつくのは 3.2.0 以降 (1998/11/17-) となっています。
丁寧に作られている割にはproxy時のVia:などはつきません。 デフォルトのポート番号は18080。 このテのツールにしてはめずらしくReferer:がつきます。 (1999/10/18)
User-Agent: Pockey/5.3.0(WIN32GUI)
User-Agent: Pockey/7.1.6(WIN32GUI)
User-Agent: Pockey/7.2.0(Win32, ix86, GUI)
valid Referer:
わざわざ "WIN32GUI" とつくのは、コマンドライン版や UNIX版もあるためのようです。

(2002/10/17) ver 7.11.0 (UAは なぜか 4.11.0)から "GetHTML" が含まれてます。 今更つけてどうすんだという気も。文句がいっぱい来たんでしょうか ("GetHTMLW" ぢゃないから 何の役にも立ってないという話も)

User-Agent: Pockey-GetHTML/4.11.0 (Win32; GUI; ix86)     (ver 7.11.0, 2002/06/30-)

PolyBot
検索エンジン用ロボット。 ポリテクニク大学の授業で作らされる もののようで、Pythonで書かれているようです。 30秒間隔、並列動作 てのは確かにきっちり守られてますが、学生に出されている 課題 にはそう作れと書かれてないので誰が実装しているのか いまいち不明。
Host: がないのでvirtual hostでは困るはず。 Pythonの標準ライブラリでは Host: はつくし UA完全上書きは できないので、おそらく先生のお手製ライブラリ使用と思われます。
User-Agent: PolyBot 1.0(http://cis.poly.edu/polybot/)
Accept: text/plain, text/html
No Host:
Powermarks
ブックマーク管理ツール。 リンク先の存在確認のために HEAD のみを発行する。
User-Agentの値は使用しているブラウザとは無関係の固定文字列。 2.0でも"Powermarks/3.0"だったりします。 (1999/06/07)
User-Agent: Mozilla/4.5 [en] (Win95; I)(compatible; Powermarks/3.0; Windows 95/NT4)    (3.07)
User-Agent: Mozilla/3.0 (compatible; Powermarks/3.0; Windows 95/NT4)     (2.04)
Pribot
不明。ドブさらい系の模様。/robots.txtは使っている感じ。 動かしているのは この人 のような気がしますが、なぜ動かしているのかは不明。 IMS が常に (time_t)0 なのは狙っているのか 実装するつもりだがとりあえずなのか (現状では単に無駄なだけ) (2000-07-29)
User-Agent: Pribot/1.6
User-Agent: Pribot/1.8
From: pribot@pritto.com

Clienthost: 216.240.165.121 (emi.pritto.com)
User-Agent: Pribot/3.16
Accept: text/html, text/*, */*
Accept-Language: ja, en;q=0.5, *;q=0.1
From: pribot@pritto.com
If-Modified-Since: Thu, 01 Jan 1970 00:00:00 GMT     (固定)
Referer: real referrer

PRODIGY-WB
Prodigy Service専用ブラウザ。 Windows用のしかない(ありがち)

[ProFusion Linkchecker]
メタ検索エンジンのリンクチェッカ。 UAなし。 統計では "[ProFusion Linkchecker]" としてあります。 Host: もないので、URLによっては誤動作する? (2000/03/09)
Clienthost: profusion.he.net
Request-line: HEAD absurl HTTP/1.0
No Host:
No User-Agent:
[Proxymate] (proxy)
匿名化proxyサービス。 AutoFill がウリですかね。安全性は各自で考察するように。
内部的には Squid を2段かませているような感じ。 HTTP的には User-Agent: を固定文字列に置き換えている(旧版)/ "(" 以降を削り落とす(1999/12~?) くらいですが、 制御用フレームの噛ませ方が ややひねくれていて、 完全に透過にはならない場合があります。 統計では元がわからんので "[Proxymate]" としてあります。 (2000/01/14)
Clienthost: www2.proxymate.com
User-Agent: Mozilla/4.07 [en] (X11; I; Linux 2.0.36 i686)
X-Forwarded-For: IP addr of www.proxymate.com
User-Agent: Mozilla/4.7 [en]     ("("以降削除)
X-Forwarded-For: unknown
気に入らなければ、とりあえずclientベースで はねつけておけばいいんでわないでしょうか。(1999/09/23)

Proxy+ (proxy)
Win95/NT用マルチプロトコルproxy。 HTTP proxy の機能は妙に Squid に似てたりします。
X-Forwarded-For と Via: をつけますが、 この書式では Via: の役目の一つである「自己ループの検出」 ができんと思います。 Response にはVia等はつきません。 ついててもあんまし使われないのは事実ですが (1999/09/20)
X-Forwarded-For: XXX.XX.XX.XXX
Via: 1.0 Proxy+ (v2.20 http://www.proxyplus.cz)
PRS-Robot
検索エンジン用ロボット。 千里眼(Senrigan)、mondou(Rcaau)、ODIN(Valkyrie) の収集を一元化したもの。 Javaてことは Senrigan ベースだと思われます。 1999年からの新版は正規 Referer で、文句がある奴はここを見ろリンクは UA側に移りました。 (1999/06/13) →Senrigan, Valkyrie
User-Agent: PRS-Robot/19970528Java/1.1.2beta (Solaris/2.x; x86)
Referer: http://aniki.olu.info.waseda.ac.jp/
User-Agent: PRS-Robot/19990525 Java/1.2.1 (SunOS/5.6; x86; http://www.etl.go.jp/~yamana/DWR/)
Referer: real referer
PNWalker
再帰巡回プリフェッチャ「ぷらネットウォ〜カ〜(+NetWalker)」。 GETの前にいちいちHEADするのが非常にうっとおしい。 売りは「CGサムネール」「有名声優」くらいで、主に CG観賞用に特化されているが、 プリフェッチャそのものとしては最近ではかなり貧弱な部類に入る。 (proxyとして使えないし)
ニセモノは開発元のWeb Technologyから。 現在(1997 3/26)1.5.0はアナウンスされていないようなので、 おそらく開発途中のものでしょう。
User-Agent: PNWalker/1.0.0
User-Agent: Mozilla/3.0 (PNWalker/1.5.0)

Pocket Internet Explorer
Windows CE 専用ブラウザ。
MSPIE 1
User-Agent: Mozilla/1.1 (compatible; MSPIE 1.1; Windows CE)
Accept: application/msword, image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*
MSPIE 2
User-Agent: Mozilla/1.1 (compatible; MSPIE 2.0; Windows CE)
Accept: */*
UA-Color: colorn
UA-CPU: CPUtype
UA-OS: Windows CE
UA-Pixels: horizxvert
MSPIE 3
User-Agent: Mozilla/2.0 (compatible; MSIE 3.02; Windows CE)     "MSPIE"が入らない
Accept: */*
UA-Color: colorn
UA-CPU: CPUtype
UA-OS: Windows CE (JUPITER) - Version 2.11
UA-Pixels: horizxvert
仕様として Refererを送信しない ので、あればニセモノか偽装ツール経由です。

The PointCast Network
ニュースダイジェスト提供サービス The PointCast Network に組み込みの ブラウザ。 ブラウザとしての性能は決して高くはなく、 もぢら組み込みを奨励しているのもNetscapeの策略ばかりとは言えない。 システム自体は結構面白い。
User-Agent: Mozilla/1.2 (compatible; PCN-The PointCast Network 1.1/win16/1)
初期のクライアントは 日本語未対応(なんと日本語フォントを選択させてくれない)ので、 DeleGated の CII などを駆使しないと日本語は出ません。

Proxomitron (proxy)
汎用HTTP加工proxy。"SpaceBison" は、デフォルトのUA加工文字列。 デフォルト設定では大部分のヘッダは削り落とすようになっています。 当然のように Via: なんかはつきません。
User-Agent: SpaceBison/0.01 [fu] (Win67; X; ShonenKnife)
User-Agent: Space Bison/0.02 [fu] (Win67; X; SK)     (Naoko-4以降)
X-Forwarded-For: yahoo.com, microsoft.com, netscape.com, aol.com, targethost     (X-F-F書き換え、普段はoff)
Referer: Request-URI     (Referer潰し時)
ShonenKnifeはドイツ語ではなく日本語そのまんまらしーです。 こういう趣味丸だしなものはカッコ悪いんであまし載せたくないんですが (amiware よりはましという話もある)

Proxy gateway ....
CERN

pwWebSpeak
視覚障害者むけの「しゃべる」ブラウザ。皆さん ビジュアルなブラウザでも理解できる ようなページを書いてますか?
User-Agent: pwWebSpeak 1.2.4 Non-Visual Browser (16 bit; P)

puf
(再帰)取得ツール "Parallel URL fetcher". オプションがややこしいですが、再帰機能・IMS・Range:制限と 使いこなせればそれなりに便利そう。 Wgetのような再帰時の待ちが入れられず常に爆装しているので、 改造できない人は お家の外では使用禁止です。
User-Agent: puf/0.9beta5 (`uname -s -r`; `uname -m`)
Use Range:, If-Range:, If-Modified-Since:, Referer:
Python-urllib
Python に付属の URL(HTTP)アクセスライブラリ。
ヘッダ関係インタフェースが add_header()しかなく UA の完全上書きができないので、"Python-urllib/xxx" は 必ず先頭についてしまいます。 (2001/12/11)
User-agent: Python-urllib/1.15     (urllib)
User-agent: Python-urllib/2.0a1     (urllib2)
urllib2 は proxy時のHost:の扱いも変だぞ

QILM
"Q's Internet Link Manager"。 ブックマーク更新チェッカ。 巡回ダウンロードも一応可能なのだが、 もともと更新チェッカだったためか IMS発行ロジックは持っておらず、 302 Redirect も辿りません。 ダウンロード機能はおまけと思った方がいいでしょう。 UIは割と素直。
User-Agent: QILM/2.30 (http://www2.airnet.ne.jp/pak04955/)
User-Agent: QILM/2.5
User-Agent: QILM/2.61
今後の予定 には「http-equiv="Refresh" 対応」が挙がっているが、 まだやるべきことがあるような気が… (NetscapeはHTTPに直接 Refresh: があっても解釈します) (1999/06/19)

Quarterdeck Mosaic
(BW) Mosaic系統の中では初めてもぢらを名乗っているかもしれない。 落ちたもんよのぅ。
User-Agent: Mozilla/1.22 (compatible; Quarterdeck Mosaic Version 2.03.001 (Apr 19 1996)/Windows/Domestic)

QuickSilver (proxy)
Unified Research Lab.の 統合パッケージ、Unified Network Solutions に含まれている Proxy Cache。 かように長大なヘッダを追加するエージェントも珍しい。 RCSのヘッダがそのままついているし… →I-Proxy
Forwarded: by http://nnadmin.sbo.nn.k12.va.us:8002/ (QuickSilver-1.0.0 + SafetyNet-1.0.1 + History-1.5 + Ding-1.1) for sbo70.Sbo.NN.K12.VA.US: /usr/local/src/uns/QuickSilver/working-0.6/src/RCS/quicksilver.perl,v 1.19 1996/08/14 00:57:28 tadguy Exp

Radiation Retriever
リンク逆探知・確認ツール。サーバーと組み合わせて使用する。 現在はLinkTrakkerに改名。
User-Agent: Radiation Retriever 1.1

Rational SiteCheck
サイト管理ツール。 リンクチェックだけなら HEAD で済むのですが、スピード計測機能も ついているようなので GET が必要なんでしょう。 MSIEやNetscapeにも偽装可能 なのですが、UA がどうなるのかは不明。 (1999/07/06)
User-Agent: Rational SiteCheck/7.0.0 (Windows NT)
UA-OS: Windows 95
Rational のサーバーは表が Apache, 裏が borscht というものになってますが、 CGIが手抜きで HEADでも全体をよこします。 (ええい、いちいちボルシチ食わせようとするんぢゃねぇ)

Rho
検索エンジン用ロボット。通常は nitech.ac.jp 内にしか行かないので、 アクセスがあったのは何かの間違いでしょう。 「検索ページ」 のデザインが いかにも汎用ロボット的なんですが、 書いてある英語がいかにも日本人が書きました的なので(Rho/3.3時代)、 おそらくnitechでしか使われてないと思われます。
Referer: は その検索ページですが、JavaScript非対応ブラウザだと 何だかわかりません。
User-Agent: Rho/3.3
Referer: http://133.68.137.195:80/~tez/DeaAquae/
From: tez@egg.ics.nitech.ac.jp
User-Agent: fe~/2.0 rho/4.2d
Referer: http://133.68.137.195:80/~tez/tildren/
From: DeaAquae@mcn.ne.jp

Robot/www.popjapan.vv.gs
PopJapanの 検索エンジン用ロボット。 ヘッダの雰囲気から wget流用かと思ったら その通り でした。 めずらしく Referer: がつきますが、 単なる wget -r なだけなのかもしれない。 2001/07 からの新型?はWget/1.7に換えたのか 判りづらくなっています。
RXP解説へのリンクが 原典ではなく NNR になってるのが謎。 (Y!Jに登録されているから?) (2001/08/03)
ClientHost: f8-pc91.cty-net.ne.jp [210.128.76.91] (dialup?)
User-Agent: www.popjapan.vv.gs/SearchRobot     (2001/05/28-2001/06/19)
User-Agent: Robot/www.popjapan.vv.gs     (2001/07/23-2001/10/21)
Referer: real referer
Accept: */*

ClientHost: cache5.cty-net.ne.jp [210.149.120.130]
User-Agent: Robot/www.pj-search.com     (2002/02/02-)
Referer: real referer
Accept: */*
検索結果から「このページを解析」させると "http://www.popjapan.vv.gs/ BCC 0.03" てのが来ます。 "BrowserCrasherChecker 0.03" の改造品の模様。

Robozilla
Open Directory Project で使われている 定期リンクチェッカ。 (1999/11/17)
User-Agent: Robozilla/1.0
Referer: http://directory.mozilla.org
Roverbot
(WRD) メールアドレス探索ロボット。詳しくはリンク先を見てもらうとして、 条件探索したアドレスのリストを(有料で)提供してくれます。 ビジネス用途。 「ライバル会社へのリンクはあるのに何でオレの所のはないんだ」 「古いリンクを残してんじゃねぇ」などを通知するため(?) といった例が載ってますが、使い方によっては迷惑そう。

RPT-HTTPClient
Java のHTTPパッケージ。 UA に何も設定してなければこれだけ。 設定しても、改造してなければ必ず "RPT-HTTPClient/version" が後ろにつくのでわかります。
とりあえず 209.6.118.4 から、いかにも検索ロボットな 物を観測してるんですが、逆索き できんし何だか不明。(1999/09/07)
User-Agent: RPT-HTTPClient/0.3-2
Accept-Encoding: deflate, gzip, x-gzip, compress, x-compress
使う人は HttpURLConnection.setRequestProperty("User-Agent",...) で それっぽい名前をつけてから使いましょう。 (ドキュメント見てもすぐにはわからんぞ…)

Sax Webster
OLE カスタムコントロールのブラウザ。なんだか Referer: に 全然関係ない所を指定してくるんですけど。撹乱戦術かしらん。
User-Agent: Sax Webster Sax Webster Win32

Scooter
(WRD) AltaVistaの検索エンジン用ロボット。 いつのころからメールアドレスが入るようになったんでしょうね。 →[av_Mercator]
User-Agent: Scooter/1.0 scooter@pa.dec.com
User-Agent: Scooter/2.0 G.R.A.B. X2.0     (1998/04/10-)
From: steves@pa.dec.com
User-Agent: Scooter/2.0 G.R.A.B. V1.1.0
From: scooter@pa.dec.com

MS Search Robot
不明。*.microsoft.com よりのみ。 一応 /robots.txt は読んでいるのだが、アクセスがえらく緩慢 なので(最頻1日1回)検索エンジンなのかどうかもわからん。 このFrom:は いかにも届きそうにないですなぁ… Site Server のロボットとは別物だと思います。 (1999/06/24)
User-Agent: Mozilla/4.0 (compatible; MSIE 4.01; Windows NT; MS Search 4.0 Robot) Microsoft
From: user@microsoft.com
役に立たないのを承知で書くと、"Microsoft Search" とつくのは 憶測126%で後者の管理用て可能性もありますが定かではないです。…

[sellit-here]
不明。 今のところ2回しかアクセスがなく、特に脈絡もない。 必ず前もって /robots.txt を持っていく。 Range: の値が中途半端に大きいのがちょっと気になる。 (2001/12/06)
ClientHost: www.sellit-here.com [12.10.6.194]
User-Agent: Mozilla/4.7 [en] (WinNT; I)     (2001/09-)
From: bmccane@maxbaud.net
Range: bytes=0-300000
管理者のホームページ らしきものも存在するようだが中見なし。 (昔は何かがあった様子)

Senrigan
(WRD) .jp ドメイン専門検索エンジン 千里眼 のロボット。 Referer: には検索ページを渡してくれている。 おそらくこれにもとづいてつけてくれたのでしょう。
PRS-Robot
User-Agent: Senrigan/19961227 Java/1.0.2 (Windows 95; x86; )
Referer: http://www.info.waseda.ac.jp/search.html

Sextant
(BW) Alis Technologiesによる Mosaicベースの多国語ブラウザ。 "Sextant"というのは開発コードらしく、これが製品化されたものが Tango です。
そこの広大な空間は何を意味するのか…何かが入る予定だったのかな
	User-Agent: Mozilla/2.0 (Sextant v3.0  c1.0           Win32 Alis)
	
Shodouka
日本語をGIFに直してくれるゲートウェイ。 日本のサーバーではめったに見かけない(<逆では?)。 同様の機能は今のDeleGateにも備わってますが、 海外ではShodoukaのほうが圧倒的に有名のようです。
しかし「試してみよう」の二行目がここかい…
User-Agent: Shodouka/0.7c (Japanese text renderer)
User-Agent: Shodouka/0.8 (Japanese text mediator by Ka-Ping Yee, ping@lfw.org)

User-Agent: sprocket/0.1 (mediation library by Ka-Ping Yee, ping@lfw.org)
host: originhost
accept: */*

これを使えばArenaでも日本語が出ま…あ落ちた…

sitecheck.internetseer.com
サイト到達性モニタサービス。 通常は自分(自社)のサイトの到達性を監視させますが、 有料サービス (Atwatch PRO) ではリンクチェックも行うので、他所のサーバーでも 観測されることがあります。
旧Accept は Java を匂わせます。 サイトも jspsessionid= を大量に食わせようとする。 UA はこれ以上ないくらいわかりやすいですな。 (2002/02/07)
User-Agent: sitecheck.internetseer.com (For more info see: http://sitecheck.internetseer.com)
Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2     (2002/01/06)
Accept: deflate, gzip, x-gzip, compress, x-compress     (2002/01/16)
[siori]
更新チェッカつきリンク集作成ツール。 実際には誰かが ?go=nn なリンクをたどった際に 更新チェックを行う。 302 ではなく、HREFのあるページを返すだけなので、 利用者がリンクをたどらなければ直後のブラウザヒットは来ないこともある。
HEAD固定。 PHP で書かれてはいるが、UAは組み込みではなく、わざわざ "PHP" に セットしてある。
	$request .= "User-Agent: PHP/".phpversion()."\r\n";
	
	
Clienthost: www2.adam.ne.jp [211.10.20.165]
HEAD absurl
User-Agent: PHP/4.2.2
[LinkExchange SiteInspector]
HTML検査サービス。HTTP的にはリンクチェッカ。 最初は "Mozilla/4.0"、以後は 各リンクに対し "libwww-perl/..." で HEAD。 (href="#..." も一つと数えるらしい)
統計では [LinkExchange SiteInspector] としてあります。 (1999/11/24)
User-Agent: Mozilla/4.0
User-Agent: libwww-perl/5.32
SiteProbe
不明。WWWサーバー種の調査用? 発行元の FAST は 検索エンジンで有名。 (2000/02/08) →[Netcraft Server Tracker], WebProbe
ClientHost: stead.fast.no (213.188.8.49)
Request-Line: GET / HTTP/1.0
User-Agent: Mozilla/4.0 (compatible; SiteProbe/1.0)     (2000/01/03-)
安直な名前ながら衝突はしてない模様。

Siterank Crawler
不明。一日1〜数回、定期的アクセスがある。 Referer固定。UAは完全偽装。 更新検出かリンク宣伝用ロボット? (Referer spambotという言い方はあったかな?)
各ディレクトリには302を返す http://www.siterank.org/jp/redirect/?sid=nnnnnnnnnn な HREF が張られているが、実際にブラウザでたどった際には 普通に(ブラウザ利用者からの)アクセスが観測できる。 だからキャッシュされた内容を配って、 後からヒット数の帳尻あわせをするためのものではない。 libfetch には Accept や Referer を送信する機能はないので、 (裏技を使えばできんこともないが…) 現在動いているものは別のツールを使っていると思われる。
ClientHost: siterank.org [128.121.217.122] (verio.net)
User-Agent: fetch libfetch/2.0     (2002/05/06)
User-Agent: Siterank Crawler [http://www.siterank.org/]     (2002/05/31-06/01 from [218.225.83.57] *.kinden-jps.co.jp)
User-Agent: Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)     (2002/05/06-)
Accept: */*     (2002/05/31-)
Referer: http://www.siterank.org/jp/     (constant)
valueclickとか貼ってるし、登録は個人名だし、 見た目は「大手」ぽいがどうも個人サイトのようだ。 英語ページも整備されているが 日本人ぽい英語 である。 どうやってゼニを稼いでいるのかわからないところが 何となく不気味である。

Site Server Robot
マイクロソフトのWebサイト管理ツール。 HTTP的にはリンクチェッカ。 Site Server 3.0 附属の Site Analyst がこれなんでしょうかね。 Site Analyst 2.0 は "Microsoft_Site_Analyst" なんですが… (1999/05/29)
User-Agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows NT; Site Server 3.0 Robot)
From: someone's address
SiteTech-Rover
(WRD) →Libertech-Rover

Slurp
(WRD) Inktomiの検索エンジン用ロボット。 Referer:ではなくUser-Agent:にHREFが仕込んである。 検索サービス自体は"inktomi.com"から HotBotに移行。
User-Agent: Slurp/1.0 (http://www.inktomi.com/slurp.html)
User-Agent: Slurp/2.0 (slurp@inktomi.com, http://www.inktomi.com/slurp.html)
User-Agent: Slurp/2.0 (slurp@inktomi.com; http://www.inktomi.com/slurp.html)    (1997/03/05-1999/10/06)
User-Agent: Slurp/3.0 (slurp@@inktomi.com; http://www.inktomi.com/slurp.html)    (1999/01-2000/03/22)
User-Agent: Slurp/si (slurp@inktomi.com; http://www.inktomi.com/slurp.html)     (2000/02/11-)
国内ではgooからのものが 今は圧倒的でしょうね。 「初の地域限定検索エンジン」 なる口上はなかなか笑えます。
ディレクトリを "/" なしで持っていこうとして 301 Permanent Redirect を食らっても、インデックスは書き換えないようで、 検索エンジンには "/" なしのものが残ります。 Slurpを使っているのはgoo,Yahoo!,MSN,GoToなどやたらに多いので 結構いたいかも。

gooのロボットは2.0のままですが、本家 Inktomi のは ぼちぼち 3.0 に移行しているようです。(1999/05/27)

ついにというか Mozilla化したものも現れました。 ただ、取得URLが同じ物の繰り返しだったりと、ちょっとクセがあるので UA変調ページだけをチェックしている可能性もあり。 他のヘッダは従来と同じです。 (2000/10/25)
Mozillaなもの(と初期のSlurp/si)は実は IMS も渡してくるのですが、 渡るのはLast-Modifiedではなく前回の取得時刻。 しかも301を食らった場合はリダイレクト先にはIMSは来ません。 相変わらずデータベースには "/" なしのURLが残る模様。 (2001/08/15)

User-Agent: Mozilla/3.0 (Slurp/cat; slurp@inktomi.com; http://www.inktomi.com/slurp.html)     (2000/10/19-)
User-Agent: Mozilla/3.0 (Slurp.so/1.0; slurp@inktomi.com; http://www.inktomi.com/slurp.html)     (2000/11/17-2001/05/02)
User-Agent: Mozilla/3.0 (Slurp-TOCC/si; slurp@inktomi.com; http://www.inktomi.com/slurp.html     (2001/08/08-)
User-Agent: Mozilla/3.0 (Slurp.so/TOCC; slurp@inktomi.com; http://www.inktomi.com/slurp.html)     (2001/08/13-)
Accept: text/*
From: slurp@inktomi.com
If-Modified-Since: time of last retrieval     (2000/10/02-)
SlySearch
パクリ検出サービス用ロボット。 "FAQ"には 他の文書と内容比較してるわけぢゃない と書いてますが、そんな嘘書かれても…
ほぼ1分間隔、sort順なドブさらい型。 "?"つきURLもたどる。 アドレスはダイアルアップから更新しているのか一定ではない。 所々に .../true という存在しない URL を拾おうとする、 robots.txt では UA のカッコがつくというのは larbin を使っているつーことです (実際larbinのままのアクセスも稀にある)。 このテのロボットは完全詐称型で作られがちな中、 正直にUAをつけているのは関心というか。
ClientHost: 209.209.9.49
User-Agent: SlySearch (slysearch@slysearch.com)     (2001/08/09-2001/08/24 for robots.txt only)
User-Agent: SlySearch slysearch@slysearch.com     (2001/08/09-2001/08/24)
Accept: text/html
ClientHost: 64.140.48.*
User-Agent: SlySearch/1.0 http://www.plagiarism.org/crawler/robotinfo.html     (2002/05/01-05/30)
User-Agent: SlySearch/1.2 http://www.plagiarism.org/crawler/robotinfo.html     (2002/06/01-06/16)
User-Agent: SlySearch/1.3 http://www.slysearch.com     (2002/06/26-)
Accept: text/html, text/plain
larbinの ソースを見ると、確かに robots.txt とそれ以外で わざわざ UA を変えているのだが、なんかの名残かも。 このUA生成部はソース上は普通用とrobots.txt用で直列に並んでいる。 前半分(普通用)だけカッコを外して後半(robots.txt用)のは 外し忘れているというだけかもしれない。

SpeedSurfer
proxy型先読みアクセラレータ。 User-Agentがつくのは 4.0 以降のようです。
3.2に関してはお試し版が入手できたので使ってみましたが、 設定可能な項目が並列接続数くらいで、 違うサイトは先読みしない等の設定はできません。 危険な気もしますが並列接続制限があるし、 モデム環境ではそれほどでもないかも。 高速回線で使うと問題が出るかもしれません。 3.2ではUser-Agent等はつきません。 (最初の一回目はブラウザのになりますが)
4.0はまだ当方ではアクセス数が少ないので評価不能です。(1999/06/22)
User-Agent: Mozilla/4.0 (compatible; SpeedSurfer 4.01)

ssc
ソフトサプライ株式会社 (SOFT SUPPLY CO==SSC…) によるセキュリティチェック のお試しプローブ。 CGI出力が腐れていて、普通のブラウザでは結果は表示されません。
ClientHost: [210.163.164.227] navajo2.arrows.ne.jp
Accept: */*
User-Agent: ssc/1.0
セキュリティチェックってもNessus を使ってるだけのよーですが

他にも "ssc_url/1.0" なんてのも来ますが、これも お手製の巡回ツールかダウンローダの模様。 いずれにしてもブラウザではない。

StarOffice
StarDivisionのオフィススイート。 売りは MS Office互換ですが、ブラウザも同梱されています。 現在は Sun に買収されて Sun が配布しています。 ブラウザはHotJavaなんぞとは別物で、 BrowserCaps でもかなりの高得点を出します。 画像をデマンドローディングする(画面内に出てきてから取りにいく) ブラウザは初めて見ました。 (1999/11/18)
User-Agent: Mozilla/3.0 (compatible; StarOffice/5.1; Win32)
User-Agent: Mozilla/3.0 (compatible; StarOffice/5.1; Solaris Sparc)
国内では StarOffice つーと NECのグループウェア を指すみたいですが、訴えたりせんのかいな (国も分野も違うしな…)
…はっ!NEC の StarOffice は Sun StarOffice の ブラウザで使える

Steeler
「tamura」とくれば 千里眼の再来か?と思いがちですが 別人です。 研究室の 募集内容 に沿っているものとすると、 分類としてはロボットになるが、検索エンジン用ではなさそう。 「構造解析」なら Backrub (現Google)、 「ポータル自動生成」ならrelevareやLinks2Go、 「フォーカスクローラ」なら WebFountain 等と、 なんかどっかで見たようなテーマのような。 実用化(≒カネになる)を目指すのであればまた別ですが…
きっちり1分間隔。分散させている場合はクライアント毎に1分。 実験中なのかまだ協調動作は見られず、同じURLを双方で持っていきます。 (2001/10/04) →DiaGem
Clienthost: 157.82.157.9[59] (*.iis.u-tokyo.ac.jp)
User-Agent: Steeler/0.1     (2000/09/28)
User-Agent: Steeler/0.3 (tamura@tkl.iis.u-tokyo.ac.jp)     (2001/09/30-2001/10/06)
From: tamura@tkl.iis.u-tokyo.ac.jp
Accept: text/*
Accept-Encoding: identity
Accept-Language: ja,en
Connection: close

今は全部いっしょになってしまったので混乱しますが、

当時の資料としては山名さんの WWW情報検索サービスの動向 が詳しい。

suke
(WRD) 検索エンジン用ロボット。 普段はあまりアクセスはなく、時々思い出したように バースト的にデータ更新を行なうようです。 ある程度、ページの更新間隔によって更新間隔は変調されるみたいですが、 取得間隔は全く空けずに全部持っていきます。 IMSの類は使用せず。 この特性は suke/0.1 からあまり変わっていません。 404なページもしつこく取りに来ます。 (2000/06/11)
Clienthost: *.satellite.info.waseda.ac.jp
From: robot@kuro.net
User-Agent: suke/0.1     (19990104-)
User-Agent: suke/0.3
User-Agent: suke/1.0 (http://www.kuro.net/)
User-Agent: suke/1.0 (http://kensaku.org/)     (1999/09/18-2000/08/23)
From: robot@kuro.net
2001年に入ってから動いているものは、IMSを使うようになったようです。 絨毯爆撃や廃屋攻撃は相変わらず。 (ていうか新しいリンクを拾ってないような気がする) (2001/02/15)
User-Agent: suke/2.0 (http://kensaku.org/)
From: robot@kensaku.org     (2000/10/28-)
絨毯爆撃を行なうのは、そうゆう仕様なのか、 相手の HP(耐久力) を測定した上で頻度調整しているのかは不明。 (そんな凝ったことをしてるとも思えんですが)

suzuran
おそらく金沢工大阿部研の WebRobotシステム のロボット。 一応 RXP には対応するはずが、/robot.txt しか持っていかないので 結局効いてません。 取得間隔も半年くらいなので、直したとしても RXP は効きにくい?
取得間隔は昔のものは1秒、2001/10 以降のものは30秒。 (2001/10/09)
ClientHost: *.infor.kanazawa-it.ac.jp
User-Agent: suzuran/0.0(TestWebRobot0.0;Java)     (1999/11)
User-Agent: suzuran0.5     (1999/12-2000/03)
User-Agent: suzuran1     (2000/01-2000/02)
User-Agent: suzuran     (2000/05-)
From: a1613494@jupiter.kanazawa-it.ac.jp     (1999/11-2000/02)
From: east@infor.kanazawa-it.ac.jp     (2000/03-2001/04)
From: abelab@infor.kanazawa-it.ac.jp     (2001/10-)
Symantec WebFind Page Validation
とりあえずSymantecのページは のっけからコメントの入れ方が腐ってて何も見えません。…
Internet FastFind検索ツールは、 無効URLをはじくためにリンクチェックだけ(HEAD)をしに来る。 その時のエージェント名。
User-Agent: Symantec WebFind Page Validation

TeraHTTP (proxy)
専用キャッシュ機 TeraNode の HTTP担当部分。 (中身はラックマウントのAT互換機+Solaris2.7)  なぜか Request と Response でヘッダの加工方法が違う。 1.1対応 になってねーぞ (1999/06/24)
User-Agent: browser, (compatible; TeraNode 1.0)
Via: TeraHTTP/1.0     (Response-Headerのみ)
TestApp
…というのは、libwww のプログラミングの 例題 で使われている名前で、そのまま使うのは安直とゆーか…
  1. 徳島大学の検索エンジン(名なし、1997 1/8現在)。 →NetScoop
  2. たぶんSemioMap検索エンジンのロボット。
  3. NETCOMの内側で動かしているようだが、目的不明。検索エンジン?
User-Agent: TestApp/1.0 libwww/5.0a
User-Agent: TestApp/0.9 libwww/unknown

TITAN
NTT謹製の検索エンジン用ロボット (Gooの収集は舶来品のInktomiです)。 長らく NTT navi のエンジンだったはずですが、 今では第一線を降り、売りの 多言語検索 で研究を進めているようです。
売りが検索機能なので、集める方のロボットは なんでもいいような気もしますが、現在使われている "TITAN" は の物のようです。 NTTの研究所もだいぶ組織がえがあったらしく現在はどこが メンテしているのかもよくわからん。 →gazz,griffon (2000/10/20)
User-Agent: TITAN/2.0     (1997/05/15-1997/07/20 for NTT navi)
From: titan-admin@isserv.tas.ntt.jp
User-Agent: TITAN/3.0     (1997/12/05- for NTT navi)
From: titan-admin@isserv.tas.ntt.co.jp
User-Agent: TITAN/5.0 (titan-robot@isl.ntt.co.jp)     (1999/05/26)
From: titan-roboti@isl.ntt.co.jp
User-Agent: TITAN/6.0     (1999/11/30-)
From: admin's address
Accept: */*
Traffic-Server (proxy)
Inktomi製のキャッシュサーバ。 バージョンが上がる度にヘッダがワケワカメになるのがイカす。 "[...]" はクラスター員、 2.0 以降の謎の文字列は設定状態を示しているものと思われる(推測125%)。
だからー token には ("["はともかく) " "入れちゃいけないんだってば。 (1999/06/13)
Via: 1.0 beta-proxy.inktomi.com (Traffic-Server/1.0b6)
Via: 1.0 AOL tot-ta (Traffic-Server/1.1.4(dg) [1])
Via: 1.0 AOL[ 41412ac] (Traffic-Server/1.1.6 [1])
Via: 1.0 AOL tserver2[ 11a12ac] (Traffic-Server/1.1.6 [1])
Via: 1.1 ptest3 (Traffic-Server/2.0 [uScMs f p eN:t c i p s ])
Via: 1.1 PA[98A3E81B] (Traffic-Server/2.2.2(2) [uScMs f p eN:t cSMi p s ])

[unknown accelerator]
不明。おそらく先読みツールだと思われるが、 複数のソフトが同じ UA を使っている可能性もあり。 不思議と "WinNT" は見かけない。 統計では完全一致で "[unknown accelerator]" としてあります。 (2000/01/20)
User-Agent: Mozilla/4.0 (Win95; I)
User-Agent: Mozilla/4.0 (Win98; I)
Cookie: leaking referrer cookie?
URL-Battle
「バーコードバトラー」のURL版 (とはどこにも書かれてはいないが…)。 URL と <TITLE> しか使わないようですが律義に全部持っていきます。 能力診断時は "URL BATTLE1.0" を使用。 (2000/10/19)
Clienthost: www15.gracenet.ne.jp (www.url-battle.com)
User-Agent: URL-Battle 1.0
Referer: http://www.url-battle.com/
URL-Binder
ブックマーク管理ツール。普段はHTTPはしゃべらないが、 手動での更新チェックのときに wininet.dll 経由で外へ出て行く。
既存ブックマークの取り込みが売りですが、 MSIE1.5 と 3.0 が同居していると 1.5 のブックマークを 拾ってくれたりします。
User-Agent: URL-Binder

ブックマークをどうやって管理するかというのはそれなりに面白い 対象で、今のところ汎用性、移植性、拡張性といった点で Netscape式 (HTML+カスタムATTLIST) が一番使い勝手がいいかなと思います。

URL-Binderは独自形式を採用。解析は激簡単
ただ Windows で使う限りでは MSIE式も便利なので迷うところです。

URLキャプター
「リンクブラウザ」。 作者のいう通り ブラウザと巡回ソフトの中間 です。 使えそうなわりに使われてないのは、ダウンロード用のリンクが 腐っているためのような気がするんですが(モッタイナイ)。
IMS未使用。作者が 玉砕してるだけあって この辺の処理はいい加減です(作り込む気がなえたともいう)。 (1999/10/15)
User-Agent: Papanda URL_Captor/0.3 (Tcl/Tk8.0jp)
User-Agent: Papanda URL_Captor/1.0 (Tcl/Tk8.0jp)
"Tcl/Tk8.0jp" の部分は [info patchlevel] ではなく固定文字列なので 全然あてになりません。

/data1/servicecheck/CL/bin/URLCheck.pl/1.0
おそらくOCN naviの リンクチェッカ。 OCN naviは2001/06に終了しており、リンクチェッカも2001/07には 止まったようです。 01,11,21日にチェックしに来ていました。 (他所のサーバーログでも同じ日に現れるようなので、 cronで全部一気にチェック?) "./URLCheck.pl/1.0" てのも黎明期にわずかに見られるので、 UA は本当に "$0/version" のようです。 (2001/08/03) →griffon
ClientHost: ocn.smart-d.com [210.163.250.199]
User-Agent: /data1/servicecheck/CL/bin/URLCheck.pl/1.0     (1998/07/07-2001/07/11)
Accept: */*
Accept-Language: ja
Cache-Control: Max-age=259200
Via: 1.0 ocn:3128 (Squid/1.1.21)
X-Forwarded-For: 210.132.63.166     (luna.navi.ocn.ne.jp)
URL-Minder
更新情報通知サービス URL-Minder のロボット。 現在は Mind-it に改名、 ロボットも異なる。 →Netmind-Minder, Informant
User-Agent: URL-Minder/2.4

(urlmon.dll)
MSIE 3.x 以降で使われる HTTP非同期入出力ライブラリのデフォルト値。 ブラウザが使っている時は大抵ブラウザが UA を供給するので、 デフォルトは非ブラウザなどから使われている場合ですか。
User-Agent: Mozilla/2.0 (compatible; MSIE 3.02; Win32)     (MSIE3.02)
User-Agent: Mozilla/4.0 (compatible; MSIE 4.01; Win32)     (MSIE4.01)
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0b; Win32)     (Windows XP)

MSIE2.0では同梱のURL.DLL、 MSIE1.xでは本体が直接winsockを叩く。

Valkyrie
(WRD) .jpドメイン検索エンジンODINのロボット。 本来の Referer: をつけてくる数少ないロボットの一つ。 →PRS-Robot, Jerky
User-Agent: Valkyrie/2.00 libwww-perl/0.40
User-Agent: Valkyrie/0.99 libwww-perl/0.40

Versanet-Indexer
いちおう検索エンジン用ロボット。まだ工事中とのこと。 このページ、表玄関からは たどれなくなってるけど…いいんかな。キーワードはVersaGuideね。

Viking (proxy)
Windows用(95でも可)の超多機能インターネットサーバー。 単一のプログラムで HTTPd, HTTPキャッシュ, POP, SMTP (などなど…) をまかなってしまおうというもの。
HTTP Proxyとしては先読み (prefetch) 機能も ついており、この際は User-Agent には "(prefetch)" が つきます。 なお、User-Agent 自身はブラウザ側が何であろうと設定不能の 固定文字列に置き換えられます。 元がわからんので統計では "[Viking]" としてあります。 (1999/07/22)
User-Agent: Mozilla/3.0 (Compatible;Viking/1.04)
Via: 1.0 localhost:8080 (Viking/1.04)
User-Agent: Mozilla/3.0 (Compatible;Viking/1.04) (prefetch)
VIRBOT
Virage Inc.画像処理デモの 材料を探すため(と思われる)のロボット。 名前はvirusをほうふつとさせるが、正しくはVirage Robot の略でしょう。 読み方が「バイレージ」か「ビラージュ」かは不明。
/robots.txt をGETの度に持っていくのでうっとしいかもしれない。
User-Agent: VIRBOT

Voila
RXPには 対応している ということになってますが、読みとり頻度が極端に低い上 (今まで一回しか読まれてない)、 それを無視しています。
Range: は、記述言語のチェックでしょうかね。 フランス語だとわかった場合に全部取りに来るのかは不明。 IMSは使っている。 統計では "[Voila]" としてあります。 →EchO!(以前のUA) (2000/02/18)
ClientHost: spider[12].ny.rubis.net
User-Agent: Mozilla/4.0_(compatible;_MSIE_4.01;_Windows_98)/2.0 libwww/5.2.8     (2000/01/27-)
Accept: */*
Range: bytes=0-8192
TE: trailers
Connection: TE,Keep-Alive
なお rubis.net には Mail Exchanger(MX)の設定は されてないようです。 (rubis.frは石油会社なのでたぶん関係ない)

QNX Voyager
QNXに標準添付のブラウザ。 ブラウザというよりアプリケーション構築キットのような感じ (Javaに対するHotJavaようなもの)。 ヘルプブラウザにも使われています。 クレジットには Spyglass の名が入っているので Device Mosaic 系統 なのかもしれません。 Accept: がずらずら並ぶのは NCSA Mosaic系統の特徴。
User-Agent: Mozilla/3.0 (compatible; Demodisk-405/QNX Voyager 2.01B ;Photon)     (フロッピー一枚のデモ版)
User-Agent: Mozilla/3.04 (compatible;QNX Voyager 2.03B ;Photon)
Accept: xyzzy
Accept: application/x-ftp-list
Accept: application/x-gopher-menu
Accept: multipart/x-mixed-replace
Accept: multipart/mixed
Accept: text/html
Accept: text/plain
Accept: image/gif
Accept: image/jpeg
Accept: image/pjpeg
Accept: image/jpg
Accept: image/x-xbitmap
Accept: */*; q=0.100
Connection: Keep-Alive
Host: host
Voyagerと言ったら通常は Amigaのブラウザ ("AmigaVoyager/...") を指すような気がしますが、関係については不明。 ありがちな名前で衝突しているだけ? 次期Amiga用OSとしてQNXが採用しかかって没になったという 話はあるみたいですが。

vspider
汎用検索エンジン用ロボット。Verity Spider の略か? SEARCH'97 Information Serverのためのロボット(と思われる)で、 1996年第4四半期に出荷される見込み。 今(04/Nov/1996)のバージョン番号は0.9ですが、 出荷時は1.0になるんでしょうね。 →JTOPICrobo

起動している 208.197.182.2 は逆索きできないが、正引きは www.albert2.comのようである。これも検索エンジン。

W3C-checklink
W3Cが運営するリンクチェッカ。 現在はRXPには未対応
ですがそんなことはさして問題ではなく、W3C内にありながら オンライン版のページが キャッシュ無効化(cache-busting)を しているのがなんとなく気に食わない。
Accept-Language: en
User-Agent: W3C-checklink/2.67 libwww-perl/5.48
W3CRobot
libwwwに含まれている 汎用ロボット webbot。 デフォルトでインストールされてしまいますが、 調べた版 (w3c-libwww-5.2.8) では ので、一般人がほいほいと使うものではないことに 変わりはないです。 使うなら自分で改造することが前提。
User-Agent: W3CRobot/5.2.8 libwww/5.2.8
Accept: text/plain,text/html,*/*;q=0.3
W3C_Validator
WWW Consortiumによる HTML適合性検証サービス。 「旧版の HTML のチェックもできる」らしいですが、i18n HTML は理解しません。 (1998 02/07)
User-Agent: W3C_Validator/1.0 libwww-perl/0.40
From: unknown@w3-html.pa-x.dec.com

WatchLynx
日記の更新時刻チェッカ。 (1996 11/8から足跡が途絶えた。) 結果の公開が京大・田丸研なのに mailtoやロボットの住みかがハドソンとは これいかに…?

WaveTools
Delphi 用のWebアプリケーション構築キット。 キットのバイナリ中に "WAVETools/2.0" てのがあるので、 UA に何も指定しない時のデフォルトなんでしょうきっと。
附属の サンプルブラウザ は、HTMLは "Mozilla/3.0"、 画像は "WAVETools/2.0" で取りにいきます。 Referer なし。
このブラウザでなさそうなアクセスは Refererには全然関係ない所を渡してきます。 なんで構築キットってこうなんだ… →(Sax Webster) (1999/06/28)
User-Agent: WAVETools/2.0
User-Agent: Mozilla/3.0     (サンプルブラウザ)
サンプルブラウザではタイトルバーにさりげなく "SurfACE" と つくんですが、SurfACEつーと通常は ToolPools製のもの を指します。どっちが先だったんでしょ

webAnalyst
Ararat Softwareのサイト解析ツール。 inWebstigatorの後継。 Ararat は AdageUSに買収されたため、 現在はここが売っています。
User-Agent は偽造可能で、送信しない設定にもできます。
User-Agent: WebAnalyst/2.0

WebAnalyzer
InContext製のリンクチェッカ。 リンクチェッカがもぢらを名乗る必要なんかあるのかね。 →FlashSite
User-Agent: Mozilla/1.22 (compatible; WebAnalyzer 1.0; Windows)

WebAuto
再帰巡回プリフェッチャ。Request間隔を開けられる数少ないもの。 普通、アクセスの上位には最新の Mozilla が来るもんですが、 当サイトでは某ページが某雑誌に紹介された後では ダントツ で WebAutoが多くなりました。
User-Agent: WebAuto/2.00 (Win95; I)
User-Agent: WebAuto/2.20b16    (2.20β16 標準設定)
User-Agent: WebAuto/3.11 (WinNT; I)
Referer: real referrer
User-Agent: Mozilla/3.0 (Win95; I)    (2.10)
User-Agent: Mozilla/3.0 (Win95; I)    (2.20β16 Netscapeモード)
User-Agent: Mozilla/4.0 (WinNT; I)    (3.11,Netscapeモード)
User-Agent: Mozilla/2.0 (compatible; MSIE 3.0; Windows 95)    (2.20β16 MSIEモード)
User-Agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows NT)    (3.11,MSIEモード)
「通常はその設定にして下さい」 と書かれているだけあって、"WebAuto"のままで使っている人が 大多数のようですが、UAを切替えると区別不能です。

WebBoy
DOS/V専用ブラウザ。 天下のIBMなんだからちゃんと HTTP Spec. 読んでくださいよぅ →Arachne
User-Agent: WebBoy Version 2.00 (Rev. Feb 03 1997)
User-Agent: WebBoy Version 3.00

WebCapture
Adobe Acrobat 4.0 に装備された、Web→PDF変換機能。 (1999/07/20)
User-Agent: Mozilla/3.0 (compatible; WebCapture 1.0; Auto; Windows)
Referer: real referer
WebChecker
(2002/09/13) Mac用更新チェッカ。 最初は HEADして、応答が 200 以外だと GET し直す というのは おそらく腐れ Netscapeサーバー対策だと思われますが、 304 をたどらない。
PPはおそらく Metrowerks "PowerPlant"。 PowerPlantにはネットワークまわりのライブラリがなさげ (GUI部品のみ)なので、 UA はライブラリ付属の例題のまんま? 謎に Content がつくのは Web Devil似。 →Web Devil
HEAD /home/WebChecker HTTP/1.0
Content-Type: text/plain; charset="us-ascii"
User-Agent: PP Internet Classes Example
Content-Length: 4
 
Test
[WebClipping]
商標・評判等監視サービス。 Web上での自社の評判を知りたい (でも自分で調べるのはメンドクサイ) といった場合に使用します。 米国Yahoo!ではこういったサービスを集めた 専用階層 もあります。(Y! JAPANには なさげ) 動作概要 によると、UA 自体はメタ検索エンジンのリンクチェッカのような 機能ということになります。
Clienthost : thor.webclipping.com [209.73.228.165]
User-Agent: Mozilla     (-2000/08/31)
User-Agent: Webclipping.com     (2000/09/10-)
Accept: */*

→MarkWatch→ImageLock もそうなんですが、 こういった UA は hate site に感づかれたりしないようにするためか、RXPには対応していないし UA 文字列も偽装する傾向があるようです。 統計では [WebClipping] としてあります。 (2000/06/06) →[netfilter]
文句が来たのかどうかは不明ですが "Mozilla" は やめたようです。 (2001/01/10)

webcollage
コラージュ生成ツール。 検索エンジンに適当な単語を食わせた結果や 「ランダムリンク」から任意のURLを拾い、そこに含まれている 画像から適当にコラージュを生成します。 のでインライン画像を拾うのが主目的。 (そのわりにAccept:がついてないが…) xscreensaverの モジュールに含まれているので、実際はこの用途が多い?
非ブラウザで検索エンジンの Referer:がつくのは おそらくこれだけでしょう。
User-Agent: webcollage/1.77     (単なるRCS Id)
Referer: inlinking query

作者のJamie Zawinski(jwz)は Mosaic Netscapeの古株で、 mozilla屋には名が知れわたっている ようですが、個人的には DaliClockの作者とゆー印象があります。
これもmozilla屋の間では知れ渡っている(らしい) 辞職時のコメント なかなかおもしろいのですが、 初期のNetscape(時期的には2.0以前)の熱気みたいなものを 知らないと「ふーん、そうなんだ」で終わってしまいそう。

WebCompass
Quarterdeck Corp.の メタ検索エンジン。クライアント側にインストールして使用するので アクセスログにはURLをつまみ食いしているように残る。
User-Agent: WebCompass 2.0

Symantecに買収 されたことに伴い、 生産終了品 となりました。…
WebCopier
再帰ダウンローダ。典型的な offline browser。わりと安直な名前。 設定はすっきりで割と使いやすいのではないでせうか。 offline browser は「必要なだけ」より「十分なだけ」が基本なので、 ネットワーク負荷に関してはあまり凝った処理や設定を必要としない というのもあります。
IMSは使いますが取得間隔は空けられず。 さらにデフォルト5並列接続なので、LANでは使用禁止です。 (1999/10/13)
User-Agent: WebCopier Session #
WebCrawler-AddURL
(WRD) 名前の通り、WebCrawlerAdd URL した時に存在確認をしに来るエージェント。 こう出所がはっきりしているものは自分で実際に試して訪ねてこさせて User-Agent を確認できます。 (URLとして存在しないものを入れれば登録されない←まねしないように)

Web Devil
再帰プリフェッチャ。若干使いにくい所もありますが、ふつうに使う分には 必要十分なようです… GET に Content-Length がついてるなど、 なんか挙動が変なとこがありますが。
アクセスログを見てると本物の 3.01Gold と思えるアクセスが 結構あるので、よほどアクセスが極端でないと区別できない。 (proxyには対応してないようなので、proxyを通ってきていればまず本物)
User-Agent: Web Devil
User-Agent: Mozilla/3.01Gold (WinNT; I)    (Web Devil 2.0)

WebExplorer
(BW) OS/2用のブラウザ。 1."DLL"なし、2."DLL"あり、 3."-"で空白を埋めたもの、の3種がある。ううむ…
User-Agent: IBM WebExplorer /v1.01
User-Agent: IBM WebExplorer DLL /v1.13
User-Agent: IBM-WebExplorer-DLL/v1.1g

WebFetch
先読みアクセラレータ。 proxy型ではなく、ブラウザの挙動を 横から見ていて、リンク先をブラウザのディスクキャッシュに 放り込むタイプ。 DDEのようなプラットフォーム依存のものを使わなくても、 本来こういった機能を実現するために Mosaicには CCIという機能が あったんですが、結局主流とはなりませんでしたね。 Netscapeから削られたのが主な原因でしょう。
しかしよくこんな名前で他のと衝突してませんね。(してたりして)
User-Agent: WebFetch
おそらくただの "WebFetch" では 「ページによってはうまく先読みしてくれない」と言われて、 そのうち "Mozilla/3.X " とかになるんぢゃないでしょうか。

WebFountain
不明。検索エンジン用ロボットのような挙動ではあります。 同一ホストへのrequestは適当に束ねて送る模様。 From:はついてますが到達不能と思われます。 (初めはついてなかった) (2000/08/21)
ClientHost: wfp2.almaden.ibm.com[198.4.83.49]
User-Agent: WebFountain 1.0 (408-927-1838)     (2000/08/17-2000/08/21, 2001/03/15)
From: webcrawl@almaden.ibm.com
Accept: text/*
Accept-Language: en

基本的な性質はそのままで名前だけ変わったのが 2001/04 から動いています。 Web Fountain ARChiver かなんかの略? From: は今は到達可能のようです。(人間が読んでるかは?) (2001/05/17)
2001/08/28 からhttp:// なUAになってますが、 内容は "wfarc" の明示 (…むむ、修正されている) 以外は単にRXPの焼き直しであまり役に立たない。 メールアドレスが画像なのは UCE対策ですかね。 取得はきっちり10秒間隔にリセット。 text/* だけでもなく、 application/postscript も持っていきます。 (2001/08/29)

User-Agent: WFARC     (2001/04/18-2001/05/17)
User-Agent: www.almaden.ibm.com/cs/crawler     (2001/07/25-2001/07/31)
User-Agent: http://www.almaden.ibm.com/cs/crawler     (2001/08/28-)
From: webcrawl@almaden.ibm.com     (-2001/05/17)
From: crawler@us.ibm.com     (2001/08/28-)
Accept: text/*
no Accept-Language

WWW10に出ている "An Adaptive Model for Optimizing Performance of an Incremental Web Crawler" (Jenny Edwards, Kevin McCurley, John Tomlin) てのが数少ないそのものズバリの資料。

ただAlmaden研究所 を漁っても WebFountain については言及もなし。 他のWeb検索エンジンを掘っても資料は極小で、 WebFountain全体が何なのかは今だに不明。 (2001/05/17)

WebGather
北京大学の 「天网」 搜索引擎(検索エンジン) 用ロボットと思われる。 (2000/07/07)
User-Agent: WebGather 3.0
Accept: text/html, text/plain
From: xiong@csnetlib.pku.edu.cn
Webinator
RDBMS構築用ロボット。特定の検索エンジン専用のものではなく、 一般に入手できるツール。 当サイトに来たのはWhat-U-Seekのデータ収集に来たものと思われる。

ロボットがMozillaを名乗るようになっちゃ世も末だぁね。

User-Agent: Mozilla/2.0 (compatible; Webinator-crazy.convict.com/1.3)
User-Agent: Mozilla/2.0 (compatible; Webinator-www-eval.srv.cis.pitt.edu/1.3)
User-Agent: Mozilla/3.0 (compatible; Webinator-i13.inet911.com/2.53)
"i13.inet911.com" は cyberalert.com より。ここはClipping屋です。

WebLight
コマツの「イントラネット情報端末」。 初代 WebLightは AVE-Front ですが、 後継機は Windows terminal / WinCE になってしまったようです。 イントラネット用なので、外へはあまり出ていかないのが 本来の姿と思われます。
User-Agent: Mozilla/3.0 KOMATSU WL/3.0
User-Agent: Mozilla/3.0 KOMATSU (AveFront/2.6 WebLight) WL/3.0 V2.44ohi
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*
WebLink
リンクチェッカ。 起動時に問答無用で InternetAutoDial() を呼ぼうとするので、 評価しようにも起動できない。 電話回線専用のため?なのか、あまり使用実績は多くないようです。 (2001/12/07)
Accept: */*
User-Agent: WebLink/2.02
WebProbe
E-Soft Incサーバー種類統計調査。 定期的なものは一カ月に一回。 一応 お試しプローブ から任意のサーバーを調べさせることも可能。 (これは / を持っていくだけ)  ただ、観測したアクセスは「30秒毎の再帰取得」なので、 これとは別のシステムが存在しているような気がします。
…なんだかもう UA のMozilla部は完全に形骸化してることを ますます強く感じますね。ええ。 だからといって一概に無視するわけにもいかないのが悩ましい。 (1999/06/28)
User-Agent: Mozilla/4.0 (compatible; E-Soft WebProbe/WebSurvey/Network Audit; http://www.e-softinc.com)
User-Agent: Mozilla/4.0 (compatible; E-Soft WebSurvey; http://www.e-softinc.com )     (定期調査、1999/11-2000/11)
User-Agent: Mozilla/4.0 (compatible; SecuritySpace WebSurvey; http://www.securityspace.com )     (定期調査、2000/12-)
Accept: text/plain,text/html
No Host: (not needed anyway unless "reverse-proxy"ed)
これもなんかいかにも安直で衝突してそうな名前です。 ちょろっと調べてみると出てくる出てくる

Web Publishing Wizard
Microsoft製のWebアップロードツール。 "/" は <META CONTENT="postinfo"> の取得、 "/postinfo.{html,txt,asp}" はISP依存設定のダウンロード。 アップロードの成否のチェックのためか、この後 謎なURLを2回 GET します。(2回目は成功する)
一度 /postinfo を持ってくれば設定がレジストリに記録されるので、 それほど頻繁にアクセスされるわけではないようです。
User-Agent: MSWebPostPostInfoProcessor/1.5 (compatible; MSIE 3.02)     /,/postinfo
User-Agent: Microsoft FTP WebPost Service Provider     FTPアップロード時確認
User-Agent: MSFrontPageWpp/4.0
User-Agent: Microsoft HTTP Post (RFC1867)

WebRecord
Webページ印刷ツール。再帰取得機能も持っており、 その際は /robots.txt を読みます。 RXP で禁止されたページをこれだけわかりやすく警告してくれる ツールは初めて見ました。 (1999/07/21)
User-Agent: Mozilla/2.0 Canon-WebRecord/2.0.10.5
User-Agent: Mozilla/2.0 Canon-WebRecord/2.0.28.5
Webrobot
ダイレクトインターネット が提供している「Web Cacheサーバーのヒット率を向上させる」 サービス (WCPP) のロボット。 中身は自動更新キャッシュ+衛星インターネット。 ごく稀に /robots.txt に対して IMS を発行しますが、 (time_t)INT_MAX なのであまり意味がないような。 (2000/06/21) →CacheFlow
Clienthost: wcpp.directint.net
Accept: */*
Accept-Language: *
User-Agent: Webrobot
安直な名前なので、UAだけでWCPP用だと判断するのは 危険だと思われます。
なお、この WCPP (Web Cache Pre-Population) は Cisco の WCCP (Web Cache Control Protocol) とは全然違います。

WebSurfer
(BW) …安直な名前だ。 →NetManage Chameleon WebSurfer

WebSurvey
WebProbe

webs@recruit.co.jp
いちおうロボットらしい。 ロボットを動かしている lemon.recruit.co.jpには 有用な情報はない。 (WRD)

WebSeer
画像検索用ロボット。検索キーは文字列のため、 画像とテキストを両方持っていきます。 (ログだけ見てるとブラウザと挙動が変わらん) 人物写真の検索を重視しているようです。

[WebSENSE robot]
収集ロボット。集められたものは 人手で 「不適切な」内容かどうか分類される、らしいです(ホンマカイナ)。
/a/b/c/d.html を取得した後は、 も取ってこようとします。自動的にやるのは いやらしいかも。
UAは つきません。統計では [WebSENSE robot] としてあります。 (2000-03-09)
Clienthost: 209.132.98.162 (sluggo.websense.com, no forward DNS )
No User-Agent
Webshuttle
イントラネット用の外部収集ロボット。性格的には巡回ツールに近い。 システムとしてはキャッシュと組み合わせるのが前提となっているので、 自動更新プロクシと言えないこともない。
アクセス間隔はえらく緩慢。6時間くらいか。 一応 /robots.txt を持っていく。
User-Agent: Webshuttle
ヘルムシュテットアドニクス の モデムに遠慮しているのか、 "Webshuttle" (小文字) だったりします。

WebTrack (proxy)
スクリーニング機能つきのproxy。 「生産性を低下させる無駄なサーフィングから会社を守る」 んだそうです。子供に見せたくないページのアクセスを 防止するのにも有効。
データの更新はどうするんだろ。(これは商売になるかな…)
User-Agent: Mozilla/2.02 (Macintosh; I; PPC) via proxy gateway WebTrack-HTTPP/1.2 libwww/2.17

WebTV
これって通常は MSIE2.0 と判定されますよねぇ。
User-Agent: Mozilla/1.22 WebTV/1.0 (compatible; MSIE 2.0)
User-Agent: Mozilla/3.0 WebTV/2.2 (Compatible; MSIE 2.0)

WebTV - User Agents

WebTVのためのスタイルガイド は、WebTVに限らず、サターン や MediaBox、小型機器用のページを書く際にも 参考になるでしょう。

WebVCR
再帰巡回プリフェッチャ。proxyとして動作する。 他の同様のツールと違い、取得したデータはHTTPヘッダも含めて 独自形式のファイル(「テープ」)に保存するので、 そのままではWebVCRがないと「再生」できません。 HTTPヘッダも再現できるのでHTTP的にはこちらの方が安心でしょう。
録画時は UA がつきますが、proxy動作時はViaなどの痕跡は 残しません。RXP非対応。一応 IMS は使っているみたいです。
User-Agent: WebVCR/2.1     (録画時のみ)
ライセンスには「米国から輸出禁止」とあるのに、 日本語版があるのがなかなか謎です。 最近では調べるのがめんどくさいのか、暗号化が入ってなさそうな ソフトにも輸出禁止条項が入ってたりするので、 単に書いてあるだけかもしれませんけど… (1999/06/21)

WebWasher
ジーメンスの 広告・ポップアップ削除ツール。proxyとして作動する。 Anonymizerでもやっていない Referer: 削りも可能。 ログや転送量の統計もとれるので結構便利。 User-Agentの加工方法は前時代的な方法を採用しています。(1999/05/27)
User-Agent: Mozilla/3.01 [de] (Win95; I) WebWasher/1.0.3
WebWhacker
プリフェッチャ。改めて見てみるとまぁいろんな形式で 名乗ってます。
User-Agent: WebWhacker v1.0.1
User-Agent: WebWhacker/1.0.8
User-Agent: WebWhacker 32 Version 1.0J
User-Agent: Mozilla/3.0 (WebWhacker)    バージョン2.0以降

WebWatch
名前の通り、ページの更新チェッカ・プリフェッチャ。 実は、単に WebWatch と言った場合には SPIS製のものと SurfLogic製のもの (現在はSurfbotに改名) があり、 どっちなのかは下の User-Agent だけからでは不明。 有名なのはおそらくSurflogic製のものですので たぶんこっちでしょうけど… (Web Robots Databaseに登録されているのもこちら。)
安直な名前は衝突する例ですな。
User-Agent: WebWatch

Webショット2000
ホームページ(ツッコミ不可)まるごと保存ツール。 ポート番号を指定しても削られてしまう。 (Referer: にはちゃんと入ってるんだが…) HTTPエンジン自体は Program Files\Common Files\INETDOWN.DLL に生息。 (2000/02/02) →Inetdown
Accept_Charset: Shift_JIS,*
User-Agent: Mozilla/4.0 (compatible; WebShot 2000 Ver.3.0)     (β)
User-Agent: Mozilla/4.0 (compatible; WebShot2000 DLL 3.00.0003) (3.0.1)
Referer: source document
Accept-Charset: の綴りが違うよーな気がしますが

WFARC
WebFountain

Wget
HTTP/FTP ミラーリングツール。旧Geturl。/robots.txt も読む。 この手のツールの中では、本来の意味での Referer: をつけてくる数少ないロボットの一つ。 1.4.3からはGNUになりました。 →Geturl
User-Agent: Wget/1.4.2
TODO にも書かれていますが、-N 時は IMSは使わず HEAD → GET となります。ミラーリングには不向き。 (2000/02/02)

WhizBang!
検索エンジン用ロボット。 一応汎用ということになってますが、実際は 求人収集サイトFlipDog のため(だけ)です。 (2000/02/24)
User-Agent: WhizBang! Lab     (2000/02/23-2000/03/26)
Accept: text/html
From: crawler@whizbanglabs.com

2002/01/26 から、にせもじらになりました。 ていうか2年くらい空白期間があるんですが。 flipdog以外の仕事に ありついたようで。
From: は削除。 30秒〜1分半くらいの間隔で一通り持っていきます。 (2002/02/07)

ClientHost: pixnat06.whizbang.com [63.173.190.16]
User-Agent: Mozilla/4.7 (compatible; Whizbang)     (2002/01/26-)
Accept: text/html
Connection: Close
WhoWhere Robot
(WRD) メールアドレス探索ロボット。初期のものはUser-Agentが ついていません。 1998年の間は動きを止めていましたが、 1999/6月から突如 UA と From つきのロボットを使用するようになりました。 ただWRDにあるデータはまだ更新されず。(1999/06/23)
User-Agent: wherebot/0.2
From: dlg@where.com
Wildcat!
Wildcat! 5 なるBBSシステム用の専用ブラウザ。 ニセモノだと分かる形でもぢらを名乗る。
User-Agent: Mozilla-Compatible(Wildcat)/1.26_libwww/unknown

WinHTTP
サーバー側専用の HTTPエンジン、WinHTTP のデフォルト。 wininetのサブセット、らしい。 なぜかは知らぬがNT系カーネル専用。 (2001/12/09)
User-Agent: Mozilla/4.0 (compatible; Win32; WinHttp.WinHttpRequest.5)
Accept: */*
Accept-Language: lang

WinProxy (proxy)
Windows用のproxyサーバー。 安直な名前なので衝突してるだろうなと思ったら案の定でした。 調べたら3種類ほどあります。 国内では札幌ソフト版、海外ではOsitis製が有名のようです。 なお、源サーバー側で検出可能なのは今の所、札幌版のみです。

WinProxy (札幌ソフト工場) (proxy)
Windows用(95も可)のマルチプロトコルproxyサーバー。 国内で単に "WinProxy" といった場合はこれを指していると思われます。 「Vector」に 収録されているのもこちら。 UIデザインやインストーラーも割と素直。 デフォルトのポート番号は 8080 。 (1999/08/14)
Forwarded: by WinProxy (Version 1.55) for XX.XX.XX.XX
Forwarded: by WinProxy(-RAS) (Version 1.55) for XX.XX.XX.XX
X-Forwarded-For: XX.XX.XX.XX
Remote-Host: XX.XX.XX.XX
Via: は残さず Forwarded: をつけるのだが、 製品名はそこに入れるのではないのだよ…

商標をとられた つーことで今は "BlackJumboDog" に変更されています。

Forwarded: by BlackJumboDog(-RAS) (Version 2.1.1) for XX.XX.XX.XX
Remote-Host-Wp: XX.XX.XX.XX     (2.00-b4以降)
(以下同文)
商標登録料 てのは個人がほいほいと払う額ではないです。 札幌WinProxyは、こう書かないとわからんくらい同名のものが 出回ってたので商標でなくても問題があったでしょうけど、 金持ってるほうが勝つとゆーのは なんか いやーんな感じではあります。 (2000/10/12)

WinProxy (LAN-Projekt) (proxy)
Windows用(95も可)のマルチプロトコルproxyサーバー。 (紹介ページに関しては)多国語化が最も充実しているので、 ヨーロッパ方面では結構知名度があると思われます。 デフォルトのポート番号は 3128 。 本体にはテキトーなUIしかついておらず(普通は使わない)、 設定などは 3129番ポートにブラウザでつないで行なう。
Via: などの痕跡は一切残さない。 (1999/06/18)

WinProxy (Ositis) (proxy)
Windows用(95も可)のマルチプロトコルproxyサーバー。 お試し機能つきの商品で、UI等は 札幌版LAN-Projekt版に比べ だいぶごちゃごちゃしている印象がある。 デフォルトのポート番号は 80 。
こちらもVia: 等は一切残さない。 (1999/06/18)
User-Agent: WinProxy (Version 2.1R2h)     (winproxy.comへのユーザー登録時のみ)
Proxy-Agent: Ositis-WinProxy     (エラー時のみ?)
WiseWire-Widow
特定分野収集システム、WiseWireの ロボット。 GETの度に /robots.txt を読むようになったようである。(IMS使えよー) "Beta-2"以後?は3回に一度 /robots.txt を読む。 →EMC Web Hopper
User-Agent: WiseWire-Widow-1.0
User-Agent: WiseWire-Widow-Beta-2
User-Agent: WiseWire-Widow-1.0
From: WWU@wisewire.com
User-Agent: WiseWire-Spider-1.0
From: spiderman@wisewire.com
もともとは Ken Lang氏の研究で、 (そのころのは NewsWeeder と呼ばれていた) 検索エンジンとしてよりも "Information Retrieval" とか "Collaborative Filtering" の分野で有名のようです。 求人にも 依然として研究としての位置づけが見てとれます。

WorldTALK
PC-VAN専用ブラウザ。 バグ入りのUser-Agentを渡してくるものがあるので注意。 2.0.2では直っているということかな?
(当時 WorldTALK/2 は存在しなかったと思うので、 設定不良のぷららブラウザーの可能性もあり) →ぷららブラウザー
User-Agent: WorldTALK V 2.0.2(P)
User-Agent: Version 2.0.1(P)
User-Agent: World TALK Ver1.1-1.20

WorldTALK/2
WinCE用?ブラウザ。開発元 からのアクセスなので本物でしょう。
User-Agent: Mozilla/4.5 [ja](WorldTALK/2.0.0)
WWWC
(WRD) 更新時刻チェッカ。 Last-Modifiedを拾い損ねるとHEAD→GETするので、 「ヘッダ部分を取得するので時間がかかるということもありません」 は、動的生成ページに対しては逆効果となります。 1.00 のソースコードを見た所 IMS発行ロジックはなく、また典型的なまちがいとして クライアント側で Last-Modified: の比較をしている。 (1999/06/11)
User-Agent: WWWC/0.15
User-Agent: WWWC/0.25
Referer: http://www.kinet.or.jp/naka/tomo/
User-Agent: WWWC/0.25 (WinNT)
User-Agent: WWWC/0.84 (Win32; http://www.kinet.or.jp/naka/tomo/)
User-Agent: WWWC/1.00
1.0の HTTPエンジンは beta71-79 で大幅に書き替わっており、 beta78でのロジックは最適解に近くなっています。 ただし更新チェッカという性質上ダウンロード後の保存は行なわないので、 一秒たりとも無駄な転送はしたくない人にはやはり向いていません。 (1999/10/21)
1.00b79のHTTP動作 (無保証)

WWWcp
再帰ダウンローダ。 ちゃんと実力のある人が書いているので、機能的にも信頼できます。 (ソースも見やすい) このテのツールにはすべて言えることですが、 基本は無限再帰下降なので、サーバー側のURL構造をある程度 把握してから使いましょう。
User-Agent: WWWcp/1.83; (Perl 5; SunOS 5.5.1 sun4m)
User-Agent: Mozilla/2.01; (WWWcp/1.83; Perl 5; SunOS 5.5.1 sun4m)     -Mオプション

wwgetall
再帰取得ツール。 再帰時にどこで止まるのかの解説がなかったりしますが、 ソースを読んだ限りでは「上のディレクトリへは行かない」のようです。 深くなる方向は無限再帰下降なので、注意して使いましょう。 プログラムは非同期型で組んであり、スピード重視のようです。 (1999/09/11)
User-Agent: wwgetall/3.14; http://infonet.aist-nara.ac.jp/~tsuneo-y/soft/wwgetall/wwgetall.html
User-Agent: Mozilla/4.0 (compatible; MSIE 4.01; wwgetall/3.14; http://infonet.aist-nara.ac.jp/~tsuneo-y/soft/wwgetall/wwgetall.html)     (-U オプション
WWWD
更新チェッカ。 作者に責任はないとはいえ、1年近く更新のないページを 5分ごとに HEAD されても困るだけです。 TCPのような exponential-backoff 機能がつくと多少ネットワークに やさしくなるかもしれません。 backoff機能は、 Proxyではすでに実装されているものはあれど チェッカでは多分まだないと思うので、「世界初」を 名乗るなら今ですぜダンナ (1999/05/27)
User-Agent: WWWD/0.01
WWWOFFLE
小規模キャッシュサーバ。再帰巡回機能も一応持っています。 proxyですが Via: 等は 一切つきません。 巡回時は以前使用したブラウザのヘッダを全部再利用するので、一見 正常 Referer: を渡すように見えます。 UAは、詐称せよと設定した場合は別のものになります。
Server: WWWOFFLE/2.4
User-Agent: WWWOFFLE/2.2     (詐称デフォルト)
xyro
(WRD) VERSO用ロボット。 検索すること自体が目的ではなさそうなので、 我々が成果を利用できることはたぶんないでしょう。
その Accept: は形式ちゃいます。 困ってないということは見ているサーバーがほとんどないということか
User-Agent: xyro
Accept: text/html text/xml
From: sebastie.nailleret@inria.fr
yahoo-fetch
Yahoo! Japanで Add URL を実行した時に、ページの存在確認をしに来るエージェント。 ちなみに本家Yahoo!で 同じことをすると、確認しには来るが User-Agent には これといったものを渡してくれない。

Yahoo! Japan: User-Agent: yahoo-fetch
本家Yahoo! : User-Agent: Proxy gateway CERN-HTTPD/3.0 libwww/2.17

(lobo.yahoo.com)
確証はないが、おそらく Yahoo! の メンテナンス用ロボット。 登録されている URL に対し定期的にGETを行なう。 (中身の検索はinktomiを使用)
本物の Mozilla/4 であれば 通常は [locale] がつきます。 統計では [Yahoo! Maintenance] としてあります。 (1999/08/27)
User-Agent: Mozilla/4.05
yabbering.com
検索エンジンというかリンクチェッカ? 全サイトを集める のが目的ということで、/robots.txt と / 以外は持っていきません。
ただ過去の履歴を調べると毎回 UA が違うんだこれが。 以前はearthlisten.com以下に 掲示板や ディレクトリサービス みたいなのがあったようですが、今は存在せず。 2001/07のアクセスは移転後の再構築でしょうかね (2001/07/13)
ClientHost: adsl-63-201-189-50.dsl.lsan03.pacbell.net (2000/04/24, 2001/02/15)
User-Agent: earthlisten.com spider;http://www.earthlisten.com/search/world/main.htm     (2000/04/24)
User-Agent: http://www.earthlisten.com     (2001/02/15)
ClientHost: adsl-216-101-213-160.dsl.lsan03.pacbell.net [216.101.213.160] ({yabbering,earthlisten,clonker}.com, 2001/07/11)
User-Agent: yabbering.com     (2001/07/11)
Accept: */*
YuiSearch
おそらく検索エンジン用ロボット。 ドブさらい型ではなく、ターゲットは手動登録か 他の検索出力を流用していると思われる。 RXP 非対応。ネットワーク的に遠いのに対応するためか HTTPエンジンはちょっと高級で、 Range:でのリトライを行ないます。
User-Agent: YuiSearch/0.0.1 (I; Linux 2.0.36 i686)
From: YuiSearch <yuisearch@yui.gr.jp>
Accept: */*
Accept-Language: ja
resume by Range:
ZeusBench
HTTPdベンチマークプログラム。配布されるのが ソース一本だけ というのが潔くてよい。→ApacheBench
User-Agent: ZeusBench/1.0

(- spider?.srv.pgh.lycos.com)
通常の Lycos のロボットは "Lycos_Spider_(T-Rex)/3.0" (1997.12現在) ですが、ここで挙げるのはテスト中のものらしく Rex とは ホストが違うし、Request-Line にはメモリリークの痕跡が見えます。 User-AgentやFromは渡ってきません。 統計では "[Lycos Test]" としてあります。
しばらくすれば改善されるのでわないでしょうか (希望的観測)
Request-Line:
00000000: 47 45 54 20 2F E2 80 BE:69 77 61 6E 2F 6D 69 79 GET /...iwan/miy
00000010: 61 5F 62 6C 5F 72 65 68:61 5F 61 73 73 2E 68 74 a_bl_reha_ass.ht
00000020: 6D 6C E3 83 88 EF BC 8A:EF BC 8A EF BC 8A 20 48 ml............ H
00000030: 54 54 50 2F 31 2E 30 0A                         TTP/1.0.        
	

 むーむーブラウザ Ver.0.1 (みち@毒芋虫)
EUC-JPで書かれたものとしては2番目 (そのつもりで設定したものとしては初の) User-Agentだと思われます。
00000000: A1 A1 A4 E0 A1 BC A4 E0:A1 BC A5 D6 A5 E9 A5 A6  むーむーブラウ
00000010: A5 B6 20 56 65 72 2E 30:2E 31 20 28 A4 DF A4 C1 ザ Ver.0.1 (みち
00000020: A1 F7 C6 C7 B0 F2 C3 EE:29                      @毒芋虫)
	
Referer:教えたくなきゃ書かなければいいようなもんですが(意味不明)

みはるんあんてな
日記の更新時刻チェッカ。 をを、User-Agentつくようになったのか。さすが 日記の力は偉大ぢゃ。 あとはWeb Robots Databaseに登録すれば完璧だな。
User-Agent: miharun_antenna

インターネット エクスプローラ
そおゆうことするかきみわ (当然sjis)(さすが日本MS)(だれだ、こんな仕事して金もらってんのは)
User-Agent: ネットスケープ 2.0 (compatible; インターネット エクスプローラ 2.1; Mac_PowerPC)
Macのソフトのlocalizeをやった人は判ると思いますが、 実際問題としてリソースの文字列だけ見ても、どれを訳して どれは訳しちゃいかんのかなんてのはまずわからんので、 こういうことも十分起こり得ます。 試験項目に UA のチェックは入ってなかったんでしょう。

ぷららブラウザー
実験してみた所、Apacheは一バイト目を落としてしまうらしい。 Netscape-Enterprise/2.0aでは後ろに ゴミがつく。 いずれにしろSJISはよろしくない。
00000000: D5 82 E7 82 E7 83 75 83:89 83 45 83 55 81 5B 20 .ららブラウザー 
00000010: 56 65 72 73 69 6F 6E 20:32 2E 30 2E 32 28 54 29 Version 2.0.2(T)
	

その後改心したらしい。

User-Agent: Plala-Browser/2.10
ブラウザ部分はWorld TALKのカスタム版のようで、 古い Spyglass Mosaic のクセをそのまま持っています。 櫛状の転送メーターを持っているブラウザは これとHotJava/1くらいで、かなり珍しい。

詩織互換沙希
compatible なんでしょうか。
User-Agent: 詩織ちゃん(compatible; 沙希ちゃん; 大好き 97)


使いすぎると嫌われる略語

UA
User-Agent
RXP
Robot Exclusion Protocol
Martin Koster自身はSRE と略しています。 他所では "RXP" は通じないので恥をかかぬよう注意。
IMS
If-Modified-Since
BW
BrowserWatch
internet.com吸収前からの執筆者の Dave Garaffa が 突然 2000/11頃にいなくなり、担当者大幅増になって多少路線が 変わっています。 Dave が一人でやっていた頃は速報性には欠けていても彼が一応 試用してチェックしていたので地についた内容の記事でしたが、 路線変更後はは大本営発表の孫引きが多くなりました。
WRD
Web Robots Database
ここは自己申告が基本なので、 気が利いた作者のロボットでないと登録されていません。
MSIE
Microsoft Internet Explorer
UI
User Interface

アクセス統計
筆者のホームページ

かべ@dais.is.tohoku.ac.jp