履歴もしくは日誌

2003 年 10 月の履歴（もしくは日誌）

2003 年 10 月

10 月 24 日明日は麦草峠

はてなアンテナとファイルが見つかりませんエラー(404)と正体不明のロボット

自分の Web サイトのエラーログを見ていると，ときどき
http://onohiroki.cycling.jp/20031022091733
とか
http://onohiroki.cycling.jp/index.html20030922190630
という，存在しないファイルへのアクセスがエラーとして，残ります．これはいったいなんなのかと．うざったいなって思っていました．

数字が余分なんですよね．数字をよく見ると西暦，月，ひ時間，分，秒となっているような気がします．

なんかのアンテナから飛んでくるとは思ったんです．

ぼくが用意したプログラムに残ったエラーの記録で，最近のものはこんな感じ：

HTTP_REFERER: http://onohiroki.cycling.jp/20031022091733
REQUEST_URI:/20031022091733
HTTP_USER_AGENT:Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)
localtime:2003-10-23T14:59:31

これは，REQUEST_URI はアクセスしようとした URL なのですが，この数字の列が日付けと時刻を表しているとしたら，実際にアクセスした時間(localtime) と 1 日くらいずれています．
それにリンク元を示す HTTP_REFERER は，リクエストしている URL になっています．

このことから，MSIE 5.01 によるアクセスではなくて，どこかの情報収集プログラム (ロボット) によるものではないかと思うのです．そのロボットははてなアンテナの HTML を解析したときに，URL の認識を間違えるのです．

はてなアンテナは http://a.hatena.ne.jp/go?http://onohiroki.cycling.jp/20031022091733 っていうようにリンクを作って，そこから転送する仕組みになっているようなのですが，そのロボットは，go? のところで区切って 2 つの URL と認識しているんでしょうな．

その正体未確認のロボットは，HTML ファイルを取得して保存して，そのなかから http:// で始まる文字列を探してきて，その URL でアクセスして HTML 文書をまた取得する．それを繰り返す仕組みなんでしょう．そうして集めた情報で検索エンジンサービスみたいなことでもやるつもりなのでしょうか．それが，はてなアンテナのページを解析する時に間違った URL を抽出して，抽出した URL にアクセスするまでに 1 日くらいあったんでしょう．そしてあちこちで不正な URL でアクセスを試みてエラーを発生させていると．

はてなへの要望として http://a.hatena.ne.jp/go?http://onohiroki.cycling.jp/20031022091733 ぢゃなくて，http://a.hatena.ne.jp/go?onohiroki.cycling.jp/20031022091733 というような途中の http:// を省いた形式にして欲しいです．そうすれば，変なプログラムが間違った URL でリクエストしてくることはなくなるでしょう．

そうでなかったら，そのロボットのアクセスを禁止するのかな．どこの IP アドレスからのアクセスかを確認して，その IP アドレスからのアクセスを禁止すればいいのかな．

TrackBack

[ 上に戻る]

履歴もしくは日誌

2003 年 10 月の履歴（もしくは日誌）

2003 年 10 月

10 月 24 日 明日は麦草峠

はてなアンテナとファイルが見つかりませんエラー(404)と正体不明のロボット

10 月 24 日明日は麦草峠