2003 年 10 月の履歴(もしくは日誌)


2003 年 10 月





10 月 24 日 明日は麦草峠

はてなアンテナとファイルが見つかりませんエラー(404)と正体不明のロボット

自分の Web サイトのエラーログを見ていると,ときどき
http://onohiroki.cycling.jp/20031022091733
とか
http://onohiroki.cycling.jp/index.html20030922190630
という,存在しないファイルへのアクセスがエラーとして,残ります.これはいったいなんなのかと.うざったいなって思っていました.

数字が余分なんですよね.数字をよく見ると西暦,月,ひ時間,分,秒となっているような気がします.

なんかのアンテナから飛んでくるとは思ったんです.

ぼくが用意したプログラムに残ったエラーの記録で,最近のものはこんな感じ:

  • HTTP_REFERER: http://onohiroki.cycling.jp/20031022091733
  • REQUEST_URI:/20031022091733
  • HTTP_USER_AGENT:Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)
  • localtime:2003-10-23T14:59:31

これは,REQUEST_URI はアクセスしようとした URL なのですが,この数字の列が日付けと時刻を表しているとしたら,実際にアクセスした時間(localtime) と 1 日くらいずれています.
それにリンク元を示す HTTP_REFERER は,リクエストしている URL になっています.

このことから,MSIE 5.01 によるアクセスではなくて,どこかの情報収集プログラム (ロボット) によるものではないかと思うのです.そのロボットははてなアンテナの HTML を解析したときに,URL の認識を間違えるのです.

はてなアンテナは http://a.hatena.ne.jp/go?http://onohiroki.cycling.jp/20031022091733 っていうようにリンクを作って,そこから転送する仕組みになっているようなのですが,そのロボットは,go? のところで区切って 2 つの URL と認識しているんでしょうな.

その正体未確認のロボットは,HTML ファイルを取得して保存して,そのなかから http:// で始まる文字列を探してきて,その URL でアクセスして HTML 文書をまた取得する.それを繰り返す仕組みなんでしょう.そうして集めた情報で検索エンジンサービスみたいなことでもやるつもりなのでしょうか.それが,はてなアンテナのページを解析する時に間違った URL を抽出して,抽出した URL にアクセスするまでに 1 日くらいあったんでしょう.そしてあちこちで不正な URL でアクセスを試みてエラーを発生させていると.

はてなへの要望として http://a.hatena.ne.jp/go?http://onohiroki.cycling.jp/20031022091733 ぢゃなくて,http://a.hatena.ne.jp/go?onohiroki.cycling.jp/20031022091733 というような途中の http:// を省いた形式にして欲しいです.そうすれば,変なプログラムが間違った URL でリクエストしてくることはなくなるでしょう.

そうでなかったら,そのロボットのアクセスを禁止するのかな.どこの IP アドレスからのアクセスかを確認して,その IP アドレスからのアクセスを禁止すればいいのかな.

TrackBack



















[ 上に戻る]