履歴もしくは日誌
2003 年 10 月の履歴(もしくは日誌)
2003 年 10 月
10 月 24 日 明日は麦草峠
はてなアンテナとファイルが見つかりませんエラー(404)と正体不明のロボット
自分の Web サイトのエラーログを見ていると,ときどき
http://onohiroki.cycling.jp/20031022091733
とか
http://onohiroki.cycling.jp/index.html20030922190630
という,存在しないファイルへのアクセスがエラーとして,残ります.これはいったいなんなのかと.うざったいなって思っていました.
数字が余分なんですよね.数字をよく見ると西暦,月,ひ時間,分,秒となっているような気がします.
なんかのアンテナから飛んでくるとは思ったんです.
ぼくが用意したプログラムに残ったエラーの記録で,最近のものはこんな感じ:
- HTTP_REFERER: http://onohiroki.cycling.jp/20031022091733
- REQUEST_URI:/20031022091733
- HTTP_USER_AGENT:Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)
- localtime:2003-10-23T14:59:31
これは,REQUEST_URI はアクセスしようとした URL なのですが,この数字の列が日付けと時刻を表しているとしたら,実際にアクセスした時間(localtime) と 1 日くらいずれています.
それにリンク元を示す HTTP_REFERER は,リクエストしている URL になっています.
このことから,MSIE 5.01 によるアクセスではなくて,どこかの情報収集プログラム (ロボット) によるものではないかと思うのです.そのロボットははてなアンテナの HTML を解析したときに,URL の認識を間違えるのです.
はてなアンテナは http://a.hatena.ne.jp/go?http://onohiroki.cycling.jp/20031022091733 っていうようにリンクを作って,そこから転送する仕組みになっているようなのですが,そのロボットは,go? のところで区切って 2 つの URL と認識しているんでしょうな.
その正体未確認のロボットは,HTML ファイルを取得して保存して,そのなかから http:// で始まる文字列を探してきて,その URL でアクセスして HTML 文書をまた取得する.それを繰り返す仕組みなんでしょう.そうして集めた情報で検索エンジンサービスみたいなことでもやるつもりなのでしょうか.それが,はてなアンテナのページを解析する時に間違った URL を抽出して,抽出した URL にアクセスするまでに 1 日くらいあったんでしょう.そしてあちこちで不正な URL でアクセスを試みてエラーを発生させていると.
はてなへの要望として http://a.hatena.ne.jp/go?http://onohiroki.cycling.jp/20031022091733 ぢゃなくて,http://a.hatena.ne.jp/go?onohiroki.cycling.jp/20031022091733 というような途中の http:// を省いた形式にして欲しいです.そうすれば,変なプログラムが間違った URL でリクエストしてくることはなくなるでしょう.
そうでなかったら,そのロボットのアクセスを禁止するのかな.どこの IP アドレスからのアクセスかを確認して,その IP アドレスからのアクセスを禁止すればいいのかな.
[ 上に戻る]