2005 年 6 月の履歴(もしくは日誌)


2005 年 6 月

6 月 6 日

XML Sitemap Format と RSS (RDF Site Summary)

Google から Google Sitemaps という新しいサービスが発表されました.正式なサービスというよりは,まだ実験的な意味合いもあるベータ版という位置づけです.
これまでは Google の検索エンジン用の情報を収集しているソフトウェアプログラム (ロボット もしくは クローラ)は,勝手にやってきていろいろ収集して行ったので,収集して欲しいところを収集してくれないという取りこぼしがあったのですが,今後はもっとうまく動くようになりそうです.Google Sitemaps はこちら側から積極的に「こことここを収集してね.これとあれならこっちが重要ですよ.このファイルは毎週更新するけど,こっちは月に一回くらいしか更新しないですよ.」っていう情報を登録しておくことができて,Google のロボットが情報を収集する時にそれを参照するという仕組みです.すばらしい.

で,簡単には収集してほしい URL をテキストファイルに列挙しておけば良いようですが,もっと詳細な情報を登録するには決められた書式である XML Sitemap Format の XML ファイルを作成して登録する必要があるそうです.

ぼくは以前からサイトマップ相当のメタ情報を RDF で用意しておこうと思って RSS 1.0 形式で用意していたのです.これから余分な情報を削って,XML Sitemap Format に変換すれば良い訳です.XSLT で簡単に変換できそうです.でも XML Sitemap Format ぢゃなくて RSS 1.0 などの RDF/XML だったら,すでにあるものが使いまわせたりしたんだろうになぁ.

おのひろきおんらいんの「履歴もしくは日誌」については,1 年分の RSS 1.0 ファイルを生成しています.これを で XML Sitemap Format に変換して登録すればいいのだなって思いました.複数の sitemap ファイルがある場合は,sitemap_index.xml というファイル名でサイトマップインデックスファイルを用意すれば良いようです.だったら「履歴もしくは日誌」については,最新のものと 1 年分まとめたのものを過去の何年分を用意して,さらにおのひろきおんらいんの他のコンテンツについての sitemap ファイルも作っておけばいいかな.

「履歴もしくは日誌」の個別の記事としての URI は例えば http://onohiroki.cycling.jp/weblog200506.html?d20050606n1_ となるのですが,これが Google ではうまく拾われていなくて,代わりに http://onohiroki.cycling.jp/weblog200506.html が収集されているのです.sitemap ファイルを利用すれば,個々の記事が拾われるようになるかな?

なんにしても XSLT で RSS 1.0 を sitemap に変換すれば良いのですから,そんなに難しいことではありません.明日にでもやってみようと思います.

Google Sitemaps については,「絵文録ことのは」で「よくある質問」の日本語訳が公開されていて,とても参考になりました:

http://onohiroki.cycling.jp/tb/tb.cgi/weblog_d20050606n1 TrackBack