2003 年 11 月の履歴(もしくは日誌)


2003 年 11 月

11 月 20 日 ユニバーサル

セマンティック Web について

CNET Japan に,「セマンティックWebについての誤解と真実」という記事が載りました.コメントしてみます.

江島健太郎さんは,従来の HTML の Web と,セマンティック Web について,以下のようにとらえているようです.

  • HTML が広まったのは,意味付けや解釈に多様性があること.表現の自由度や面白さを優先してきた事が,理由になっている.
  • HTML の Web に対して,セマンティック Web は,意味付けが標準化され,解釈が一意に定まる.表現の自由度や面白さという点では死んだようなものである.セマンティクスの標準化というものは「表現の墓場」である.

HTML や Flash などのコンテンツに,コンテンツの意味を記述したメタデータを付加する事が,Web 上の表現の自由度を制限するような事はないでしょう.表現したい事はコンテンツで表現して,それの意味をメタデータで示すのです.その時に意味とは行っても例えば小説がコンテンツなら,批評とか解説にあたるものをメタデータにしろという事ではなく,作者とか出版社とかあらすじみたいな者をメタデータとして準備しようという話です.どうしてセマンティックスの標準化が「表現の墓場」という話になるのでしょうか.

またセマンティック Web でメタデータを記述する道具としての RDF では,基本的な大枠を決めて,細かい意味付けは語彙を別に定めるということになります.RDF の応用として最も普及しているのは RSS 1.0 でしょう.RSS 1.0 では,RSS 1.0 の語彙が定められている訳です.
いろいろと語彙を決めて行くことで,RDF はとても柔軟に使えると思います.

なんでもむやみやたらにセマンティクスの標準化をしてしまおうというものではなかったはずです.

  • コンテンツの表現にメタデータを付加することは,コンテンツの表現を制限する事はないでしょう.
  • RDF では,語彙を別に定義することになり,それはとても柔軟で自由度があると思います.

また江島健太郎さんは,Web のコンテンツを,雑多で有効期限が短い「イベントデータ」と,「熟成され洗練されたもの」の二つに分けて考えているようです.

そして,雑多で有効期限が短い「イベントデータ」は,Internet 上にどんどん蓄積するよりもむしろ,古いものから破棄することが必要なのではないかと問いかけています.

ぼくはインターネット上の古いコンテンツは,コンテンツを公開している側の事情が許す限り,永続的に公開される事を望みます.

検索エンジンでは価値のあるページが上位に表示されるように工夫されるようになって来ています.それだけでもある程度機能していると思います.

コンテンツの内容だけでなく,コンテンツのメタデータも評価して検索エンジンが重みづけをするようになれば,例えば最近公開されたコンテンツや最近更新されたコンテンツからリンクされているコンテンツはより上位に表示されるというような仕組みも実現できるでしょう.古いコンテンツがどれほど邪魔になるのでしょうか.

Google が文書間のリンクの状態を評価しているというのは,文書のリンク情報をメタデータして抽出/評価/管理しているっていうことでしょう.Google 以前のコンテンツ内でのキーワードの出現回数などで評価していた検索エンジンよりも,文書間のリンク関係というメタデータを評価した Google の方がよりよい検索エンジンとして使われるようになったのです.もっと豊かなメタデータが利用できるようになれば,検索エンジンはもっと良いものになるでしょう.

インターネット上の全てのコンテンツが,意味付けされたメタデータを持つようにはならないでしょう.新しいコンテンツの一部が意味付けされたメタデータを持つようになるでしょう.それの有用な利用方法が示されれば,利用は広まっていくでしょうし.ある時期にメタデータを有効に利用する有力な検索エンジンが登場すれば,それ以降は SEO (検索エンジン最適化) なんていう分野が,強力にセマンティック Web を推進して行くのかもしれません.

もちろんコンテンツ制作者がいちいちメタデータを記述していたら大変ですが,これからはコンテンツ制作ツール側でメタデータもある程度自動的に生成できると思います.ツール側でメタデータを自動的に生成して,利用されている例が Weblog ツールが生成する RSS 1.0 ですね.

セマンティック Web のコンセプトでは,より広がって行く Web をぼくらがうまく利用できるように,コンテンツにメタデータを用意しておこう,メタデータの記述の仕方を標準化しよう,そういう提案がされているのだと思います.

コンテンツ作成ツールがメタデータを生成する時に,コンテンツ制作者にもある程度の手間を負担させることになりますが,HTML においての title 要素を書くとか img 要素で alt 属性の値を書くとかの手間と大差ない程度になるんぢゃないでしょうか.

TrackBack

[ 上に戻る]