2005 年 2 月の履歴(もしくは日誌)


2005 年 2 月

2 月 27 日

STX : Streaming Transformations for XML

「人力検索はてな」で,RDF データを HTML に変換する方法についての質問があがりました.単純に考えると XSLT かなってところですが,元データはオープンディレクトリプロジェクト DMOZ の RDF dump で,とても巨大なファイルです.XSLT では,巨大なファイルを使うのは苦手だと思うし,1 つの元データから,1 つの HTML ファイルができるという単純な変換では駄目そうです.Google で検索すると STX というものを使って HTML に変換する例がありました.

そこで Joost っていう Java での処理系があったので,試してみる事に.なんと example ファイルには DMOZ の RDF とその変換の為の STX ファイルまで入っていました.

joost をダウンロードして展開すると,joost.jar, joost.sh, joost.bat などと examples ディレクトリができました.UNIX Like な環境では joost.sh を Windows などでは joost.bat などを使うのでしょう.examples ディレクトリから dmoz で始まるファイル名の 5 つのファイルを,コピーして joost.sh と同じディレクトリに起きました.dmoz.xml が RDF ファイルです.

./joost.sh dmoz.xml dmoz.stx

これで Top.html と Top というディレクトリができます.Top ディレクトリの中には複数の HTML ファイルが入っています.

処理はかなり早いにではないでしょうか.まぁ examples の仲の dmoz.xml は,実際よりもかなり小さいファイルですが.XSLT では通常は 1 つの XML ファイルを 1 つの別のファイルに変換します.ところがこの STX の処理では複数のファイルがいきなりできました.

STX は今回初めて知りました.どんなものなのかまだよく分かっていませんが,なかなか便利そうです.

で,STX の公式のページはこちらみたい:

http://onohiroki.cycling.jp/tb/tb.cgi/weblog_d20050227n1 TrackBack