タグクラウドその後
2006/03/15
前回のエントリ、図書館タグクラウドに特にはてな方面から多くのアクセスを頂き、ありがとうございました。このblogを始めて以来のアクセスの多さに驚いています。
タグクラウド、人気ありますね。他のデータベースでも応用したいところです。
さて、その後ですが、ひどいソースを見た後輩が大幅に手を入れて、
- 専門用語の抽出には,東京大学・中川裕志教授,横浜国立大学・森辰則助教授,東京大学・前田朗らによる「専門用語自動抽出システム」を利用。
- 書誌名を日本語と英語に簡易分離。
- 日本語については,形態素解析器 MeCab を用いて形態素解析を行った後,専門用語自動抽出用 Perl モジュール TermExt::MeCab を用いて専門用語を抽出。
- 英語については,専門用語自動抽出用 Perl モジュール TermExtract::EnglishPlainText を用いて専門用語を抽出。
- 抽出した専門用語とその重要度を元に,HTML::TagCloud を用いて重み付け。
という「なんだよ俺のは噛ませ犬か」と思うくらいcoolなhackを施してくれました。ありがたいことです。
おかげさまで、単語についてもかなり真っ当に切り分けられるようになりました。安定して稼働するようになりましたら公開の予定ですが、とりあえずスナップショットでお楽しみ下さい。
あ、OpenSearch対応については実装作業中です。もうしばらくお待ち下さい。
自分でもTagCloud作ってみて、「意外な資料との出会い」という言葉が腑に落ちる感じがしました。
新着一覧リスト、と受ける印象が全然違いますね。
投稿情報: aykt | 2006/03/17 19:10
お返事遅れてすみません。
TagCloudですが、反響の大きさに驚いています。
とりあえず、予定していた原稿があがったので、次はインターフェースのリッチ化の一つとしてTagCloudをいじってみようかと考えています。
投稿情報: 図書館退屈男 | 2006/04/06 00:31