IBM OmniFind Yahoo! Editionを動かしてみた(1)
2007/01/08
金曜日(1/5)の話。
1月5日付けカレントアウェネス-Rの記事、「OPACから”FISH”へ」。企業向け無償検索エンジン“IBM OmniFind Yahoo! Edition”を利用した総合目録。
- Free
- Integrated
- Search
- Handler
でFISH。なるほど。で、ここまで読んだ3千万人ぐらいの方のご想像どおり、記事を読みながらIBM OmniFind Yahoo! Edition(以下「OmniFind」と略)のダウンロードを開始する図書館退屈男。83MBもあるんですが。ダウンロードがとても重いのですが。
FISHの検索を試してみる。検索窓は1つ。シンプル。検索結果は書影とタイトル、あとは書誌事項のサマリ。ヒットしたキーワードにはハイライトあり。タイトルをクリックすると書誌事項と件名、排架場所を表示。件名はLCSHかな。あとWorldCatへのリンクあり。
著者、件名からは再検索用のリンクが張られている。なかなかよさげな作り。でも、OmniFindは言ってしまえばよくある検索エンジン。RESTなインターフェースは実装されているけれども、クローラーで検索対象となるWebページや文書ファイルを収集してデータベースにしてくれるだけ。どうやってOPAC上のデータをOmniFindに食わせているのか。
公式ブログに導入の経緯や仕様の概略も書かれていた。決めセリフは
The OPAC has left the building.
カコイイ!まるでOPAC2.0のようだ。このくらい大口を叩けばよかったのか。
システムとしては、MARCをMySQLに放り込み、ISBNなどで各書誌データを単一のページとしてアクセスできるように加工。これでOmniFindがクロールできる。
このままだと検索結果はGoogleのような普通の検索エンジンと同じになってしまう。でも書影を出したりしたい。ということでインターフェースにはDrupalを使用。OmniFindはバックエンドのデータベースとして動作し、おそらくAPIを使ってATOMで結果をOmniFindに返させてDrupl側で整形、出力しているのだろう(想像)。賢い。
FISH will be released as a Drupal module in the not too distant future.
と書かれていたので、期待したい。
ダウンロードが終わったので、とりあえずいつものFedoraCore4でインストール。コマンドラインから実行すると「グラフィカルモードで実行しろ。さもなければオプションを付けろ。」と言われるものの、その通りにしても途中でプロセスが落ちてる。
FAQを読む。
When installing on Linux without a GUI, remotely for example via SSH, the user may encounter the following message:
"The installer is unable to run in graphical mode. Try running the installer with the -console or -silent flag."
However, console mode and silent install are actually not supported right now. Instead you should install while inside a complete graphical desktop environment either on the server or remotely via VNC.
だそうだ。not supportedってなんだよそれ。もっとも対応OSは以下の通り。Linuxはディストリビューションも読んでいるのか。
- 32-bit Red Hat Enterprise Linux Version 4, Update 3
- 32-bit SUSE Linux Enterprise 10
- 32-bit Windows XP SP2
- 32-bit Windows 2003 Server SP1
あいにく他の空きマシンはWindowsXPのノート(Pentium Mとちょっと非力)しかない。2万ドキュメントの処理に必要なスペック
- 1 Processor at 1.5GHz
- 1GB of RAM
- 80GB of Disk Space
を満たしていないけれどもまあいいや。2万件も処理しないし。しかしこの判断は甘かった。
さて、クロールさせるデータを用意しよう。ここはやはりOPACにはOPACで対抗。こんなこともあろうかと、以前「トラックバック可能なOPAC」でMovableTypeに一書誌一エントリで出力したデータがあるではないか。これを使おう。FISHでも、WordPressを使用したOPAC、WOPAC(検索例)を参考にしたとあった。同じようなことを考えている図書館員はどこにでもいるようだ。
OmniFindを起動。OmniFind自体にWebサーバが内蔵されているため、セットアップ時にサービスに使用するポート番号を聞かれる。とりあえず80で。
その他、インストールやセットアップのスクリーンショットはMoonGift オープンソースのエントリ「IBM OmniFind Yahoo! Edition レビュー」を参考にされたい。
クロール範囲には正規表現が使えるようだ。http://www.affrc.go.jp/blog/newbook/*.html を対象に指定し、新着図書情報をblogに出力した約4000件のデータを使う。
あまり時間もかからずインデックス作成終了。検索速度も悪くない。
ついでにMovableType側の表示テンプレートやNet::Mobaletypeに送り込むスクリプトも調整。タイトルにアイコンをつけていたのだが、これが検索結果表示時に"<img src=..."とタイトルより先にHTMLのコードが表示されてしまうのでこれを改修。
金曜日はここまでにして帰宅。あとは土曜日朝にスクリプトが動き出し、新規データを追加するのを待つのみ。
土曜の朝。OmniFindから応答が返らなくなっていた。職場に戻らないと状況が分からないが、新規データの追加時にOmniFindが落ちたようだ。
ということで今日はここまで。週末の気分が一気に萎えたことは言うまでもない。
設定画面などあれこれは次回以降にご紹介を予定。
コメント