2007年。
IBM OmniFind Yahoo! Editionを動かしてみた(2)

IBM OmniFind Yahoo! Editionを動かしてみた(1)

 金曜日(1/5)の話。

 1月5日付けカレントアウェネス-Rの記事、「OPACから”FISH”へ」。企業向け無償検索エンジン“IBM OmniFind Yahoo! Edition”を利用した総合目録。

  • Free
  • Integrated
  • Search
  • Handler

でFISH。なるほど。で、ここまで読んだ3千万人ぐらいの方のご想像どおり、記事を読みながらIBM OmniFind Yahoo! Edition(以下「OmniFind」と略)のダウンロードを開始する図書館退屈男。83MBもあるんですが。ダウンロードがとても重いのですが。

 FISHの検索を試してみる。検索窓は1つ。シンプル。検索結果は書影とタイトル、あとは書誌事項のサマリ。ヒットしたキーワードにはハイライトあり。タイトルをクリックすると書誌事項と件名、排架場所を表示。件名はLCSHかな。あとWorldCatへのリンクあり。
 著者、件名からは再検索用のリンクが張られている。なかなかよさげな作り。でも、OmniFindは言ってしまえばよくある検索エンジン。RESTなインターフェースは実装されているけれども、クローラーで検索対象となるWebページや文書ファイルを収集してデータベースにしてくれるだけ。どうやってOPAC上のデータをOmniFindに食わせているのか。

 公式ブログに導入の経緯や仕様の概略も書かれていた。決めセリフは

The OPAC has left the building.

 カコイイ!まるでOPAC2.0のようだ。このくらい大口を叩けばよかったのか。

 システムとしては、MARCをMySQLに放り込み、ISBNなどで各書誌データを単一のページとしてアクセスできるように加工。これでOmniFindがクロールできる。
 このままだと検索結果はGoogleのような普通の検索エンジンと同じになってしまう。でも書影を出したりしたい。ということでインターフェースにはDrupalを使用。OmniFindはバックエンドのデータベースとして動作し、おそらくAPIを使ってATOMで結果をOmniFindに返させてDrupl側で整形、出力しているのだろう(想像)。賢い。

FISH will be released as a Drupal module in the not too distant future.

と書かれていたので、期待したい。

 ダウンロードが終わったので、とりあえずいつものFedoraCore4でインストール。コマンドラインから実行すると「グラフィカルモードで実行しろ。さもなければオプションを付けろ。」と言われるものの、その通りにしても途中でプロセスが落ちてる。
 FAQを読む。

When installing on Linux without a GUI, remotely for example via SSH, the user may encounter the following message:

   "The installer is unable to run in graphical mode.  Try running the installer with the -console or -silent flag."

However, console mode and silent install are actually not supported right now.  Instead you should install while inside a complete graphical desktop environment either on the server or remotely via VNC.

だそうだ。not supportedってなんだよそれ。もっとも対応OSは以下の通り。Linuxはディストリビューションも読んでいるのか。

  • 32-bit Red Hat Enterprise Linux Version 4, Update 3
  • 32-bit SUSE Linux Enterprise 10
  • 32-bit Windows XP SP2
  • 32-bit Windows 2003 Server SP1

 あいにく他の空きマシンはWindowsXPのノート(Pentium Mとちょっと非力)しかない。2万ドキュメントの処理に必要なスペック

  • 1 Processor at 1.5GHz
  • 1GB of RAM
  • 80GB of Disk Space

を満たしていないけれどもまあいいや。2万件も処理しないし。しかしこの判断は甘かった。

 さて、クロールさせるデータを用意しよう。ここはやはりOPACにはOPACで対抗。こんなこともあろうかと、以前「トラックバック可能なOPAC」でMovableTypeに一書誌一エントリで出力したデータがあるではないか。これを使おう。FISHでも、WordPressを使用したOPAC、WOPAC(検索例)を参考にしたとあった。同じようなことを考えている図書館員はどこにでもいるようだ。

 OmniFindを起動。OmniFind自体にWebサーバが内蔵されているため、セットアップ時にサービスに使用するポート番号を聞かれる。とりあえず80で。
 その他、インストールやセットアップのスクリーンショットはMoonGift オープンソースのエントリ「IBM OmniFind Yahoo! Edition レビュー」を参考にされたい。

 クロール範囲には正規表現が使えるようだ。https://www.affrc.go.jp/blog/newbook/*.html を対象に指定し、新着図書情報をblogに出力した約4000件のデータを使う。

 あまり時間もかからずインデックス作成終了。検索速度も悪くない。
 ついでにMovableType側の表示テンプレートやNet::Mobaletypeに送り込むスクリプトも調整。タイトルにアイコンをつけていたのだが、これが検索結果表示時に"<img src=..."とタイトルより先にHTMLのコードが表示されてしまうのでこれを改修。

 金曜日はここまでにして帰宅。あとは土曜日朝にスクリプトが動き出し、新規データを追加するのを待つのみ。

 土曜の朝。OmniFindから応答が返らなくなっていた。職場に戻らないと状況が分からないが、新規データの追加時にOmniFindが落ちたようだ。

 ということで今日はここまで。週末の気分が一気に萎えたことは言うまでもない。
 設定画面などあれこれは次回以降にご紹介を予定。

コメント

この記事へのコメントは終了しました。