Previous month:
2007年1 月
Next month:
2007年3 月

2007年2 月

さよなら、MitakeSearch。そしてAlpha。

 某日。日本HPの弊社担当SEがやってきた。

 弊社のシステムのいくつかは、旧DEC→旧COMPAQからの流れでHPのサーバなど各種プロダクトを利用している。MitakeSearchもその一つで、「検索システム農林一号」(旧、検索エンジン農林一号(仮称))など何気なく全文検索エンジンとして稼働中である。

 用件は以下の通り。当方で導入しているMitakeSearchのうち保守対象製品について、

と文書で通知された。直接後継となる製品はなく、今後は各種DBMSに付属する全文検索機能で対応する、とのこと。以後も使う分にはサポートがないだけで大丈夫だそうだが、ちょっとさみしい。

 発売当初は「純国産全文検索エンジン」としてAlphaチップの力を遺憾なく発揮できる、と言う触れ込みであったような覚えもあるが、そのAlphaシステムも2006年9月30日で製品販売終了、オプション製品販売完了も2007年9月30日と間近い。
 開発の経緯はこのあたりから

日本語全文検索ソフトウェア開発計画はDEC社(現HP)が開発した検索ソフトウェアであるAltaVistaの発表がきっかけとなっており、 AltaVistaが「高いところからの眺め」という意味であることから、日本語全文検索ソフト開発プロジェクトは開発部隊のあるコンパック多摩事業所の近くの御岳山より名前を借り、Mitakeプロジェクトと呼ばれました。そのプロジェクト名がそのまま製品名MitakeSearchとなっています。

 ということで、昔荻窪に研修に通っていた身としては懐かしい。

 思い起こせば、文献検索システムの試験用としてDEC3000/600を導入、試験の後はMTからのデータロード用として数年前まで稼動(ホスト名はtom。相方はAlphaStationのjery。)していたが、いまは日当たりのよい部屋で余生を過ごしている。ていうか誰もVMSを触れない。(研修は受けたけど忘れました。すみません。そういえばMultiaもWindowsNT3.51のクライアントとして使っていた。)

 最初の公式WebサーバはAlphaServer2100。OSはDEC OSF/1(後のDigitalUNIX)。この上でapacheもNNTPサーバもanonymous FTPも動かしていたから恐ろしい。ネットニュース用には別のマシンが用意されていたのだが、クラッシュしたためこちらに運用を切り替えた。担当SEからは、「DEC以外で組織トップドメインのニュースサーバにAlphaを使っているのはここだけ」とも言われた。確かに、何かしらインストールしようとするとconfigureで大抵こけて苦労した覚えが。

 ホスト名はsary。相方に文献検索サーバのtitiがあり、打合せ等では「saryがdiskfullです。」とか「titiが落ちました。復旧作業中。」など心和む会話が飛び交った。今はそういう愛のある名前付けは流行らないのだろうか。rms1とか無味乾燥なホスト名はちょっとつまらない。saryの名はさながら伝統のように別サーバに引き継がれ、今は3代目のマシンのCNAMEになっている。


LibraryFindと戦ってみた

 2月は会議シーズン。中間評価や担当者会議やその他諸々で資料作成が続く。

 各地の図書担当者が参集する会議で機関リポジトリ構築計画の説明があるため、XooNIpsのLibrary Module用一括登録ツールを使ってデモデータのリポジトリ登録など、とりあえず見せられる形を整える。(報告するのは別の担当者。)

 で、「各所のXooNIpsから公開可能なデータをOAI-PMHで吸い上げる」計画であるため、メタデータの吸い上げと交換のフロントエンドになるシステムを検討。とりあえずEprints3.0をインストールしたものの、スキーマの変換で悩む。oai_dcでそのまま入れられないものかと。もうちょっと情報を集める必要がありそうだ。先行事例をご存知の方はご教示ください。

 そんな困ったときにカレントアウェアネス-Rから「オレゴン州立大学のLibraryFindプロジェクト進む」の報が。渡りに船か。敵か味方か。
 z39.50 target、OAI-PMHでハーベストしたメタデータ、オンラインジャーナルタイトル(serials solutions piped formatで書いてPHPでOpenURLを生成、DBに入れる)の横断検索が可能なようだ。OpenURLのリゾルバも登録できるので便利そう。

 ということでインストールだ。え、これRubyで書いてある。しかもRuby on the Ralisだ。gemって何ですか。cpanみたいなものですか。混乱しつつINSTALL.txtに従いセットアップ。動くかどうか不安に駆られてFedoraCore4→5にアップデート。データベースは手動でMySQLに作るのね。自動生成じゃないんだ。
 railsのバージョンが違う(1.6.6を使うそうだ)といっては怒られ、oai_dc.rbが見つからないと嘆かれ、Perlとは異なる世界に迷い込んだ自分に後悔。

 OAI-PMHのハーベスタは

/usr/lib/ruby/site_ruby/1.8/rubygems.rb:246:in `activate': can't activate activesupport (= 1.3.1), already activated activesupport-1.4.1] (Gem::Exception)

 と言われて動作しない。上位互換アリとかそういう親切設計ではないようだ。

 ハーベスタは華麗にスルーしてセットアップを切り上げる。そして ruby script/server。 起動。おお、動いた。リモートでオレゴン州立大のデータを検索に行っている。オレゴンから愛。

 日本語を入力してみた。スペルチェッカーが自動的に作動するのだが、当然エラーを吐く。その他マルチバイトには厳しいような予感がする。多言語化ってどうすれば。
 オンラインジャーナル検索ぐらいならできそうだ。SFXから出力できればだけど。日を改めて試そう。

 とはいえ、メタサーチの実装としてはいい感じだと思う。参考にしよう。


 IBM OmniFind Yahoo! Edition. もうちょっとマシなマシンを、ということで半分寝ていたExpress5800(Windows2000server, Xeon 1.5GHz x2)を叩き起こして実行。50万件のデータから「農業」で検索させて3000msぐらい。遅。数年前のワークステーションじゃこのくらいなのか。テストに使えるそこそこ速いマシンを確保したいなあ。

 Next-Lの方もコミットしないと。有志Welcomeです。