図書館システム

Code4Lib JAPANへの誘い - デジタル情報の最前線に立つ覚悟はあるか

岡崎市立図書館の一件以来、司書のITへの対応力が問われている。

曰く、

  • 図書館の本業は蔵書の貸し出しであり管理、あるいは子どもへの本の読み聞かせ
  • システムに関する知識を個々の職員に求めるのは酷
  • 司書は文系が多いから仕方がない
  • 図書館では専門的な知識を有している人が乏しい

これらの発言に悪意は感じないし、仕方のないことだと思う。「本が好きだから」司書を目指し、職に就く者は多い。「ITがすきだから」「パソコンが好きだから」図書館で働く,という話は聞いたことがない。

しかし、図書館員はもうITの力なしでは業務はできない。カード式目録と膨大な冊子体の索引誌で文献を探す時代にはもう戻れない。書庫に眠る壁一面のChemical Abstracts(化学系文献の索引誌。年52冊+Index。1907-2009刊行)を繰る者はいない。我々はITがもたらした恩恵からは逃げられない。何より、利用者はそれを求めてはいない。図書館はもっと便利であれと言うだろう。

ならば立ってみようじゃないか。デジタル情報の最前線とやらに。そこに情報があり、利用者が欲するなら分類整理して提供するのが司書の仕事ではないのか。必要なツールがないのなら、自ら作ろうじゃないか。かつて様々な文献目録を編み、必要な書誌情報を一枚のカードに納めて見せたように。

何も一からプログラム言語を作り、基盤にチップを半田付けしてコンピュータを作れと言っているわけではない。インターネット上には自らの情報を好きなように見せ、共有できるさまざまなツールがある。まずは今そこにあるものを使おう。写真のアーカイブを公開したければFrickrがある。会議をライブ中継したければUSTREAMがある。自前でサーバを持たなくてもなんとかなる。

飽き足らなければサーバを用意して…余ったPCでかまわない…Wordpressを入れてblogを立ち上げる、Perlのモジュールを組み合わせて必要な情報を切り出すツールを作る。一台のサーバがあれば、どんなことでもできるような錯覚さえ覚えるだろう。

あとは誰に教えてもらうか、だ。新しいことを自分一人で続けるのはつらいことだ。他より先進的(と思われる)サービスを見つけ、立ち上げ、それを続けるのは孤独さえ感じる。こんな事をしているのは宇宙でたった一人だと。

今は違う。Code4Lib JAPANにそんな同志たちが結集する。一人じゃない。欧米より遅れているとか進んでいるとかじゃない。本家アメリカのcode4libと連携し、同じ夢を見て、ITで図書館サービスをよりよくするために肩を並べることができる。

図書館退屈男もアメリカの多くのsystem librarianの力を借りた。LibXを使いたいのでつたない英語で質問したら、快く答えてくれた。お礼に2.0の日本語表示を手伝った。統合検索用のインターフェースにxerxesを使いたくてメールを出したら、やはり親切にマルチバイトへの対応方法を教えてくれた。おかげでDatabase Quick Searchを立ち上げることができた。ソフトウェアに国境はない。仲間はどこにでもいる。

Code4Lib JAPAN Lift Off。デジタル情報の最前線へ。いよいよ8月28日(土)14時より品川にて開催。ご案内と参加申し込みは公式blogからどうぞ。

もちろんUSTREAMでも中継予定。アクセスは http://ustre.am/n2vL から。twitterハッシュタグは #c4ljp

品川から、手を携えて進まん。


OPACをクローリングしたら逮捕されるこの国で

「図書館から新着図書データを自動で取得するプログラムを開発、実行した結果、図書館のシステムが脆弱だったためサービスが停止。結果、図書館はサイバー攻撃と見なし県警に被害届を提出、プログラム開発者は逮捕拘留の末、不起訴処分となる。このことについて図書館長は「違法性がないことは知っていたが、図書館に了解を求めることなく、繰り返しアクセスしたことが問題だ」と発言。」

これが愛知県岡崎市立図書館で発生した事件の概要。
事件の経過や詳細は、

を参照して頂きたい。

プログラムを開発された方が逮捕された5月にもネット上で話題になったが、その後もこの問題に疑問を抱いた有志が twitter での議論や検証を続けていた。また、情報ネットワーク法学会がこの問題を取り上げた研究会「岡崎市立中央図書館へのアクセスはDoS攻撃だったか?」が7月に開催され、この場に居合わせた朝日新聞名古屋本社の記者と情報交換がなされたようだ。内容はCode4Lib JAPANのblogでもレポートされている。
その結果が、最近の以下の連続した報道に繋がっている。


公共図書館だけでなく、大学なども含め多くの図書館で運用されている図書館システムには「新着情報を取り出したい」「書誌データに直接アクセスしたい」など、Webブラウザによらないアクセスに対するニーズを満たすようなAPI(Application Program Interface)の実装は極めて少ない。このため、複数の図書館の蔵書を横断検索したい、データを取りたい、amazon経由で近くの図書館に所蔵がないか確認したい、などを行うためには取得したHTMLから必要な情報をプログラムで切り出すというページスクレイピングという手法によらざるを得ない。こういったプログラムを作成するための参考書籍も発売されており、さほど難しいものではない(例:Spidering Hacks――ウェブ情報ラクラク取得テクニック101選 / Kevin Hemenway, Tara Calishain 著、村上 雅章 訳, オライリー・ジャパン, 2004)。
今回の事件は、これを一日一回、30分間に秒間1回程度のアクセス頻度で行った結果、検索システム側の不具合によりダウンしOPACの利用ができなかった、というもの。

例えばはてな界隈の人々なら、自作スクリプトでページスクレイピングなりAPI叩いてゲットだぜ、はもう当たり前すぎる利用方法となっている。だからこそ、先日サービスを開始した国立国会図書館サーチのような「普通の図書館ではあり得ない」サービスが注目される。

そう、図書館は違う。そんな利用のされ方は念頭にはない。想像もできない。おそらく。

どこまで、どのようにアクセスしたらシステムがダウンするか。それは機能要件を定義したベンダなり仕様を策定した図書館側しか知り得ない。また、ページスクレイピングされることを前提とした設計などまずあり得ない。それならRSSでのデータ配信やOpenSearchなりSRUなりz39.50などの横断検索用プロトコルを実装してそっちを使ってもらう方が話は早い。であれば、単に「繰り返しアクセス」や「大量アクセス」という曖昧な言葉で禁止や制限をするのではなく、仕様と要件定義、実利用数などからアクセス回数とシステムへの負荷状態は把握出来るのだから、どこまでなら機械的なアクセスを許容出来るという閾値を可能な範囲で公開すべきではないのだろうか。(あまり詳細だとセキュリティ的な弱点を公開しているのと同じなので問題ですが。)

事実、全国の図書館の蔵書検索サービスを提供しているカーリルでは、「サービス開始直後、いくつかの図書館システムにおいて速度低下などの影響があり、その都度該当図書館との調整を図りました。」という対応を行っている。今回の事件についてもその見解を発表している。カーリルのような大規模なサービスなら、その影響は大きく調整の必要もあろう。しかし、個人レベルの利用においても開発者と図書館は個別に調整を行わないといけないのか?事前に許可を得ないといけないのものなのか?本当に許可は出るの?事務量増えるよ?

APIの利用に当たって事前申請で発行されたtokenの利用を義務づけるサービスもあるが、それは利用状況の把握などのためであり、規制を意味するものではない。「事前に館長宛に書面で許可申請を出せ」というのは利用を萎縮させる効果しかないのではないか。

蔵書検索サービスを提供する、ということをもうちょっと掘り下げて考える時期に来たのかもしれない。

amazonもbk1もなかったインターネットの黎明期には、本来の蔵書検索に加え「本の情報自体を検索する」ことにも利用されていたが、現在では予約機能なども含め立派な図書館サービスの一つになっている。そして、カーリルなどの公共図書館のインフラを利用した大規模な検索サービスの出現、またこのAPIを利用し現在位置周辺の図書館の蔵書検索ができるiPhoneアプリ「ライブラリアン」まで現れた。これらのほとんどは、図書館ではなく利用者が自らのニーズを合わせて独自に作ったものである。このような状況を多くの図書館員は理解しているのだろうか。「システムのことはわからない」と逃げてはいないだろうか。もうOPACは図書館サービスを超えて社会的インフラの一つになろうとしている、そのためのニーズもある、そうは考えられないだろうか。

これは理想論かもしれない。しかしニーズがあり新たなサービスが生まれているのもまた事実だ。「そんなのは国立国会図書館やお金のある大規模な図書館の仕事」といわれるかもしれない。現実には、厳しい財政状況の中でシステムにばかり予算は回せない。

しかし声を大にして言いたい。できることからでかまわない。図書館員が自分で先の「ライブラリアン」のような高度なアプリケーションを作る技能そのものは必要ないが、それが作れるデータを提供できるシステムを、社会へ向けたインフラを作ろうよ。図書館サービスが貸本屋でなく公共的インフラを構成するサービスを目指すなら、新着受入情報のRSS配信や横断検索への対応など、新たなニーズに対応したシステム構築が必要だ。Webブラウザ以外でアクセスするのは許可制、勝手に行ってちょっとでもサービスが止まったら逮捕なんてもう見たくない。


図書館退屈男、半年ぶりに戻って参りました。しばらく精神的にも余裕が少なかったのですが、夏に入ってからは物事が進むようになりblogにも戻ってきました。

この夏でこのblogも5年目になりました。4年前に発表した記事の内容はどんどん現実になり、なんだかうれしい反面、今の自分が新しい何かを生み出せないのがちょっと寂しいです。

この8月28日(土)には"Code4Lib JAPAN Lift Off"と題した記念式典でちょっとしゃべります。今回の事件に触れるかどうかはさておき、新しい流れを生み出すお手伝いができればいいなと思います。詳しいご案内とお申し込みは公式blogからどうぞ

あと、国立国会図書館支部図書館・協力課発行の「びぶろす」電子化49号(平成22年8月)に寄稿しました。農林水産関係試験研究機関総合目録の成り立ちについてまとめてみました。


図書館サービスもSaaSですってよ、奥さん!ムフフ。

あるようでなかったSaaS(Software as a Service)による図書館サービスの提供が、NEC発で行われている、との報がありました。以下はNECのプレスリリースからの抜粋です。

http://www.nec.co.jp/press/ja/0908/2501.html
国内初、公共図書館向けの複数システムをSaaS型で提供」(2009年8月25日)

「GPRIME 電子図書館サービス」は、(1)Wikiの仕組みを用いて、図書館員や住民が郷土に関連する情報や書籍についてWeb上で事典のように作成・蓄積・閲覧できる「わいわいライブラリー」、(2)複数の図書館をまたがって図書館員・ボランティア等がSNS形式でコミュニケーションできる「SNSサービス」、(3)都道府県内の図書館や大学にある蔵書を一度に検索できる「横断検索サービス」、(4)これまでは 主に紙書類で行われていた図書館間の相互蔵書貸借業務を支援する「ILL(アイ エル エル)サービス」の4種をメニュー化しており、ニーズに応じて順次メニューを拡充していきます。

この「GPRIME」自体は、「官民の情報システム連携、ワンストップサービスの促進など「地域情報プラットフォーム」をサポートし、経営という視点で資産や人材を活用する積極的な戦略を可能」とするソリューションで、そのサービスのひとつとして図書館サービスもある、というところでしょうか。

さらに、総務省から出されている各種の資料を見る限りでは、「図書館の図書貸出予約のオンライン化」は住民からの要望もあり、オンライン利用の促進対象手続ともなっています。電子化やオンライン化のメリットが目に付きやすい、という点もあるのでしょう。かつASPやSaaSの利用が「情報システムの開発コストの軽減、開発期間の短縮、運用に係る負担の軽減等のメリット」があるとされており、今後も続くのではないでしょうか。

話を戻しますが、NECのプレリリースで気づいたこと2件。

  1. 図書館「業務」システムをSaaSで、とは書かれていない。OPACも連携対象として絵に描かれているだけかもしれない。
  2. 「(2)複数の図書館をまたがって」とは?

別のセミナーでも、ベンダさんから「ASPやSaaSも不可能ではないが、顧客数や信頼性を考えると現時点では業務系システムはローカルに置きたい」との意見もありました。何だかんだ言ってカスタマイズが多く入ってしまう業務系システムをSaaSにするよりは、共通仕様と最小限のカスタマイズで運用できそうなWikiやSNS、ILLや横断検索(これは県立クラスがtarget?お値段から)であればデータセンターでまとめてサービスできる、と踏んだのでしょうか。

また、以前、Ex LibrisのSFXに論文レコメンドを付与するサービス、bXについて紹介しましたが、ここでは「複数の "OpenURL Linking Layer"(=大量のSFXのデータ)をOAI-PMHで吸い上げる "Recommender Service Layer" を構築。ここにbXが位置する。」とありました。(薬学図書館 Vol.54 No.3, 2007のプロダクトレビューに紹介記事があります。id:mmtwins さま、このblogをご紹介いただきありがとうございました。)

この文脈で、「(2)複数の図書館をまたがって」を考えてみました。
現在は、図書館同士の連携システムというとILLぐらいしか思いつきませんが、貸出履歴データの共有とレコメンド、また自治体を超えたILLやレファレンス記録の共有などを考えると、図書館の業務系システムも単館で存在するより、お互いに連携させることで新たなサービスを生み出す、そういう戦略が裏で存在するのではないでしょうか。(しかも同一ベンダで固めれば県下の市町村の図書館システムのシェアはアップ。)

考えてみればNACSIS-CAT/ILLのようにセンター館を介した連携はあっても、図書館システム同士がPeer to Peerに連携するシステム、という発想は正直ありませんでした。うまくAPIが共通化されて、オープンな形での連携が可能なシステムを考える、というのも面白そうな話ではあります。

とはいえ、先のbXやPrimoの動きを見ていると、統合検索や各種の仕様自体はオープンにはしているけれど標準化せず自社製品に特化させ、結果として「囲い込み」が始まっている、と見ることもできます。それとも事実上のスタンダードとなるのか。あとは開発する人=図書館員の努力しだい、ということでしょうか。


「ムフフ」はJR東日本の割引サービス「トクだ値」のネコから頂戴しました。尻尾が「JR」な以外、何の他意もないです。


リンクリゾルバにbXの風が吹く

ユサコ主催のEx Libris bXセミナーに行ってきました。この手のセミナーに参加する、いや出張自体が久しぶりなので開放感にあふれています。うひゃっほう!

今日の目玉はPrimoとbXの紹介。先にbXのサマリを。

  • 目指すものはレコメンドサービス
  • 万単位のユーザから得られた1000万件以上のさまざまなリソースへの情報要求の分析が基盤
  • 論文単位の要求に応えられる。
  • さまざまな環境に適応させることで、学術検索と密に統合し容易に利用可能
  • 各種標準への準拠と相互運用性の確保。

セミナーはまずEx Librisの紹介から。以下まとめ。

  • 図書館システム(Aleph)からリンクリゾリバ(SFX)、メタサーチ(MetaLib)、統合インターフェース(Primo)などトータルラインナップを用意している。
  • Hi-endな顧客をターゲットとし、顧客とのコラボレーション、緊密な連携を保っている。
    • 導入実績:
    • 米国のトップ10の大学全て
    • 米国のトップ50のうち45の大学
    • 欧州のトップ50のうち36の大学
    • 37の国立図書館 など
  • 76%のスタッフを研究開発に振り向けるなど、常に次世代への投資を怠らない。
    • 図書館以外への検索要求の増加というパラダイムシフトが背景にある。
  • OpenURLなど標準策定への参画
  • ユーザグループとの連携
  • OpenPlatformとユーザコミュニティによる拡張

OpenPlatformあたりの話題は、カレントアウェアネス-R(2008.7.11)でも報じられていたところです
これら公開された情報を元に、ユーザが開発したライブラリはEL Commonsと呼ばれるコミュニティサイト(ユーザのみ公開)で公開されています。「うちはOpenPlatformだから」という説明はこの後何度か出てきましたので、ポイントの一つかもしれません。

次はPrimoの紹介。こちらは日本語で。

  • 機関でアクセスできるリソースを一元的に提供する窓口(ポータル)
  • 自機関のみ・紙媒体のみが対象である従来のOPACよりも対象・機能共に大(次世代OPAC)
  • PrimoツールバーやOpenSearchによりブラウザからいつでも検索

「次世代OPAC」と自称するだけあり、検索結果のファセットクラスタリング(エンジンはMetaLibと同じvivisimo)、検索結果へのtagging、タグクラウド、自館だけでなく他の目録、google books、amazonなど他のアクセスポイントなどへのリンク、など一般的な機能は一通り抑えています。
「使ってみてえ」という方は、the British Library とか オックスフォード大学図書館 あたりでお試しください。(ソースはやっぱりカレントアウェアネス-R(2009.3.3)。いつもありがとうございます。)

Primoのシステム構成ですが、バックエンド(Publishing Platform)とフロントエンド(User Experience)の2階層構造で、先に紹介した機能がフロントエンドにあたります。

バックエンド(Publishing Platform)側では、ローカル情報源(図書館システム、機関リポジトリ、SFX・MetaLibのKnowledgeBase(電子ジャーナルやデータベースのURL、利用条件など))、その他ハーベスト可能なものは事前にハーベストし、Primo Normalized XML(PNX)レコードを作製します(FRBR対応!)。このPNXを元に重複除去や元データの拡張(amazonから表紙画像をもらってくるとか)を行い、Primoのインデックスとなります。ハーベスト対象にはDigiTool、Dspace、Fedoraといった機関リポジトリにも対応とのこと。

従来のMetaLibのようなメタサーチでも検索結果の重複除去などの機能はありましたが、Primoではデータをハーベストしてレコードの正規化までしてしまうのですね。

ハーベストできないリソースについては最適化もできないので従来のメタサーチをするしかないのか、と考えてしまいましたが、

  • レスポンスが早くない
  • ランキングやファセットの精度が上がらない

ことを解消するため、メタサーチの際に「Primo仕様の検索式を投げ、PNXでデータを返戻」するための仕様を公開しているそうです。(内容を詳しく質問したら「EL Commonsにサンプルコードがあるから見て」とのことでした。)

Primoは現在3500万レコードまでをサポート、160以上の顧客があり、現在は対応言語の拡大を図っているそうです。(日本語は対応準備中、でも日本語カタログは配られていました。)

AquaBrowserなど競合他社製品との相違点を質問しましたが、「詳細は承知していない」ながらも「APIやSDK公開など、OpenPlatformである点は大きく異なる」としていました。
確かに、EL Commonsではユーザが作った拡張アプリ、ユーティリティなどがあり、「ユーザ参加」型の開発姿勢が伺えます。(でも、それはHi-endな大学図書館等に優秀なSystem Librarianがいて、それで始めてできる技だよなあ。)

コーヒーブレイクの後はいよいよbXについて。こちらは逐次通訳。

  • ユーザがどのようなコンテンツを作成したか、またユーザが何をしたかがフォローされ、重要視されつつある。
  • 結果、図書館の利用データに価値が生じた。正に金の鉱脈ともいえる。
  • インパクトファクターでの評価には分野の限定やタイムラグなどの問題がある。
  • 学術論文の電子化は、単にPDFやHTMLに媒体が変わっただけでなく、メディアの多様化ももたらした。
  • しかし、論文の評価手法は引用分析など、紙ペースの手法のまま。
  • そこでレコメンド。
  • 図書館の中で必要性が生まれたが、EBCSO、LibraryThingsなど今までのシステムではタイトルを表示する程度の機能しか持たない。
  • 学術分野に求められているのは「論文」レベルのレコメンド。
    • 「人気」に基づくものではなく、利用状況の分析に立脚したもの。

このあたりを背景に、Ex LibrisではLos Alamos研と独占的契約を結び、2007年からbXの研究開発に着手。

  • ネットワーク化された研究コミュニティの力を利用して、論文の利用に応じたレコメンデーションを行う。
  • 複数の図書館での利用状況を統合、これを分析する。
  • この研究はLos Alamos研の Johan Bollen と Herbert Van de Somple (発表者注: OAI-PMHの作成などに貢献)によって行われた。
  • この研究の詳細は2人による次の論文を参照されたい。 Johan Bollen, Herbert Van de Somple. "An architecture for aggregation and analysis of scholarly usage data."  http://public.lanl.gov/herbertv/papers/jcdl06_accepted_version.pdf (last access: 2009-04-20)
  • 1億件以上(!)のSFXのログデータを収集、これを元に分析を行った。
  • リンクリゾルバはOpenURLを介して接続された各種のリソース間のハブと言える。
  • これを「OpenURL Linking Layer」と「Resource Layer」の2階層と捉える。
  • OpenURLは2001年にSFXが実装、2009年現在では3000以上(うち1800以上はSFX)のリンクリゾルバのみならず多くの学術情報同士のリンキングに利用されている。
  • リンクリゾルバがリソース間のハブとなっている。
  • bXはこのアーキテクチャの上に構築されている。
  • 複数の「OpenURL Linking Layer」(=大量のSFXのデータ)をOAI-PMHで吸い上げる「Recommender Service Layer」を構築。ここにbXが位置する。
  • データ取得は、欧米の各大学より協力を得た。最大の開発パートナーはLos Alamos研。

bXのデモ。SFX上に、通常の電子ジャーナルなどのリンク解決だけでなく、レコメンドする論文を表示。例では、EBSCOからSFXへリンク、そこから別のアグリゲータの論文がレコメンドされ参照する様子が紹介されました。

また、bXが単にSFXと共に利用できるだけでなく、Open Interfaceを持ち

  • OpenURL/XML
  • OpenURL/RSS
  • OpenURL/ATOM

など各種のシステムから呼び出せる、という事例も。XML Responsの例は資料にあったのですが、字が細かくてかろうじて判別…困難。
例えば、MetaLibのXML APIである x-server の実装、xerxes 上にbXのレコメンドを表示させる例なども紹介されていました。(後で聞いたら「It's so easy. Like SFX.」といっていた。うちもやろう。)

実際の計算というか分析方法は、大まかには次のとおり。

  • SFX経由でアクセスした、同じユーザの一定時間の検索行動を取得
  • その行動の中でアクセスした論文を、順や回数などの要素で重み付け(クリック回数などの閾値は設定しているらしい)。
  • 別にユーザに対して、先に利用された論文があれば同じ検索行動内で取得した論文をレコメンド対象として提示。
  • 詳しくは先の論文に手法を載せてあるので参照されたい。

意外とシンプル。しかし、バックにあるのは一億件のデータ。正確度はどうなのだろう?
質疑応答でこのあたりについても触れられていました。

  • どうレコメンドするか、例えば自組織のデータを教師データとするか、bX全体のデータを利用するかなどの設定はできるようにしてある。
  • 全ての分野をカバーしてはいない。論文のカバー率は20%強。この中からレコメンドすることになるが、参加館が増えればデータも増えるだろう。
  • レコメンドデータの評価についても研究を進めている。
  • bXの利用については、SFX他Ex Librisの製品導入が前提ではない。また、SFX利用データの提供の義務も考えていない。
  • プライバシー保護には特に配慮している。各所のSFXから収集したデータからIPアドレス等は削除、bX内では暗号化されており外部から元データの出所を知るすべはない。
  • 規模の大小、分野に特化しているか否かで適切なレコメンドができるかどうかは変わってくる。(具体的な値については触れていませんでした。)
  • 今後は、論文のトレンド分析やユーザの行動追跡にも利用できるのではないか。実際に、恣意的に行われることがある引用の分析より実態に近いデータを得られている。

bX。Launchは来月とのこと。日本での発売の詳細についてはアナウンスがありませんでしたが、期待して待つことにします。

以下個人的な雑感とかなんとか。

そもそもうちはEx Librisが仰る所の「Hi-end」なユーザなのだろうか。泡沫ユーザな気もしないでもなくはない。ちょっとはユーザコミュニティに貢献しないと。

SFXのログデータを分析すればレコメンドも……と軽く考えていましたが、2年も前に手をつけられていたのですね。それはそうか。複数のSFXのデータの統合までは考えていませんでした。でも計算はどうやって。イスラエルの片隅のデータセンターでクラスタマシンが唸りをあげているのでしょうか。

リンクリゾルバは情報のハブ。確かにそのとおり。OpenURL様様です。そして、そのハブに流れる情報を全て吸い上げようとするbX。レコメンドという利便と引き換えになるものは何か。タダで質の高い情報は得られない。標準化は協調なのか連携なのか独占なのか。泡沫情報プロバイダはオリジナリティとアイデンティティをどう保つか。昨今のPORTAやJ-Globalやその他もろもろの動きを見ているとそう感じます。


と、長々書いていたらARGが配信される時間になりました。今週は[ARG-371]です。どれどれ…。

なお、まだ情報が出ていないが、6月上旬に開催される国立情報学研究所(NII)のオープンハウスにも参加する。

・国立情報学研究所(NII) - オープンハウス
http://www.nii.ac.jp/index.php?action=pages_view_main&page_id=317

あ、今年もあるんだ。オープンハウス。リンク先を開こう。今年もコンテンツ系のワークショップも…あああああ!これは!!

6月12日(金) [特別会議室] 次世代学術コンテンツ基盤ワークショップ
11:00〜12:30 「電子リソースアーカイブの展望」
14:00〜16:00 「ひらめき、ひろがる、知の可能性(かたち) - CiNiiリニューアルとウェブAPIコンテスト -」

あう、「ウェブAPIコンテスト」ってなにい? どういうこと?

そうか、その手があったのか…API普及のために…コンテスト…うちがやっても商品出せないぞ…いやチャレンジするとかしないとか考えようよ自分。早くOPAC直して。


CiNiiはRDFへ舵を切った

4月1日からリニューアル予定のCiNiiの試験公開が始まりました。"ciexam"というホスト名すらカコイイ。examですよexam。青くなりそう。

インターフェースが変わったことはもちろんですが、Cinii_opensearch Firefoxでアクセスすれば、

ほら、「俺はOpenSearchできるぜ!Come on!」と訴えている!
(青くなった矢印クリックで"CiNii Opensearchを追加"と出ます。)

しかも、「CiNiiのAPI(1)-OpenSearchについて」によれば、OpenSearchの出力はxhtml、RSS、ATOMで出力可能。つまり、RSSなりATOMの検索結果をフィードとして登録しておけば、新着通知も受けられるなんて素敵仕様さ。

http://ciexam.nii.ac.jp/naid/40016242883/rdf

でXML出力です。リンクに rdf と書き足すだけ。これは中身が濃いXML。

出力されるRSSには、XML名前空間としてDCのほかPRISMなどが使用されています。ticTOCsプロジェクトで提案された構造に近いですね。(参考:電子ジャーナルの目次RSSを集約・配信するticTOCsプロジェクトの経験から得たRSSの要件. カレントアウェネス-R. 2008-11-21

検索機能としては、結果一覧に加えて「関連著者」や「関連刊行物」などを出力する流行の機能もあり。PDFがあると結果一覧でもうリンクがあります。全文リンクが分からなかった今までのCiNiiに比べるとこれは便利。

関係者の皆様、素晴らしい出来です。ここで褒めても伝わらないかも知れませんがあーくやしい。


[3/10 追記]

開発者のblog、大向一輝. "次期CiNiiの試験公開をはじめました". 清澄日記, 2009-03-10によれば、

OpenSearchのリファレンスにはRSS 2.0とAtom 1.0の例が書かれていることが多いのですが、RSS 2.0を削ってRSS 1.0を入れたのはセマンティックウェブ屋のこだわりです。また、書誌パーマリンク(論文の詳細情報)の内容はRDFで入手することができます。このRDFでは著者情報がFOAFで記述されていて(簡単なものですが)、ソーシャルグラフの抽出に使えるようになっています。あと、検索結果のページと書誌パーマリンクはXHTMLに準拠していて、それぞれxFolkとhAtomというマイクロフォーマットを埋め込んでいます。どう使われるのかはまだ想像がつきませんが、いいアイデアを募りたいところです。

とのこと。 xhtmlはスルーしていたけど、http://ciexam.nii.ac.jp/naid/40016242883/ のソースを読む。読む。読む。

…本当だ、さりげなくマイクロフォーマットが埋め込まれている! なんてセマンティック!今後の文献検索サービスの方向性を変えそうな実装です。


で、弊社ですが…。

さらに諸々が遅れておりOPAC2.0と言い出したくせになんだよ、という状態です。指をくわえてどころでなく、体育座りで背中を丸めて世間を眺めています。



DCPLのiPhone対応OPACを試してみた

ピッツバーグ在住のnoriさんのblog、「Pittsburgh LIS Report」 で "ワシントンD.C.公共図書館の蔵書がiPhoneから検索可能に" が紹介されていたので、早速手元のiPhoneで試してみました。この記事によれば、コードも公開予定とのことで期待大です。

元の記事は、walking paperの"DCPL iPhone application ready for download"です。

自宅のWifi経由での接続でしたが、それほどのストレスは感じませんでした。

Dcpl App Storeからダウンロードできるアプリケーションです。
installed インストールしてみました。
Main Menu 起動すると、所蔵検索か分館の開館時間、所在表示が選択できます。
Search Interface こちらは検索画面。
Searching Now "manga"で検索してみました。検索中はダイアログが表示されます。

Display Search Result

検索結果です。

DC public library の "Online Catalog" のキーワード検索相当の検索を行っているようです。

(でもMARCには"manga"って件名になかったんですよね。独自にキーワードとして追加しているのでしょうか。)

Subject term: Cyborgs--Comic books, strips, etc. 
Subject term: Robots--Comic books, strips, etc. 
Subject term: Computer hackers--Comic books, strips, etc. 
Subject term: Twenty-first century--Comic books, strips, etc. 
Subject term: Undercover operations--Comic books, strips, etc. 
Genre index term: Graphic novels
Show detail 概要表示です。所蔵館と詳細表示(書影あり)へのリンクがあるほか、"Place Hold"から予約と引き取り館の指定ができます。

iPhoneの作法に従ったインターフェースで検索ができる、というのはひとつのメリットですね。

うう…作ってみたい。


INFOPRO2008で発表してきました

11/13-14に日本科学未来館で開催された第5回情報プロフェッショナルシンポジウム(INFOPRO2008)で発表してきました。今回のお題は「リンクリゾルバの多面的活用」です。

INFOPROへでの発表は2005年以来。今思えば、あの時の発表と「情報管理」への記事掲載その後の数年を方向付けたといっても過言ではありません。

予稿とスライドは追ってJ-STAGEで公開される予定ですが、発表内容は主に「Webブラウザからのリンクリゾルバの利用」ということで、FirefoxプラグインLibXからの利用、またRSSリーダにDOIなど書誌情報入りのfeedを解釈させてOpenURLを生成、リンクリゾルバにリンクさせる取り組みについて取り上げたほか、自機関DBからの他機関のリンクリゾルバへのリンク対応などについてご紹介しました。

とはいえ、リンクリゾルバを利用している機関はまだまだ少ないようで、同じ日のご発表、黒沢俊典, 松田真美, "医中誌WebからOPAC, リンクリゾルバへのリンクの現況"によれば、医中誌Webからの外部リンク設定345件のうちリンクリゾルバは64件(16%)と、OPACからのリンク(217件, 63%)と比較するとまだまだ小数に留まっています。正確な数値は持ち合わせていませんが、おそらく国内全体でも同じくらいの割合なのかもしれません。

となると、発表も絵に描いた餅なのかも、と不安に思っていましたが、当日夜に別のblog(高久雅夫, "文献情報ページにCOinSを埋め込んだ ", まさおのChangeLogメモ. 2008-11-15)で、「発表にインスパイアされて」として、COinS(<p><p>OpenURL ContextObject in SPAN (COinS)</p></p>ContextObjects in Spans: SPANタグにOpenURLを記述してHTMLに埋め込む手法)のメタデータ情報を付与したサンプルを発見しました。COinSについては見過ごしていたのですが、こういう利用法もあるのかと勉強させていただきました。LibXはCOinSにも対応しているので、さらに応用範囲が広がりそうです。

ともあれ、自分の発表が誰かの発想の種になったことは嬉しいものです。


国立情報学研究所の「本気度」を推し量る - 「CiNiiのいま、これから」

6月6日(金)にNIIで開催されましたワークショップ「CiNiiのいま、これから」に行ってきました。

「学術コミュニティに不可欠の共有財(コモンズ)」を標榜する国立情報学研究所(NII)の情報サービス、論文情報ナビゲータ「CiNii」。その決意が本気であること、2009年4月に現れる次期CiNiiは、付け焼刃のシステムとインターフェースの改善ではなく、各方面の専門家を動員し綿密な評価と最新のWeb技術を意識して設計されるものであること、それが読み取れるワークショップでした。

タイトルからは、「現状の報告と今後の展開」的なものを予想していましたが、現状はともかく、「これから」について具体的な内容は、資料でもプレゼンでもほとんど語られません。仕様書案の確定が近いと思われるので詳細を語れなかったのでは、と邪推しますが、ワークショップ全体を見渡すと「これから」の姿がおぼろげに見えてきます。

以下、例によって図書館退屈男がワークショップの資料とパネルディスカッションの聴講による予断だけで深読みして語ります。裏も言質も取っていないので、2009年4月の公開時に全く違っていたら一笑に付して頂きたく。
当日の具体的な質疑などは min2-fly,"CiNiiのいま、これから", かたつむりは電子図書館の夢をみるか. (http://d.hatena.ne.jp/min2-fly/20080606/1212774613) 2008-06-06. [last access:2008-06-07] を適宜ご参照ください。

  1. ユーザインターフェース、API
    • 客観的な評価に基づき、学術研究機関での一般的なユーザを意識したものとなる。
    • 現行のフィールド指定形のインターフェースは残る。あるいは複数用意される。
    • なんらかのWebAPIは用意される。

    篠原さん(ソシオメディア株式会社)のご発表の通り、ユーザインターフェースの設計とユーザビリティ評価を専門とする同社により、現行のCiNiiについてユーザビリティ評価が行われたことが明らかになりました。既知の経験則と比較しての分析(ヒューリスティック評価)と、被験者を使って実際にCiNiiを操作し発生した問題を抽出するユーザビリティテストが行われています。
    その結果、「『詳細検索』を使う傾向が多い」「本文にたどり着くための導線が混乱している」との問題点が明らかになり、

      「一般的なウェブシステムとしてのユーザビリティと、文献検索に特化されたアプリケーションツールとしての有用性の双方を確保することが必須」

    という改善策が提示されています。
    現在の情報サービス提供にあたって、民間企業なら当然実施する評価ですが(岡本さん(ARG)も、「(CiNiiは)民間情報事業者の目で見たら突っ込みどころは多い」と言及しています。)、図書館サービスの世界ではここまでの取り組みは稀ではないでしょうか。このような評価手法は実際のところ結構費用がかかるものなので、なおさらそう思います。

    そして「想定されるユーザ=被験者」は誰なのか。当然、システムを利用されることが想定される利用者層から被験者を抽出し、報告の段階では具体的な主体はぼかされることが多いですが、思わぬところで明らかになりました。パネルディスカッション前段のパネラー同士の質疑で、発表者の一人である清水さん(千葉大学法経学部)が被験者であったことを明らかにしました。これは想定外だったのでは。経済学を専門とする清水さんからは、自らの立場と周囲について「CiNiiについては素人、無知」「周囲も『しぃあぃえぬあぃあぃってなに?』(笑)ぐらいの知名度」などとご発表されています。同時に、「ヒット件数が多すぎる」「これ以上ヒット件数を増やす全文検索は不要。タイトルと抄録だけで内容がわからない論文はそもそも役に立たない。」と言及していることから、それなりに使い込んでいるヘビーユーザであることも想定されますが、「CiNiiをよく使う利用者層」の一人としてNIIが認知し、その利用方法を教師データとしてインターフェース設計を行っていることは想像に難しくありません。

    また、質疑応答で、「現行のフィールド指定形のインターフェースが学生への教育には有効。残してほしい。」と質問があり、これに対してはシステム設計を担当した大向さんから「残す。いろいろなパターンのインターフェースが考えられる。」と回答があったほか、大向さんのご発表やその他の質疑でも

    • 「ウェブAPIによるエコシステム作り」
    • 「APIは開発者向けに強化」
    • 「システム側では多様なインターフェースを作れるよう準備する。デフォルトから外れたユーザに対してはこれで対応する。」

    との発言がありました。また、岡本さんのご発表でも、RSS配信やAPIの実装についての提言もあり、開発者の存在を念頭に置いたWebAPIの実装は確定したと考えます。あとはどのようなメタデータ要素が返ってくるかだけが心配です。(独自拡張なDCとかだと受け取る側は泣けるので。)

  2. 他システムとの連携
  3. CiNiiはOpenURLに対応し、これによるデータの送受信が可能です。また、自館のOPACへのリンクも形成可能です。機関定額制契約機関では、この機能により検索結果に本文へのリンクがなくても自館で利用しているリンクリゾルバやOPACへのリンクを自動生成し、ここから全文を入手することができます。筑木さん(京大付属図書館)さんのご発表では、この機能を利用した京大のArchcleLinkerとのリンク、またCiNiiとGoogleの連携によりCiNiiの利用回数が増加しているとの報告がありました。また、質疑応答でも、「OPACとの連携機能を活用しているので、できるだけ仕様は変えないようお願いしたい。」との要望も出されています。弊社でも、CiNii同様にデータベースの検索結果から自機関のリンクリゾルバへのリンク機能を実装しベータテスト中ですが、ありがたいことにご好評をいただいています。これらのことから、OpenURLによるリンクリゾルバやOPACへの連携機能は継続されるでしょう。

    これも筑木さんのご発表からですが、5月にNIIからα版がリリースされた「研究者リゾルバー」と連携し、著者名の漢字表記とローマ字表記をリンクし和欧両方の論文をまとめて検査できるのでは、との提案がありました。また、大向さんのご発表に「情報源としての人」を重視し、「人→論文」「論文→人」の検索について言及があったことから見ると、研究者リゾルバーの存在は無視できません。研究者リゾルバー側のロードマップが見えないのでなんともいえませんが、何らかの形での「著者名での論文間のリンク機能」が考えられているのかもしれません。

  4. システム全般
    • システムアーキテクチャの刷新。
    • 更なるアクセス増に耐えうるシステム作り。

    最近、CiNiiが重いと思っていたのは自分だけではなく、実際に平日の負荷は高く、特に午後2時ごろはNII内でも「魔の時間帯」と呼ばれるほどの高負荷となっているそうです。対して土日休日と8月(夏休み)は利用が少ないとのことで、大学等が利用の主体であることが再確認できました。
    大向さんのご発表でも触れられていましたが、経年の負荷増の見極めは難しく、現システムについていえば、Googleとの連携以降の利用増もあり「利用がここまで増えるとは想定されていなかった」とのこと。かといって、最初から利用増を見越してシステムのスペックを上げておいても、使われなければ「無駄無駄」との文句も出るだろうしで苦労されていると思います。
    具体的な実装については言及はありませんでしたが、「アクセスが増えるならそれに耐えられるシステムを作る」という前向きな姿勢は感じられました。

さて、大きく3点に分けて妄想予想してみましたが、冒頭の「CiNiiは『学術コミュニティに不可欠の共有財(コモンズ)』になりつつあり、変えてゆかなければならない」との尾城学術コンテンツ課長の挨拶に始まり、

  • 利用者
  • 図書館員
  • 情報リソース専門家
  • 情報デザイン専門家
  • 新CiNii開発者

の発表は、一見それぞれの立場からの個別の意見要望に見えましたが、大きく見ると個々の発言はすべてが相互に関連し、「フムン、次のCiNiiはこう打って出るのだな」と想像するに十分な情報量でした。同時に、そう思わせてしまうコーディネートの巧みさに感心してしまいました。(単に釣られただけとも言う。実際は違っていたらどうしよう。)


質疑応答の最後には、「国家政策として、NDL、JST、NIIの3者がばらばらに動いている現状をどう見るのか。それぞれの特色を出したいのはわかるが、一般から見ればどれも同じに見える。仲が悪いのはわかる(会場:笑)が、日本語の論文を世界に発信するという観点から協働について考えてほしい。」との趣旨の発言がありました。
司会の阿蘓品さん(NII)からは「仰る事はよく解るが、正直ぐさっと…」と苦しそうでしたが、図書館退屈男はとりあえずは現状でもよいのでは、と考えます。

NDLはPORTAで異種デジタルアーカイブの統合検索とAPI実装を実現し、NIIもCiNiiのOpenURLによるリンクの実装とNACSIS-CATの構築、JSTではJOIの開発による論文識別のためのフレームワークの実現と「科学技術用語シソーラス」の維持管理とそれぞれ特色ある事業に取り組んでいます。NIIとJSTはターゲットが学術分野だけに重複の感は否めず。

これに対する回答は、篠原さんのご発表の中での

  • 「偏在から遍在へ」
  • 「情報をコントロールするのでは、情報をナビゲートするのが専門家の役割」
  • 「情報は囲い込めないし、囲い込むべきではない」

といった方向性ではないかと考えます。
それぞれの主体がAPI等の公開により、特定のポータルではなく「どこからでもどのデータベースを検索できる」環境になれば、それぞれの特色を生かしたサービス展開もより有効なものになるのでは、と夢想します。(JSTさんがシソーラスを公開してくれれば、とか。)

「経由はどこのポータルサイトでもリンクリゾルバでもgoogleでもかまわないので、最後は自館しかないコンテンツにアクセスしてもらう」が落とし所ではないかと。

情報サービスについて他者との連携が容易な環境は整いつつあります。あとは手を繋ぐだけでは? 
でも、それが難しいから問題点としてあちこちで指摘の声が上がるのですよね。それは期待の裏返しなのですが。


名刺交換のたびに、「blog見てますよ~」と言われるのに続き、最近では「見てない人なんていませんよ!」(本当?嬉しい!)と言われる割には更新が遅れ気味です。

5月は、

  • 次期図書館システム(09年3月リプレース)仕様書案作成。
  • 8月の国際会議(IAALD-AFITA-WCCA2008)のProceeding作成。口頭発表のほか、パネルディスカッション(New Developments in Information Systems for Accessing Agricultural Research(仮))にもRSSネタで登板予定。早期登録割引は6月10日締め切りです。

など山のような仕事を抱え込んで凌いでいました。なので「図書館戦争」も状況〇四以降は録画したまま見られていない挙句にこのblogも更新できず。


国立国会図書館でAPI公開

国立国会図書館デジタルアーカイブポータル(PORTA)について、5つの検索対象が新たに追加されたほか、APIがいよいよ公開されました。

今回追加された検索先は以下の通り。

  • 京都大学学術情報リポジトリ+貴重資料画像 [京都大学附属図書館]
  • 日本ペンクラブ電子文藝館 [日本ペンクラブ]
  • 農林水産関係試験研究機関総合目録(図書) [農林水産研究情報センター]
  • 農林水産関係試験研究機関総合目録(雑誌) [農林水産研究情報センター]
  • HERMES-IR (Special Collections) [一橋大学附属図書館]
  • APIについても、SRW, OpenSearch, OpenURL, Z39.50が利用できるようになりました。詳細は

    PORTAを機械的に検索可能となるAPI(Application Program Interface)を公開しました。
    利用案内ページ>>>外部提供インタフェースについて

    にあるドキュメントをご覧下さい。

    また、Googleツールバー、FireFox用検索プラグインも同時に公開のようですが、例によって重いのか接続できません。

    ダウンロード案内ページ>>>Googleツールバー用/Firefox検索バー用 

    詳細は追って。


    国立国会図書館がソーシャルブックマークを始めると誰が予想しえたのか。

    一気に10光年ぐらい引き離された感じがした。ただ唯一の国立図書館の力を見せつけられた。

    「10月中旬より提供予定」と告知されていた国立国会図書館デジタルアーカイブポータル PORTAが公開されたとカレントアウェアネス-Rで告知されていた。

    とりあえずユーザ登録。このページを読んだらすぐ登録すべきだ。

    検索そのものは以前のプロトタイプとそれほど変わらない(ように見える)。エンジンはGETA。ただし使いやすさは格段にアップしている。

    ここで強調すべきなのはこのサイトの「ポータル」度の強さだ。ユーザ登録してパーソナライズ可能な実装を列挙してみる。詳しくはヘルプを

    1. ユーザ種別に応じた検索対象等の設定

      一般、図書館員、自然科学系、人文科学系、子どもの5種類から所属ユーザグループを選択できます。各グループに応じた検索の設定(検索対象、分類等)が初期値として予め設定されています。初回ログイン時にはユーザグループの設定がデフォルトで反映された状態となります。(ヘルプより)

    2. RSSフィードの登録
      ログイン画面に好きなRSSフィードを登録できる。しかも複数。
    3. ブックマーク
      検索結果をブックマークとして登録できる。しかもタグ+コメントも付与できる。そして公開可能。超ソーシャル。スイーツ。☆とかつけられると最高。
    4. レコメンド
      検索結果の「おすすめ」をクリックすると…
      「この資料を閲覧したユーザーは他に以下の資料を閲覧しています。」
      これが蓄積されていった暁には…。

    国立国会図書館がソーシャルブックマークを始めると誰が予想しえたのか。斜め上を行った展開。

    画面を構成する部品であるポートレットはiGoogleばりに自由に移動可能。
    APIなんて当然のように実装済み。他のデータプロパイダとの横断検索のほか、PORTAそのものがデータプロバイダとして機能する。

     PORTA自身がデータプロバイダとなり、外部システム等がPORTAの検索機能をシステム的に活用可能となるよう、API(Application Programming Interface)を提供します。APIの種類としてOAI-PMH、SRW、 OpenSearch、OpenURL等を想定しています。現在提供準備中です。
    (「連携を希望される機関の方へ」より)

    来る図書館総合展とかでも詳しい話が聞けるのだろうなあ。きっと。

    い、いや、悔しいとか、己(と自機関の)の無力さを嘆いているとか、そういうわけじゃないんだから!素直に「すっげえ」と褒めているだけなんだからぁ!

    …「連携希望」と書いてメールでも出そう。俺たちは負けない。(←誰に?)