Previous month:
2010年2 月
Next month:
2011年2 月

2010年8 月

Code4Lib JAPANへの誘い - デジタル情報の最前線に立つ覚悟はあるか

岡崎市立図書館の一件以来、司書のITへの対応力が問われている。

曰く、

  • 図書館の本業は蔵書の貸し出しであり管理、あるいは子どもへの本の読み聞かせ
  • システムに関する知識を個々の職員に求めるのは酷
  • 司書は文系が多いから仕方がない
  • 図書館では専門的な知識を有している人が乏しい

これらの発言に悪意は感じないし、仕方のないことだと思う。「本が好きだから」司書を目指し、職に就く者は多い。「ITがすきだから」「パソコンが好きだから」図書館で働く,という話は聞いたことがない。

しかし、図書館員はもうITの力なしでは業務はできない。カード式目録と膨大な冊子体の索引誌で文献を探す時代にはもう戻れない。書庫に眠る壁一面のChemical Abstracts(化学系文献の索引誌。年52冊+Index。1907-2009刊行)を繰る者はいない。我々はITがもたらした恩恵からは逃げられない。何より、利用者はそれを求めてはいない。図書館はもっと便利であれと言うだろう。

ならば立ってみようじゃないか。デジタル情報の最前線とやらに。そこに情報があり、利用者が欲するなら分類整理して提供するのが司書の仕事ではないのか。必要なツールがないのなら、自ら作ろうじゃないか。かつて様々な文献目録を編み、必要な書誌情報を一枚のカードに納めて見せたように。

何も一からプログラム言語を作り、基盤にチップを半田付けしてコンピュータを作れと言っているわけではない。インターネット上には自らの情報を好きなように見せ、共有できるさまざまなツールがある。まずは今そこにあるものを使おう。写真のアーカイブを公開したければFrickrがある。会議をライブ中継したければUSTREAMがある。自前でサーバを持たなくてもなんとかなる。

飽き足らなければサーバを用意して…余ったPCでかまわない…Wordpressを入れてblogを立ち上げる、Perlのモジュールを組み合わせて必要な情報を切り出すツールを作る。一台のサーバがあれば、どんなことでもできるような錯覚さえ覚えるだろう。

あとは誰に教えてもらうか、だ。新しいことを自分一人で続けるのはつらいことだ。他より先進的(と思われる)サービスを見つけ、立ち上げ、それを続けるのは孤独さえ感じる。こんな事をしているのは宇宙でたった一人だと。

今は違う。Code4Lib JAPANにそんな同志たちが結集する。一人じゃない。欧米より遅れているとか進んでいるとかじゃない。本家アメリカのcode4libと連携し、同じ夢を見て、ITで図書館サービスをよりよくするために肩を並べることができる。

図書館退屈男もアメリカの多くのsystem librarianの力を借りた。LibXを使いたいのでつたない英語で質問したら、快く答えてくれた。お礼に2.0の日本語表示を手伝った。統合検索用のインターフェースにxerxesを使いたくてメールを出したら、やはり親切にマルチバイトへの対応方法を教えてくれた。おかげでDatabase Quick Searchを立ち上げることができた。ソフトウェアに国境はない。仲間はどこにでもいる。

Code4Lib JAPAN Lift Off。デジタル情報の最前線へ。いよいよ8月28日(土)14時より品川にて開催。ご案内と参加申し込みは公式blogからどうぞ。

もちろんUSTREAMでも中継予定。アクセスは https://ustre.am/n2vL から。twitterハッシュタグは #c4ljp

品川から、手を携えて進まん。


OPACをクローリングしたら逮捕されるこの国で

「図書館から新着図書データを自動で取得するプログラムを開発、実行した結果、図書館のシステムが脆弱だったためサービスが停止。結果、図書館はサイバー攻撃と見なし県警に被害届を提出、プログラム開発者は逮捕拘留の末、不起訴処分となる。このことについて図書館長は「違法性がないことは知っていたが、図書館に了解を求めることなく、繰り返しアクセスしたことが問題だ」と発言。」

これが愛知県岡崎市立図書館で発生した事件の概要。
事件の経過や詳細は、

を参照して頂きたい。

プログラムを開発された方が逮捕された5月にもネット上で話題になったが、その後もこの問題に疑問を抱いた有志が twitter での議論や検証を続けていた。また、情報ネットワーク法学会がこの問題を取り上げた研究会「岡崎市立中央図書館へのアクセスはDoS攻撃だったか?」が7月に開催され、この場に居合わせた朝日新聞名古屋本社の記者と情報交換がなされたようだ。内容はCode4Lib JAPANのblogでもレポートされている。
その結果が、最近の以下の連続した報道に繋がっている。


公共図書館だけでなく、大学なども含め多くの図書館で運用されている図書館システムには「新着情報を取り出したい」「書誌データに直接アクセスしたい」など、Webブラウザによらないアクセスに対するニーズを満たすようなAPI(Application Program Interface)の実装は極めて少ない。このため、複数の図書館の蔵書を横断検索したい、データを取りたい、amazon経由で近くの図書館に所蔵がないか確認したい、などを行うためには取得したHTMLから必要な情報をプログラムで切り出すというページスクレイピングという手法によらざるを得ない。こういったプログラムを作成するための参考書籍も発売されており、さほど難しいものではない(例:Spidering Hacks――ウェブ情報ラクラク取得テクニック101選 / Kevin Hemenway, Tara Calishain 著、村上 雅章 訳, オライリー・ジャパン, 2004)。
今回の事件は、これを一日一回、30分間に秒間1回程度のアクセス頻度で行った結果、検索システム側の不具合によりダウンしOPACの利用ができなかった、というもの。

例えばはてな界隈の人々なら、自作スクリプトでページスクレイピングなりAPI叩いてゲットだぜ、はもう当たり前すぎる利用方法となっている。だからこそ、先日サービスを開始した国立国会図書館サーチのような「普通の図書館ではあり得ない」サービスが注目される。

そう、図書館は違う。そんな利用のされ方は念頭にはない。想像もできない。おそらく。

どこまで、どのようにアクセスしたらシステムがダウンするか。それは機能要件を定義したベンダなり仕様を策定した図書館側しか知り得ない。また、ページスクレイピングされることを前提とした設計などまずあり得ない。それならRSSでのデータ配信やOpenSearchなりSRUなりz39.50などの横断検索用プロトコルを実装してそっちを使ってもらう方が話は早い。であれば、単に「繰り返しアクセス」や「大量アクセス」という曖昧な言葉で禁止や制限をするのではなく、仕様と要件定義、実利用数などからアクセス回数とシステムへの負荷状態は把握出来るのだから、どこまでなら機械的なアクセスを許容出来るという閾値を可能な範囲で公開すべきではないのだろうか。(あまり詳細だとセキュリティ的な弱点を公開しているのと同じなので問題ですが。)

事実、全国の図書館の蔵書検索サービスを提供しているカーリルでは、「サービス開始直後、いくつかの図書館システムにおいて速度低下などの影響があり、その都度該当図書館との調整を図りました。」という対応を行っている。今回の事件についてもその見解を発表している。カーリルのような大規模なサービスなら、その影響は大きく調整の必要もあろう。しかし、個人レベルの利用においても開発者と図書館は個別に調整を行わないといけないのか?事前に許可を得ないといけないのものなのか?本当に許可は出るの?事務量増えるよ?

APIの利用に当たって事前申請で発行されたtokenの利用を義務づけるサービスもあるが、それは利用状況の把握などのためであり、規制を意味するものではない。「事前に館長宛に書面で許可申請を出せ」というのは利用を萎縮させる効果しかないのではないか。

蔵書検索サービスを提供する、ということをもうちょっと掘り下げて考える時期に来たのかもしれない。

amazonもbk1もなかったインターネットの黎明期には、本来の蔵書検索に加え「本の情報自体を検索する」ことにも利用されていたが、現在では予約機能なども含め立派な図書館サービスの一つになっている。そして、カーリルなどの公共図書館のインフラを利用した大規模な検索サービスの出現、またこのAPIを利用し現在位置周辺の図書館の蔵書検索ができるiPhoneアプリ「ライブラリアン」まで現れた。これらのほとんどは、図書館ではなく利用者が自らのニーズを合わせて独自に作ったものである。このような状況を多くの図書館員は理解しているのだろうか。「システムのことはわからない」と逃げてはいないだろうか。もうOPACは図書館サービスを超えて社会的インフラの一つになろうとしている、そのためのニーズもある、そうは考えられないだろうか。

これは理想論かもしれない。しかしニーズがあり新たなサービスが生まれているのもまた事実だ。「そんなのは国立国会図書館やお金のある大規模な図書館の仕事」といわれるかもしれない。現実には、厳しい財政状況の中でシステムにばかり予算は回せない。

しかし声を大にして言いたい。できることからでかまわない。図書館員が自分で先の「ライブラリアン」のような高度なアプリケーションを作る技能そのものは必要ないが、それが作れるデータを提供できるシステムを、社会へ向けたインフラを作ろうよ。図書館サービスが貸本屋でなく公共的インフラを構成するサービスを目指すなら、新着受入情報のRSS配信や横断検索への対応など、新たなニーズに対応したシステム構築が必要だ。Webブラウザ以外でアクセスするのは許可制、勝手に行ってちょっとでもサービスが止まったら逮捕なんてもう見たくない。


図書館退屈男、半年ぶりに戻って参りました。しばらく精神的にも余裕が少なかったのですが、夏に入ってからは物事が進むようになりblogにも戻ってきました。

この夏でこのblogも5年目になりました。4年前に発表した記事の内容はどんどん現実になり、なんだかうれしい反面、今の自分が新しい何かを生み出せないのがちょっと寂しいです。

この8月28日(土)には"Code4Lib JAPAN Lift Off"と題した記念式典でちょっとしゃべります。今回の事件に触れるかどうかはさておき、新しい流れを生み出すお手伝いができればいいなと思います。詳しいご案内とお申し込みは公式blogからどうぞ

あと、国立国会図書館支部図書館・協力課発行の「びぶろす」電子化49号(平成22年8月)に寄稿しました。農林水産関係試験研究機関総合目録の成り立ちについてまとめてみました。