「ず・ぼん」15号電子版を買ってみた
Code4Lib JAPANへの誘い - デジタル情報の最前線に立つ覚悟はあるか

OPACをクローリングしたら逮捕されるこの国で

「図書館から新着図書データを自動で取得するプログラムを開発、実行した結果、図書館のシステムが脆弱だったためサービスが停止。結果、図書館はサイバー攻撃と見なし県警に被害届を提出、プログラム開発者は逮捕拘留の末、不起訴処分となる。このことについて図書館長は「違法性がないことは知っていたが、図書館に了解を求めることなく、繰り返しアクセスしたことが問題だ」と発言。」

これが愛知県岡崎市立図書館で発生した事件の概要。
事件の経過や詳細は、

を参照して頂きたい。

プログラムを開発された方が逮捕された5月にもネット上で話題になったが、その後もこの問題に疑問を抱いた有志が twitter での議論や検証を続けていた。また、情報ネットワーク法学会がこの問題を取り上げた研究会「岡崎市立中央図書館へのアクセスはDoS攻撃だったか?」が7月に開催され、この場に居合わせた朝日新聞名古屋本社の記者と情報交換がなされたようだ。内容はCode4Lib JAPANのblogでもレポートされている。
その結果が、最近の以下の連続した報道に繋がっている。


公共図書館だけでなく、大学なども含め多くの図書館で運用されている図書館システムには「新着情報を取り出したい」「書誌データに直接アクセスしたい」など、Webブラウザによらないアクセスに対するニーズを満たすようなAPI(Application Program Interface)の実装は極めて少ない。このため、複数の図書館の蔵書を横断検索したい、データを取りたい、amazon経由で近くの図書館に所蔵がないか確認したい、などを行うためには取得したHTMLから必要な情報をプログラムで切り出すというページスクレイピングという手法によらざるを得ない。こういったプログラムを作成するための参考書籍も発売されており、さほど難しいものではない(例:Spidering Hacks――ウェブ情報ラクラク取得テクニック101選 / Kevin Hemenway, Tara Calishain 著、村上 雅章 訳, オライリー・ジャパン, 2004)。
今回の事件は、これを一日一回、30分間に秒間1回程度のアクセス頻度で行った結果、検索システム側の不具合によりダウンしOPACの利用ができなかった、というもの。

例えばはてな界隈の人々なら、自作スクリプトでページスクレイピングなりAPI叩いてゲットだぜ、はもう当たり前すぎる利用方法となっている。だからこそ、先日サービスを開始した国立国会図書館サーチのような「普通の図書館ではあり得ない」サービスが注目される。

そう、図書館は違う。そんな利用のされ方は念頭にはない。想像もできない。おそらく。

どこまで、どのようにアクセスしたらシステムがダウンするか。それは機能要件を定義したベンダなり仕様を策定した図書館側しか知り得ない。また、ページスクレイピングされることを前提とした設計などまずあり得ない。それならRSSでのデータ配信やOpenSearchなりSRUなりz39.50などの横断検索用プロトコルを実装してそっちを使ってもらう方が話は早い。であれば、単に「繰り返しアクセス」や「大量アクセス」という曖昧な言葉で禁止や制限をするのではなく、仕様と要件定義、実利用数などからアクセス回数とシステムへの負荷状態は把握出来るのだから、どこまでなら機械的なアクセスを許容出来るという閾値を可能な範囲で公開すべきではないのだろうか。(あまり詳細だとセキュリティ的な弱点を公開しているのと同じなので問題ですが。)

事実、全国の図書館の蔵書検索サービスを提供しているカーリルでは、「サービス開始直後、いくつかの図書館システムにおいて速度低下などの影響があり、その都度該当図書館との調整を図りました。」という対応を行っている。今回の事件についてもその見解を発表している。カーリルのような大規模なサービスなら、その影響は大きく調整の必要もあろう。しかし、個人レベルの利用においても開発者と図書館は個別に調整を行わないといけないのか?事前に許可を得ないといけないのものなのか?本当に許可は出るの?事務量増えるよ?

APIの利用に当たって事前申請で発行されたtokenの利用を義務づけるサービスもあるが、それは利用状況の把握などのためであり、規制を意味するものではない。「事前に館長宛に書面で許可申請を出せ」というのは利用を萎縮させる効果しかないのではないか。

蔵書検索サービスを提供する、ということをもうちょっと掘り下げて考える時期に来たのかもしれない。

amazonもbk1もなかったインターネットの黎明期には、本来の蔵書検索に加え「本の情報自体を検索する」ことにも利用されていたが、現在では予約機能なども含め立派な図書館サービスの一つになっている。そして、カーリルなどの公共図書館のインフラを利用した大規模な検索サービスの出現、またこのAPIを利用し現在位置周辺の図書館の蔵書検索ができるiPhoneアプリ「ライブラリアン」まで現れた。これらのほとんどは、図書館ではなく利用者が自らのニーズを合わせて独自に作ったものである。このような状況を多くの図書館員は理解しているのだろうか。「システムのことはわからない」と逃げてはいないだろうか。もうOPACは図書館サービスを超えて社会的インフラの一つになろうとしている、そのためのニーズもある、そうは考えられないだろうか。

これは理想論かもしれない。しかしニーズがあり新たなサービスが生まれているのもまた事実だ。「そんなのは国立国会図書館やお金のある大規模な図書館の仕事」といわれるかもしれない。現実には、厳しい財政状況の中でシステムにばかり予算は回せない。

しかし声を大にして言いたい。できることからでかまわない。図書館員が自分で先の「ライブラリアン」のような高度なアプリケーションを作る技能そのものは必要ないが、それが作れるデータを提供できるシステムを、社会へ向けたインフラを作ろうよ。図書館サービスが貸本屋でなく公共的インフラを構成するサービスを目指すなら、新着受入情報のRSS配信や横断検索への対応など、新たなニーズに対応したシステム構築が必要だ。Webブラウザ以外でアクセスするのは許可制、勝手に行ってちょっとでもサービスが止まったら逮捕なんてもう見たくない。


図書館退屈男、半年ぶりに戻って参りました。しばらく精神的にも余裕が少なかったのですが、夏に入ってからは物事が進むようになりblogにも戻ってきました。

この夏でこのblogも5年目になりました。4年前に発表した記事の内容はどんどん現実になり、なんだかうれしい反面、今の自分が新しい何かを生み出せないのがちょっと寂しいです。

この8月28日(土)には"Code4Lib JAPAN Lift Off"と題した記念式典でちょっとしゃべります。今回の事件に触れるかどうかはさておき、新しい流れを生み出すお手伝いができればいいなと思います。詳しいご案内とお申し込みは公式blogからどうぞ

あと、国立国会図書館支部図書館・協力課発行の「びぶろす」電子化49号(平成22年8月)に寄稿しました。農林水産関係試験研究機関総合目録の成り立ちについてまとめてみました。

コメント

この記事へのコメントは終了しました。