2010年10月4日月曜日

Google Booksは、表示させないだけで全文持ってるんだと…

Google Booksは図書をスキャンして
全文テキストを持っていると思っていたんだけど、
自動で引用ネットワークを構築したりはしていないような…?

ドキュメント間の引用ネットワーク(引用する・されるという関係を表したもの)が
あれば便利なのは学術、webの世界をみても明らかだし、
ボーンデジタルか否かに関わらず
アナログ資料のデジタル化も進んでいるんだから

一つの図書をチェックする

図書内で言及されている
「図書」(Google Books内、OCLC等へのリンク)
「論文」(Google Scholar、学術コンテンツへのリンク)
「ウェブページ」(URLによるリンク)
等へのリンクが自動で表示される機能くらいあっても良さそうなんだけどな…?

別に書誌記述が著作権にひっかかることもないんだし。


うーん、でも現状でサービスが展開されてないってことは
「自然言語中に書かれた引用・参考情報を自動で認識して対象へリンクを張る」
技術がそもそも存在しないのかな?


問題になるとしたら
「図書における引用・参考文献の記述が曖昧でわかりにくく
 機械的に『引用・参考文献の部分』を認識・抽出できない。」とかかなぁ。
(論文を書くときには厳密な引用時の記述ルールがあるが、
 図書においては必ずしもそのような書き方はされていない気がする。)

箇所がわからないってだけなら
ボーンデジタルの場合は出版時にタグとかで括っておけばいいし、
アナログ→デジタルの場合でも手作業でなんとかなるんだろうけど…。
引用の記述ルールもいくつかあるから一筋縄ではいかないのか…?

箇所がわかればあとは検索して該当物を識別すれば…、
と思ったけどその識別も難しいのか。識別子が使えるとも限らないし。


現状ではテキストを選択した後に
ドラッグ&ドロップをすれば簡単に検索できるから
そこから自分で選びなさいってところなんだろうな。


ふーむ… しかし技術的に可能か否かは、
引用・参考文献を挙げるときの記述ルールについて
網羅的に詳しく調べて分析してみてから判断する必要があるな。

あとそのあたりを解決している技術の存在についても。


もしあったら、
卒論やり直したり(※)、
「分野による情報探索行動の差」を見ることで
おもしろい結果が出そうだと思ってただけで、
ないならないで別に構いはしないんだけども。


それにしても知識が足りないなぁーー



__________

(※)
僕が大学4年生で僕が書いた卒論は
「図書と論文の間で引用に差があるか」という内容。

当時の環境において、図書が行う引用情報を入手するには、
【データセットを手打ち入力で作る】という地獄のような作業をしなければならず、
(OCRは精度があまりよくなかったので使えなかった)

貧乏でパソコン持ってなかったし、
アルバイトは18:00~26:00(事実上社会人学生)だったし、
それが終わって大学に行って作業を始めても
夜中に入力対象を入手するために図書館に入ることもできないしで
卒論提出期限の2週間前までデータ入力をしていました。
(ほとんど文章を書いていなかった。)

指導をしていただいた先生はとても温厚な方なんですが
その時ばかりは烈火の如くお怒りになりまして。

当然分析内容に関しても突貫工事としか言えない完成度なので
留年を覚悟したんですが…、
(結果も、そんなに違いが出なかった気がする)
かろうじて卒業をすることになって今に至る、と。

なんていうか後悔しかない。

そして「図書が行う引用」というのは僕の中ではもう完全に黒歴史。
やり直せるというのならやり直したいという気持ちがあったりします。

テーマとしては結構気に入ってたけどね。

0 件のコメント:

コメントを投稿