2010年12月5日日曜日

CiteSeerXってなんだー

ちょっと技術的に気になることがあって、
CiteSeerXの技術を説明した論文を読んでいました。

外国語は得意じゃないし、
本当は日本語で書かれた論文があったら良かったんだけど、
探すよりは読んだ方が早そうな感じだったので
あきらめてこの論文を読んでみた、という流れです。


そんなわけで、ついでと言ってはなんだけど、
日本語ではCiteSeerXについてあまり説明されていないみたいなので
簡単にメモくらいしておこうかと思います。

翻訳のつもりでやってるわけなじゃないから、間違ってたらご愛嬌!


CiteSeerとは何かというところから始めますが
公式の説明では(aboutより)
「科学文献(計算機科学と情報科学が中心)のデジタルライブラリ&サーチエンジン」とされています。

イメージとしては「フルテキストも持ってる抄録・索引データベース
みたいなものでしょうかね。


簡単な歴史として、
  • 自動で引用索引&引用リンクを生成する世界初のデジタルライブラリ&サーチエンジン
  • 1997年にニュージャージー州のプリンストンにあるNEC Research Instituteで、Steve Lawrence,Lee Giles and Kurt Bollackerによって開発された
  • 2003年、ペンシルベニア州立大学の情報科学技術カレッジ(College of Information Sciences and Technology)へと管理が移った
  • 75万ドキュメントをインデックス(≒検索対象となっている件数)し、1日150万件提供する(ダウンロード数かな?)までに成長した
  • 現在はCiteSeerからCiteSeerXへとバージョンアップ

みたいなことが書いてありますね。


また、特徴をまとめると以下のようになりそうですが、
  • 引用索引の機能があり、ある文献「を」引用した文献を探すことが可能(もちろん収集対象になっていれば、だけど)
  • 被引用回数の統計もとれる
  • パーソナルサービスがあり、アラート機能等の設定可
  • インデックスされた論文からメタデータを抽出&提供(Dublin Core準拠)
  • Table Searchを使うとCiteSeerXで所蔵する文献が持つ「表」やそのキャプションなどを対象に検索ができる
  • テクニカルレポートや会議録なども収集対象
  • FAQを見ると、データのインデクシングは完ぺきではないらしい。そのためユーザが修正を行うことも。


一番の特徴は、
何といってもAutonomous Citation Indexing (ACI)でしょう。
これは「自動で学術的な文献を収集し、引用リンク&引用索引を作る」
ことができるアルゴリズムです。

要点だけ書くと、こんな感じかな?

  • ウェブを検索したり、
    メーリングリストやニュースグループのアナウンスをモニタリングしたり、
    学術出版社の出している直接的なリンクを使いながら、
    ウェブ上で取得可能な学術的ファイル(PDFやポストスクリプトの形式も含む)を探し、文献を収集する。
    (その際重複するURLの収集は避ける)


  • 自動で文献の構造を解析し、自動で引用部分などを見抜き、
    引用として記述される部分のサブフィールドを認識する。
    (文字列のどこが著者か、出版社か、タイトルかなどを機械に理解させる。その際、著者名、雑誌名などのデータベースと突き合わせたりしているらしい。同時に、引用の記述形式から機械的に読み取るのが簡単でないことも説明されている。)


  • 自動化するに当たっては機械学習の方法が使われている。
    (テスト段階でエラーは5%程度)



自動で文献を集めてきて、自動でインデクシングして、
自動で引用リンク関係を構築する、と。
(※インデクシング≒検索システムにひっかかるような形に加工すること)

そのおかげで引用統計がとれるようになっているというのも特徴ですね。


論文は10年以上も前の内容なので、
この後の変化については追加調査しないとよくわかりませんが
元々いろんなアルゴリズムを詰め込んで大規模にやってるから
そんなに大きな変化はないだろうと思います。


ちなみに、ウェブ上に放つクローラーについては、
公開されているソースコードのセットの中に
詳細な仕様らしき文献を見かけましたので
興味のある方はそれを読んだら良いのではないかと思います。
(僕は読んでないけど)


ここでの説明は割愛しましたが、
僕がACIの論文を読むことで一番知りたかったのは、
「どうやって自動で引用リンクを形成するか」という点でした。
(特に、引用記述中の著者データの抽出と同定識別方法について)

結果的に、機械的に100%の精度を出すのは無理そうだったけど
処理に関するアルゴリズムの説明はおもしろかったので、
「耐えられる」という方にはぜひおススメ。


そういえば和製引用索引のCJPは、そのあたりどうしてるんだろう?
1995年から(CiteSeerより先に)サービスを開始してるはず…?
これも気になりますね。

それと
Bibliographic Databases: Arxiv, Citeseer, Digital Bibliography
という本が今年に入って出版されていたようなので、
これを買って読んでみることにしようと思います。
(すでに積んである本はいっぱいあるのに…)

今やろうとしている研究と直接関係がないので
本当は深入りしている場合じゃない気もするけど、
知的好奇心成分の補給は積極的に心掛けないと、ねぇ?



あと基本的な使い方についても
いろいろ書いておこうかと思ったんだけど、
文字情報で説明するのが面倒くさすぎて心が折れました。

なので細かい利用法はここには書きません。

チュートリアル動画を勝手に作って
先方に公開の許可を交渉するくらいのことをやってもおもしろいけど
けっこうしんどいしね…。


あと、大学・専門図書館業界の方やその方面を目指す方は
トップページの中心あたりに書いてある「Most cited」を見ると
きっとおもしろいと思います。

詳しい統計の取り方が見当たらなかったから
はっきりとは分からないけど、たぶん以下のような感じ。

  • Documents(文献)
    収集した文献を被引用回数でランキング
  • Citations(引用)
    ここでは"引用された対象のランク"を指す。
    CiteSeerXに収録された文献とは限らず、
    「収録された文献の引用・参考文献に載っているリストを見て、頻繁に出現する文献のランクをとったらどうなるか」という結果と考えてもいいと思います。たぶんだけど。
  • Authors(著者)
  • Venue Impact Ratings
などの実数とランクを見ることができます。


Venue Impact Ratingsの所には
「based on Garfield's traditional impact factor」
つまり「従来のインパクトファクターと同じ計算方式」の
結果が書かれているわけですが、
収録範囲が違うから
Journal Citation Report(JCR)と同じ値は出ないことでしょう。

「『被引用回数』を増やすことになる、『引用をした文献』の分野・対象数」が違うはずだし。
それ以前にJCRの収録対象誌とどれほど重複するかが謎だけどね。


でも実際にJCRと比べてみてあまり違いが出なかったら、
「計算機科学領域の分野はウェブだけで完結している世界だ」
みたいなことが言えるかもしれないのかな?
それはそれでちょっと興味深いような。

ということで、気が向いた方は細かくJCRと比較して遊んでください。
きっとほんのり楽しいことでしょう。
僕はアクセス権限がありませんので…。

0 件のコメント:

コメントを投稿