2010年9月12日日曜日

あいでんてぃふぁいあー

前回のエントリでかいた
DOIについて調べたときの一番の収穫は「識別子」がまとまってたことです。

統計をとって分析をしたりとか、
データを突き合わせて調査をするといったときに
「識別」は、非常に頭を悩ませる問題になります。
(リンクをつくるときにも問題になるけど)

例えば「ある著者の業績を評価する」という場合に
まずは「ある著者が書いた文献を数える」ことになりますが、
この段階でかなり苦しい。

だって同姓同名とか、
結婚して名字変わったりする可能性があるじゃないですか。
アルファベットのスペルが統一されてなかったり(shiとsiなど)、
姓+名前のイニシャルで書かれてるデータもあるじゃないですか。

つまり"ある著者名を表す文字列は、ある著者を「一意」「一義」に識別するとは限らない"
ということなのですが、
とにかくこの状態だと、統計をとる前に
同じ人を同じ人と、違う人を違う人ときちんと認識する作業が必要になります。

たいていの場合、
著者名の文字列が同じ(同姓同名)でも所属組織は異なるし、
所属組織が同じでも、生年月日も違う可能性が高いから、
なんとかなるけど、理論上の精度が100%にはならないわけです。

当然こういったときに、
「ある人間一人に対し、固有の記号でも付いてて将来変わらなきゃいいのに!」
という気持ちになるわけです。

国民総背番号制みたいなものです。

とりあえずそんな時に、同姓同名の他人を別物とし、
本名とペンネームを統一して扱えるような「識別子(ID)」が欲しくなると。


これは当然著者に限った話ではなく、
「数を数える・集計する・統計をとる」ときには起こりうる問題でして
僕のような統計・分析にわくわくする人は、
識別子の種類や機能をいろいろ知っておいて損はないのです。

使いやすく・わかりやすく・普及する番号の管理を目指すために
どんな手段をとるべきか考える上でも
なかなか興味深い材料にもなるしね。


前から調べようと思っていたけど、偶然まとまったものが手に入ったから、
これを機にどんな種類の識別子があるのか追加で調べてみたわけですよ。

ざっと以下のような種類がある模様。
他にもいろいろとあるかもしれないけど、
とにかくノイズが多くて探すのがしんどいので…。

ノイズを減らすために正式名称を書いておきました。


まずは【DOI® handbook 1-3 identifier】 に書かれているISO規格。
ISOの検索システムで確認して、
最新版が出てるものなどについては少し修正。

JIS規格になっているものに関しては、
日本工業標準調査会:データベース検索-JIS検索で「JIS規格名称からJISを検索」をすると
全角、半角、大文字、小文字の区別があるらしく非常に検索しにくいため、
漏れているものもあるかも。


  • ISBN: ISO 2108:2005 International Standard Book Numbering
  • JIS X 0305 国際標準図書番号


  • ISSN: ISO 3297:2007 International Standard Serial Number
  • JIS X 0306 国際標準逐次刊行物番号


  • ISRC: ISO 3901:2001 International Standard Recording Code
  • JIS X 0308 国際標準レコーディングコード


  • ISRN: ISO 10444:1997 International Standard Technical Report Number
  • 国際標準テクニカルレポート番号。ISOで取り消し決議?


  • ISMN: ISO 10957:2009 International Standard Music Number
  • 国際標準楽譜番号。


  • ISWC: ISO 15707:2001 International Standard Musical Work Code
  • 国際標準作品コード。


  • ISAN: ISO 15706-1:2002 International Standard Audiovisual Number-- Part 1: Audiovisual work identifier
  • ISO 15706-2:2007 International Standard Audiovisual Number -- Part 2: Version identifier
  • 国際標準視聴覚番号。JISにはないらしいが、なぜか日本語版wikipediaに解説がある


  • ISTC: ISO 21047:2009 International Standard Text Code
  • 国際標準テキストコード。
  • 検索エンジンで検索するとかんじだと、今年ホットな話題らしい。


図書館の人にとって最低限の常識であるISBN,ISSN以外にもいろいろあることがわかります。
そしてJISでは扱われていないものもちらほら。


そのほかに見つけた面白そうな識別子は、

  • UAI: Universal Author Identifier

  • PII: Publisher Item Identifier

  • SICI: Serial Item and Contribution Identifier
  • BICI: Book Item and Component Identifier(なくなったかも?)

  • ISIL: ISO 15511:2009 International standard identifier for libraries and related organizations
  • 図書館及び関連組織のための国際標凖識別子

  • JOI: JST Object Identifier
  • 正式名称探すのにとても苦労した…。
  • たぶんJST(科学技術振興機構)のオブジェクト識別子。

  • IPI: Initial Protocol Identifier
  • ガチガチのコンピュータ用語だから微妙に関係ない。

  • biblid:Bibliographic Identification
  • その昔ISOの規格だったが取り消されたらしい

全部目を通すのもおもしろそうだけど、
それどころじゃないからなぁ。入手もしにくいし。
興味はあるけどこの方面の研究やったことないし…。

とりあえず研究用にISIL、UAIだけは読んでおこうかな。


ちなみに統計に関しては
JISC利用統計レビュー(※PDF)がおもしろかったので
(おもしろさが伝わる自信はないけど)未読の勉強家の方にはぜひオススメ。

0 件のコメント:

コメントを投稿