CrossrefとOpenAlex、どっちで検索すべき? ― 1億件 vs 2.5億件の中身の違い
Cite Checkerが2つのデータベースを併用する理由を、実際の検証結果から解説。Crossrefの精度とOpenAlexの網羅性、それぞれの得意分野を比較します。
同じ論文を検索して、結果が違う
Cite Checkerを開発する中で、ある論文の引用をCrossrefで検索すると見つからないのに、OpenAlexでは見つかる、ということが頻繁に起きました。逆もあります。
例えば、2020年に出た日本語の紀要論文。Crossrefではヒットしない(そもそもDOIが付与されていない)が、OpenAlexではタイトル検索で見つかる。一方、Springer Nature系のジャーナル論文はCrossrefの方が正確なメタデータを返す。
この経験から、Cite Checkerでは両方のデータベースを併用する設計にしました。その背景を説明します。
Crossref ― 出版社が登録する「公式記録」
Crossrefは2000年に設立された非営利団体で、学術論文のDOI管理を担っています。2025年時点で1億5000万件以上のレコードを保持。
ポイントは、データの登録方法。出版社がジャーナル論文を出版する際に、自らCrossrefにメタデータを登録します。つまり、タイトル・著者名・年・巻号の情報は出版社のお墨付き。手入力なので精度が高い反面、出版社が登録しなければデータは存在しません。
Crossrefが強い場面
- 主要なジャーナル論文(Elsevier、Springer、Wiley、IEEE等)
- DOI検証(DOIの発行元なので当然)
- 正確な書誌情報の取得
- 引用関係データ(I4OC: Initiative for Open Citations経由)
Crossrefで見つからないもの
- DOIが付与されていない論文(古い論文、一部の紀要)
- プレプリント(arXiv、bioRxivの多くはDOIがないか別系統)
- 書籍の章(登録が不完全な場合がある)
- 非英語圏の小規模ジャーナル
OpenAlex ― 「網を広く張った」オープンデータベース
OpenAlexは2022年に公開されたオープンな学術データベースで、廃止されたMicrosoft Academic Graphの後継です。2億5000万件以上のレコードを保持。
Crossrefとの最大の違いは、データの集め方。OpenAlexはCrossref自体を含む複数のソースからデータを自動収集します。DOIがなくても、ジャーナルのWebサイトやリポジトリから論文情報を集めてくる。
OpenAlexが強い場面
- DOIのない論文の検索
- プレプリント(arXiv、bioRxiv等)
- 著者の名寄せ(disambiguation)と所属機関情報
- 研究分野の分類・トレンド分析
- 非英語文献の収録
OpenAlexの弱み
- 自動収集なので、メタデータの精度がCrossrefより低い場合がある
- 著者名のバリエーション処理で誤マッチが起きることがある
- 2022年スタートのため、歴史的データに一部欠損がある
- APIのレスポンスがCrossrefよりやや遅い
実際の数字で比較する
項目 Crossref OpenAlex 設立 2000年 2022年 レコード数 1.5億件+ 2.5億件+ データソース 出版社が直接登録 複数ソースから自動収集 DOI必須 はい いいえ ライセンス API無料利用可 CC0(完全オープン) 著者情報 基本 詳細(ORCID連携あり) API速度 速い・安定 やや遅い場合あり Cite Checkerが両方を使う具体的な理由
Crossrefを一次検索にする理由
出版社が直接登録したデータなので、タイトルと著者名の正確性が高い。引用検証では「この引用が正しいかどうか」を判定するため、照合先のデータが正確でないと話になりません。
Cite Checkerの信頼度スコアは、タイトル類似度(50%)、著者一致度(30%)、出版年(20%)の加重平均で計算しています。照合先のメタデータが正確であるほど、このスコアの信頼性も上がる。だからまずCrossref。
OpenAlexをフォールバックにする理由
Crossrefで信頼度が80%未満だった場合、OpenAlexでも検索します。
これが効くのは主に2つのケース。一つは、DOIがない文献。もう一つは、著者名やタイトルの表記がCrossrefのレコードと大きくずれている場合。OpenAlexは収録範囲が広いため、Crossrefで見つからない論文をカバーできます。
実際にCite Checkerのテストデータ(学術論文8本、引用計475件)で検証したところ、Crossref単独では見つからないがOpenAlexでは見つかる引用が約3%ありました。数は多くないですが、その3%が「見つかりません」から「見つかりました」に変わるのは大きな差です。
研究者が知っておくと便利なこと
自分の論文の被引用数を知りたいとき
Crossref APIで自分の論文のDOIを検索すると、被引用数が返ってきます。ただしCrossrefの被引用データはI4OC参加出版社からの引用のみなので、網羅性はGoogle Scholarに劣ります。OpenAlexの方がより多くの引用関係を収録しています。
文献レビューの網羅性を高めたいとき
特定のテーマで文献レビューをするなら、Google Scholar + OpenAlexの組み合わせがおすすめです。OpenAlexの概念タグ(Concepts)を使えば、関連分野の論文を効率的に探せます。
プレプリントの引用を確認したいとき
arXivのプレプリントはCrossrefには登録されていないことが多いです。OpenAlexまたはSemantic Scholar APIで検索するのが確実。
まとめ
CrossrefとOpenAlexは競合ではなく補完関係にあります。Crossrefは正確性、OpenAlexは網羅性。Cite Checkerがこの2つを組み合わせるのは、どちらか一方だけでは拾いきれない引用があるからです。
学術データベースの特性を理解しておくと、引用検証だけでなく、文献検索や研究トレンドの把握にも役立ちます。