STI Hz Vol.10, No.2, Part.7:(レポート)新型コロナウイルス感染症に対する研究開発資金配分- OECD によるFundstat データ基盤を用いた分析の紹介-STI Horizon

  • PDF:PDF版をダウンロード
  • DOI: https://doi.org/10.15108/stih.00372
  • 公開日: 2024.06.25
  • 著者: 村上 昭義
  • 雑誌情報: STI Horizon, Vol.10, No.2
  • 発行者: 文部科学省科学技術・学術政策研究所 (NISTEP)

レポート
新型コロナウイルス感染症に対する研究開発資金配分
-OECDによるFundstatデータ基盤を用いた分析の紹介-

科学技術予測・政策基盤調査研究センター 主任研究官 村上 昭義

概 要

本稿では、経済協力開発機構(OECD)が2023年10月に公表した、新型コロナウイルス感染症に対する各国政府の研究開発資金配分における動向を分析・報告したワーキング・ペーパを紹介する。13か国及びEUの計27の資金配分機関からデータを抽出したFundstatデータ基盤内において、2019年から2021年における新型コロナウイルス感染症に関連する研究開発プロジェクトの総数は11,886件であった。研究開発資金配分の総額は約125.9億ドル(約1.34兆円)であり、プロジェクト1件当たりの資金配分額は約120万ドル(約1.28億円)であった。また、トピックモデリング分析等の自然言語処理を用いた分析から、新型コロナウイルス感染症に関連する研究開発プロジェクトを8つのトピック・クラスター等に分類し、新型コロナウイルス感染症への政府資金配分では、どのような研究開発が行われていたかが明らかになった。

キーワード:新型コロナウイルス感染症,政府資金配分,研究開発(R&D)プロジェクト,
トピックモデリング,大規模言語モデル

1. はじめに

経済協力開発機構(OECD)では、各国の資金配分機関の研究開発資金配分データベースに収載されているデータを収集し、研究開発プロジェクトレベルでの政府資金配分の動向を分析するFundstatプロジェクトを実施している12)。OECDは、Fundstatデータ基盤を新型コロナウイルス感染症の研究開発に対する政府支援に適用し、研究開発の動向を把握する実験的な研究を行い、2023年10月にワーキング・ペーパを公表している3)

本稿では、そのワーキング・ペーパの分析及び取組を紹介し、分析から得られた示唆を報告する。

2. OECDにおけるFundstatデータ基盤について

Fundstatデータ基盤は、分析時点(2022年12月)において、13か国及びEU(EC)の計27の資金配分機関の研究開発資金配分データベースを収集し、データ分析の基礎としている。13か国は、3文字の国コードのアルファベット順に、AUS(オーストラリア)、AUT(オーストリア)、BEL(ベルギー)、CAN(カナダ)、CHE(スイス)、DEU(ドイツ)、FRA(フランス)、GBR(英国)、JPN(日本)、LVA(ラトビア)、NOR(ノルウェー)、SWE(スウェーデン)、USA(米国)である。また、日本のデータベースとしては、科学研究費助成事業データベース(KAKEN)の公開データが収集されたのに加えて、国立研究開発法人日本医療研究開発機構(AMED)から、研究開発課題データベース(AMEDfind)注1のバルクデータがOECDに提供されている。

構築されたFundstatデータ基盤において全ての国・地域の資金配分機関の研究開発プロジェクトを合計すると、2019年から2021年の期間において607,098件あり、資金配分額の合計は、約2,876億ドル(約31兆円注2)であった注3。研究開発プロジェクト1件当たりの資金配分額は、各国・地域を横並びで平均すると約50万ドル(約5,340万円)であった。Fundstatデータ基盤内の資金配分額の上位国・地域は、米国、EU、ドイツであり、それらで8割以上を占めている。日本の資金配分額は、Fundstatデータ基盤内で約3.3%を占める。また、日本の研究開発プロジェクト1件当たりの資金配分額は、これらの国・地域の中では最も小さく、約9万ドル(約961万円)であった。これは科研費の1件当たりの資金配分額が相対的に小さい(そして日本のデータに占める科研費の割合が大きい)ことの影響を受けているためと考えられる。ワーキング・ペーパにおいても、各国で研究開発プロジェクトの資金規模の違いが生じるのは、プロジェクトの対象範囲や性質、データ報告構造などが各国で異なるためと言及されている。

図表1では、2020年の各国の政府研究開発予算配分(GBARD)に対するFundstatデータ基盤の資金配分額の割合(カバー率)を示す。各国の政府研究開発予算配分に対するFundstatデータ基盤のカバー率は、国によって異なっているが、平均すると約25%をカバーしている。オーストリア(AUT)の場合、Fundstatデータ基盤のカバー率はわずか5%であるが、GBARDの57%が大学への定常的な研究開発予算によって占められているため、Fundstatデータ基盤の実質的なカバー率は高いと言える。

日本(JPN)の場合、Fundstatデータ基盤では科研費とAMEDのみが対象となっており、また大学への定常的な研究開発予算の割合も18%と相対的に高くないため、Fundstatデータ基盤の実質的なカバー率は高くないことが図表1から読み取れる。この点に関して、2020年の政府研究開発予算配分には、比較的規模の大きい補正予算が含まれている点に注意を要するものの、それらを勘案しても注4、政府の研究開発予算は、研究開発プロジェクト以外の多様な項目を含んでいることが分かる注5

図表1 2020年の各国の政府研究開発予算配分(GBARD)に対するFundstatデータ基盤のカバー率図表1 2020年の各国の政府研究開発予算配分(GBARD)に対するFundstatデータ基盤のカバー率

図注1:本図表は、OECDワーキング・ペーパのFigure 1を基に、筆者が日本語訳を加筆し、加工・作成したものである。
図注2:各国のGBARDを、大学への定常的な研究開発予算、防衛の研究開発予算、それら以外に分けた後、それら以外(大学への定常的な予算及び防衛関連を除く)の部分がFundstatで把握されるべきものと仮定している。その上で、本来Fundstatで把握されるべき、大学への定常的な予算及び防衛関連以外の部分について、実際にFundstatデータ基盤でカバーされている部分とその他に分けている。その他は、Fundstatデータ基盤のカバー率を上げる可能性がある部分と考えられる。
出典:参考文献・資料の3), https://dx.doi.org/10.1787/4889f5f2-en

3. 新型コロナウイルス感染症に関連する研究開発プロジェクトの特定と特徴

ワーキング・ペーパでは、新型コロナウイルス感染症に関連する研究開発プロジェクトの特定には、キータームマッチングを用いている。その手順としては、まず、10のキータームをベースとして、それらに他のデータベースを用いて24のキータームを追加・拡張し、全部で34のキーターム注6を選定した。その後、研究開発プロジェクトのタイトル及び概要のテキスト群にキータームマッチングを適用することで、新型コロナウイルス感染症に関連する研究開発プロジェクトを特定している。また、タイトル及び概要へのキータームマッチングで抽出された研究プロジェクトには、文脈上新型コロナウイルス感染症に触れているだけで、研究対象としては取り扱っていないものも含まれているため、それらのプロジェクトをコンテキスト分析の実施及び目視によって除外している。

上記の結果、2019年から2021年における新型コロナウイルス感染症に関連する研究開発プロジェクトの総数は11,886件であった。それらの資金配分額の合計は約125.9億ドル(約1.34兆円)であり、プロジェクト1件当たりの資金配分額は約120万ドル(約1.28億円)であった。新型コロナウイルス感染症に関連する研究開発プロジェクトは、Fundstatデータ基盤内の全体に対して、資金配分額の約4%、プロジェクト件数の約2%に相当している。

新型コロナウイルス感染症に関連する研究開発プロジェクトのテキストにトピックモデリング分析注7を適用すると、34の異なるトピックが抽出され、8つのより大きいレベルのトピック・クラスターにグループ化された。8つのトピック・クラスターは、「A. コロナウイルスの理解、治療法、ワクチン開発」、「B. プラットフォームと機能注8」、「C. 疫学と社会的介入」、「D. デジタルアクセスとオンライン教育」、「E. がん(検査と治療)」、「F. 公衆衛生とリスクにさらされている他のグループ注9」、「G. メンタルヘルスと依存症」、「H. 環境中の検出、感染及び予防」であった。

図表2には、上記8つのトピック・クラスターにおける新型コロナウイルス感染症に関連する研究開発プロジェクトの件数と資金配分額の分布を示す。生物医学的な研究開発である「A. コロナウイルスの理解、治療法、ワクチン開発」と社会科学的な研究開発である「C. 疫学と社会的介入」は、研究開発プロジェクトの件数では上位2つで件数が多いが、資金配分額では、Aのシェアが大きく、生物医学的な研究開発プロジェクトに政府資金配分が集中した様子が分かる。

また、プロジェクトのタイトルや概要の類似性から約1万件の研究開発プロジェクトをマッピングし、8つのトピック・クラスターごとに色付けすると、「B. プラットフォームと機能」が中心にあることから、ワーキング・ペーパでは新型コロナウイルス感染症に関連する研究開発の多様な分野にわたって重要な役割を果たしていることが示唆されると指摘している(図表3)。このことは、将来のパンデミックに対して医療や研究開発のシステムを備える場合や、新型コロナウイルス感染症に基づく発見や技術を他の健康課題に適用する場合に、「B. プラットフォームと機能」に関連する研究開発への資金配分が重要な観点であるとしている。

これらに加えて、政府資金配分の動向を探る重要な観点として、市場で使用される製品(商品又はサービス)及びプロセスの研究開発であるかという観点もある。ワーキング・ペーパでは、ビジネス及び市場に関連する語彙を用いて、研究開発プロジェクトのテキスト群にキータームマッチングを行い、市場指向の研究開発プロジェクトを特定している注10。それらの市場指向の研究開発プロジェクトは、新型コロナウイルス感染症に関連する研究開発プロジェクト全体において、資金配分額の34%を占め、プロジェクト件数の22%を占めていた。Fundstatデータ基盤内の資金配分機関に注目すると、イノベーションに関する資金配分機関(例:英国Innovate UK、スウェーデンVinnovaなど)は、市場指向の研究開発プロジェクトの件数と資金配分額のシェアが相対的に大きいことが示されている。

図表2 8つのトピック・クラスターにおける新型コロナウイルス感染症に関連する研究開発プロジェクトの件数と資金配分額の分布図表2 8つのトピック・クラスターにおける新型コロナウイルス感染症に関連する研究開発プロジェクトの件数と資金配分額の分布

図注:本図表は、OECDワーキング・ペーパのFigure 8を基に、筆者が日本語訳を加筆し、加工・作成したものである。
出典:参考文献・資料の3), https://dx.doi.org/10.1787/4889f5f2-en

図表3 新型コロナウイルス感染症に関連する研究開発プロジェクトと8つのトピック・クラスターの可視化図表3 新型コロナウイルス感染症に関連する研究開発プロジェクトと8つのトピック・クラスターの可視化

図注:本図表は、OECDワーキング・ペーパのFigure 9を基に、筆者が日本語訳を加筆し、加工・作成したものである。
出典:参考文献・資料の3), https://dx.doi.org/10.1787/4889f5f2-en

4. WHOの優先トピックへの専門家による分類結果や他のデータソースとの比較

ワーキング・ペーパでは、Fundstatデータ基盤で特定された新型コロナウイルス感染症に関連する研究開発プロジェクトについて、WHO(世界保健機関)の新型コロナウイルス感染症における9つの優先トピックへの専門家による分類結果や他のデータソースを用いた場合との比較検討を行っている。

まず、WHOの優先トピックへの分類として、UKCDR(UK Collaborative on Development Research)の「COVID-19 tracker」データベース内の情報を用いている。「COVID-19 tracker」は、収集された研究開発プロジェクトを、専門家が手作業によって、WHOの優先トピックへタグ付けしているため、これを教師データとした機械学習モデルを開発し、比較検討の手段に用いている。

図表4は、[A]UKCDR「COVID-19 Tracker」の報告値、[B]機械学習モデルをUKCDR「COVID-19 Tracker」に適用した予測値、[C]機械学習モデルをFundstatで得られたデータに適用した予測値、の3つについてプロジェクト件数と資金配分額を比較した結果を示す。ここで、[A]のプロジェクト件数と資金配分額は、「COVID-19 tracker」内でタグ付けされたWHO優先トピックに基づいているが、1つのプロジェクトは1つ以上のWHO優先トピックにタグ付けされているため、[A]を合計した値は、「COVID-19 Tracker」内のプロジェクト件数と資金投資額の合計値を超える。そのため、[B]において、1つのプロジェクトに対するトピックへの所属確率を機械学習モデルによって算出し、プロジェクト件数と資金配分額を案分することで、「COVID-19 tracker」内のプロジェクト件数と資金配分額の合計値に一致させた予測値を示している。

[A]と[B]の資金配分額を比較すると、「ワクチンの研究開発(WHO7)」では差が見られるが、「治療薬の研究開発(WHO6)」では差がほとんど見られない。これは、ワクチンに関連するプロジェクトは、他のトピックに関連付けられるテキストの要素やパターンが含まれているため、機械学習モデルによって確率的に優先トピックに割り当てると、その部分が他のトピックの資金配分額になり、「ワクチンの研究開発(WHO7)」で、[B]の資金配分額は小さくなっていると考えられる。この結果を踏まえると、[A]で示されるように、「治療薬の研究開発(WHO6)」が「ワクチンの研究開発(WHO7)」に比べて比較的資金不足であったと結論付けることはできないことをワーキング・ペーパでは指摘している。ただし、機械学習モデルでの予測誤差による違いも影響している可能性があるため、結果の解釈には注意を要するとしている。

[B]と[C]の資金配分額を比較すると、「ワクチンの研究開発(WHO7)」、「治療薬の研究開発(WHO6)」、「臨床的特徴付けとマネジメント(WHO4)」で、[C]の資金配分額が大幅に大きくなっている。この違いは、Fundstatデータ基盤の中に、米国の連邦調達研究開発データ(Federal procurement R&D data)が含まれている一方、「COVID-19 tracker」にはそれが含まれていないため、そのようなデータ収録の違いに起因しているとワーキング・ペーパでは指摘している。

また、他のデータソースとして、論文データベースとの比較を行っている。まず、Fundstatデータ基盤に用いたキータームマッチングに基づく分類方法を用いて、新型コロナウイルス感染症に関連する論文を特定した。次に特定された論文を、上記のFundstatデータ基盤で構築された機械学習モデルやUKCDRで構築された機械学習モデルに適応し、8つのトピック・クラスターや9つのWHOの優先トピックと関連付けることで、両者との比較も実施している。その結果、論文数は、研究開発プロジェクトの件数には近い値を示すが、資金配分額では大きな違いが生じていることを明らかにしている。この論文数に対するプロジェクト件数と資金配分額の違いは、特にワクチンや治療薬に関する研究開発で見られている。ワーキング・ペーパでは、これらを踏まえ、新型コロナウイルス感染症に関連する研究開発の状況を把握するには、論文数などのアウトプットの情報に加えて、資金配分データを考慮することの重要性を指摘している。

図表4 WHO優先トピックにおけるプロジェクト件数と資金配分額の分布
-UKCDRの報告値[A]と機械学習モデルの予測値(UKCDR[B]及びFundstat[C])-図表4 WHO優先トピックにおけるプロジェクト件数と資金配分額の分布-UKCDRの報告値[A]と機械学習モデルの予測値(UKCDR[B]及びFundstat[C])-

図注1:本図表は、OECDワーキング・ペーパのFigure 16を基に、筆者が日本語訳を加筆し、加工・作成したものである。
図注2:UKCDR「COVID-19 tracker」データベースには、65億ドル(約0.7兆円)の資金投資を伴う17,955件のプロジェクトが含まれている。Fundstatの予測値は、Fundstatデータ基盤内の資金配分情報を持つ10,472件のプロジェクトに基づいている。
出典:参考文献・資料の3), https://dx.doi.org/10.1787/4889f5f2-en

5. 今後に向けた示唆

<大規模言語モデルの政策研究への適用可能性>

ワーキング・ペーパでは、テキストデータを処理するために大規模言語モデルを使用しており、統計分析と政策分析における大きな方向性を示唆している。また、分析手法は、今後、新型コロナウイルス感染症以外の政策課題にも適用できる可能性がある。さらに、Fundstatデータ基盤に、最近注目されている生成系AIツールを組み込むことができれば、迅速なモニタリングや、他分野での研究開発ニーズを予測するのに役立つはずであると指摘されている。

NISTEPにおいても、新型コロナウイルス感染症関連のプレプリントを対象に、自然言語処理を用いたエマージング領域の把握を試行している4)。今後、自然言語処理や大規模言語モデルを用いた分析手法が政策研究においても大きく展開される可能性が高いと筆者は考える。

<複数のデータを用いて総合的に判断することの重要性>

ワーキング・ペーパでは、特定の政策課題に関連する研究開発を把握する際に直面する課題への対処や、複数のデータソースからのエビデンスを比較・統合して解釈するなど、幾つかの方法論的な洞察を提供している。また、自然言語処理の教師なし学習で行った機械的な分類手順を実装し、専門家による分類と比較検討を行うことで、それら全体の相乗効果を見いだしている注11。このような分析アプローチは、資金配分情報と定性的なプロジェクトの詳細説明を組み合わせて総合的に判断することの重要性を示唆している。プロジェクト件数やその他のアウトプット指標である論文数などは、資金配分額の情報がないため、一部のトピックの相対的な重要性を誇張する傾向がある点に注意が必要であるとワーキング・ペーパでも改めて指摘されている。

<研究開発プロジェクトにおける世界的な資金配分データの標準化の重要性>

Fundstatデータ基盤内の研究開発プロジェクトの概要には、信頼できるトピック予測をする上で、十分なテキストデータや情報が欠落している場合があった。また、そのような情報の欠落によって、分析では、新型コロナウイルス感染症のような特定の社会的課題に対処する研究開発プロジェクトの境界を定義することが難しい点も示されている。これらを踏まえ、各国の資金配分機関が、説明責任と分析のために、より調和のとれた形で研究開発プロジェクトの資金配分データを標準化し、公開することは、今後、このような分析・取組を行う上でも大きな意義があると、ワーキング・ペーパでは指摘している。

また、ワーキング・ペーパのFundstatプロジェクトは、OECDの科学技術指標各国専門家作業部会(NESTI)内のプロジェクトであるが、NESTIでは、各国の資金配分機関において管理データの運営又は分析を担当する者が多く参加する専門家グループ(MARIAD)を設置している。MARIADには、基礎となるデータ基盤開発とこれらの方法論の適用を今後も促進するための活動が期待されているとワーキング・ペーパで言及されている。

謝辞

本稿の執筆では、OECD科学技術・イノベーション局科学技術政策課の松本久仁子政策アナリスト、NISTEP科学技術予測・政策基盤調査研究センター伊神正貫センター長、山下泉主任研究官から支援を頂いた。お礼申し上げる。


注1 研究開発課題データベース(AMEDfind), https://amedfind.amed.go.jp/amed/index.html

注2 本稿における為替レートは、1ドル=106.775円(2020年の為替レート)を用いた。為替レートの出典: OECD(2024), Exchange rates(indicator). https://doi.org/10.1787/037ed317-en(Accessed on 18 March 2024)

注3 収集時点において、2021年のデータは一部の資金配分機関でデータがないため、注意を要する。日本のAMEDのデータも2021年のデータは、収集のタイミングで不完全であったため分析対象から除外している。また、Fundstatデータ基盤の一部の研究開発プロジェクト(全体の5%程度)には、資金配分の情報が欠落している点にも注意を要する。

注4 2020年の日本のGBARDから、比較的規模の大きい補正予算である「グリーンイノベーション基金事業(2兆円)」及び「10兆円規模の大学ファンド(0.5兆円)」の2.5兆円を除いて、Fundstatデータ基盤(KAKENとAMED)のカバー率を計算しても、1~2%程度の上昇にとどまり、平均の25%に比べてもまだ低い値を示す。

注5 日本のGBARDの値は、内閣府がまとめている科学技術関係予算に対応しており、科学技術関係予算には研究開発以外の経費も含まれている。内閣府 科学技術関係予算 https://www8.cao.go.jp/cstp/budget/index2.html

注6 キータームは、次に示すベースの10のキーターム(Coronavirus disease, covid, covid19, ncov, novel coronavirus, sars coronavirus 2, sars cov 2, severe acute respiratory syndrome coronavirus 2, wuhan coronavirus, wuhan seafood market pneumonia virus)に加えて、ベースと似た意味で用いられている24のキータームも追加・拡張されている。

注7 Fundstatデータ基盤には、英語以外の言語も含まれるため、ワーキング・ペーパでは、トピックモデリング分析において、多言語に対応する大規模言語モデル(BERT)を用いた分析に挑戦している。

注8 横断的な性質を持つ生物医学分野のプラットフォームとネットワークを指し、これらには、治験、大規模集団研究、バイオインフォマティクス、プロトコルの開発、トレーニングなどの要素が含まれる。

注9 これには、医療従事者、妊婦、糖尿病、高齢者、その他の社会的弱者に関連する研究開発が含まれているだけでなく、医療提供からの除外に関する側面も含まれている。

注10 ここでのキータームは、33のベースのキーターム(adoption, business, commercialisation, competitive, consumer, corporate, corporation, diffusion, enterprise, entrepreneurship, expenditure, feasibility study, firm, industry, innovation, intellectual property, investment, IPR, joint venture, license, management, manufacture, market, model, process, product, production, service, spinoff, start-up, strategy, technology, technology transfer)に加えて、類似する13のキータームを拡張・追加しているが、ここでのキータームマッチングでは、これらのキータームを2つ以上持つ研究開発プロジェクトを、市場指向の研究開発プロジェクトであると特定している。

注11 本稿では紹介していないが、ワーキング・ペーパでは、3章で示した自然言語処理の教師なしで行った機械的な分類である8つのトピック・クラスターと、4章で言及した専門家の分類である9つの優先トピックへの専門家による分類結果を、研究開発プロジェクトで対応付け、比較検討した結果も示されている。

参考文献・資料

1) 菱山 豊(2024),OECD/CSTPの活動に関する座談会-持続可能な未来に向けた科学技術・イノベーション政策の変革を目指すOECD/CSTPを内部と外部から論じる-.STI Horizon. Vol.10, No.1, https://doi.org/10.15108/stih.00361

2) 村上 昭義(2023),経済協力開発機構(OECD)における研究開発資金配分データベースを用いた分析の取組-Fundstatプロジェクト及びMARIADの紹介と日本への示唆-.STI Horizon. Vol.9, No.1,
https://doi.org/10.15108/stih.00323

3) Leonidas Aristodemou, Fernando Galindo-Rueda, Kuniko Matsumoto, Akiyoshi Murakami.(2023),”Measuring governments’ R&D funding response to COVID-19: An application of the OECD Fundstat infrastructure to the analysis of R&D directionality”, OECD Science, Technology and Industry Working Papers, No. 2023/06, OECD Publishing, Paris, https://dx.doi.org/10.1787/4889f5f2-en

4) 小柴 等,林 和弘,伊藤 裕子(2020)「COVID-19 / SARS-CoV-2 関連のプレプリントを用いた研究動向の試行的分析」,NISTEP DISCUSSION PAPER,No.186,文部科学省科学技術・学術政策研究所.http://doi.org/10.15108/dp186