K値プレプリント原稿についてのコメント

2020-06-21 00:15:28 | 研究

大阪大学と九州大学の科学者によってCOVID-19の感染状況を示すK値という新指標の論文原稿が以下のようにプレプリントサーバにアップロードされています。

Novel indicator of change in COVID-19 spread status

doi: https://doi.org/10.1101/2020.04.25.20080200

新型コロナウイルスに関する科学論文（原稿）の社会への潜在的インパクトの大きさを考慮してプレプリントサーバには以下のような但し書きがあります。

This article is a preprint and has not been peer-reviewed [what does this mean?]. It reports new medical research that has yet to be evaluated and so should not be used to guide clinical practice.　

DeepL翻訳にかけると以下のようになります。

この論文はプレプリントであり、査読を受けていません。この論文は、まだ評価されていない新しい医学研究を報告しているため、臨床実践の指針とすべきではありません。　

上の"what does this mean?"のリンクを開けばもっと詳しくプレプリントがどう扱われるべきか説明があります。関係各所の担当者の方々はこの但し書きの意味をよく考える必要があると思います。

しかしながら驚くことに神奈川県の新型コロナウイルス対策サイトにK値は採用されています。

https://www.pref.kanagawa.jp/osirase/1369/

「査読を受けていない原稿に基づいて研究成果を発表したり政策に取り入れることの是非」については私は現時点で判断できません。なぜなら、これを一律に否定すると同時に「査読を受けている原稿なら科学界のお墨付きがある」と判断することは正しいとは思えないからです。現時点での私の立場は、査読ありだろうとなかろうと自分で読んで内容について判断するということです。こうやって書くと当たり前ですが、難しいですね。

そこで、このK値のプレプリント原稿を精読し、雑誌への投稿が仮にあった際の査読コメントという体（てい）でPubPeerというサイトにコメントを投稿しました。ちなみに投稿時には著者のメールアドレスを書き込めば通知メールが送信される仕組みになっており、それを利用しました。

https://pubpeer.com/publications/2D5A3D7BC3C6E9EAF6F7FEF9563C8B

なお、PubPeerも単なる情報共有サイトであり、そのFAQの一つ（以下のリンク）にあるように、PubPeer上に投稿されたコメントについてはその科学的妥当性は精査(review) されていません。ただしコメントを書き込んでから実際に公開されるまでには少し時間がかかり、罵詈雑言等がないかどうか等、PubPeerで想定されているフォーマットを満たしているかチェックされていると推察します。

https://pubpeer.com/static/faq#10

罵詈雑言禁止という意味では、以下のFAQも学ぶところが多いです。

https://pubpeer.com/static/faq#5

通常の論文査読課程においては複数の査読者が独立に提出した査読レポートについては、内容の形式、妥当性や重要性を担当編集者が独自に判断します。その結果として査読結果の質が低いと担当編集者が判断すれば、投稿された論文の掲載の可否決定に対する影響力は割り引かれる（ディスカウントされる）ことになります。PubPeerには担当編集者に該当する機能が存在しないため、以下のコメント（およびオリジナルの英語版）はそのような質の評価を受けていません。

以下は、PubPeerに投稿したコメントの日本語訳です（日本語をゼロから考える時間はないのでDeepL翻訳無料版にかけ、おかしなところだけ修正してます）。また※から始まる部分は日本語だけの補足部分です。

（※ここから）

私の専門分野は、生態学、数理生物学、環境微生物学である。以下のコメントは、数理生物学の観点からのものである。また、基本的にはPLOS ONE（https://journals.plos.org/plosone/s/criteria-for-publication）の論文掲載基準に沿って、研究の意義や新規性についての主観的な評価は含めていない。

全体的なコメント（※論文の査読では一般に、論文の各部分に関する個々のコメントの前に全体的なコメントを書きます）

本研究で中野氏と池田氏は、（※COVID-19の感染拡大状況を評価するための）「K値」という新たな指標を提案すると同時に、COVID-19症例数の時間発展の公開データからそのK値とその背後にある基盤的パラメータkを推定する方法を提案した。その核となる仮定は、感染個体（または感染力のある個体）の比増殖率の自然対数（すなわちln[N(d+1)/N(d)]）が、一定の減衰係数kで日ごとに減少するというものである。著者らは、以下の3つの主張を行っている。

【主張１】K値とその時系列が、COVID-19の蔓延の現状を把握し、その収束に必要な期間を、推定されたパラメータkを通して予測するのに有用である（「収束」はK値が（※数学的に）ゼロに収束していくことを表しているのではないかと推測したが、本文では著者らによって定義されてはいない）。

【主張２】Ｋ値が特定の範囲（0.25＜Ｋ＜0.9）では時間とともに線形に変化する。

【主張３】（※実際の日々の新規感染数の時系列データを説明するには）sars-cov-2は複数回の侵入と独立した感染拡大が生じたと推定できる。

主張２は、提案されたｋ関連過程の数学的な振る舞いとデータセットへの当てはめに関する（※数学的な）議論に過ぎないので、妥当であろう。実際、式1および2の仮定の下でのK値の時間に対する線形性が見られること、およびK値の低い値(<0.25)への時間発展を、線形領域(0.25 < K < 0.9)からの情報によって予測できることは、数学的に興味深いものである。しかし、提案された新しい指標「K」と、COVID-19の拡大状況を評価するための信頼性の高い既存の指標との間には妥当な比較がなされていないため、主張1は著者らの解析によっては全く正当化されていない。言い換えれば、COVID-19の拡大状況の「真の」回答を知らなければ、提案された指標の妥当性を示すことは不可能である。この「真の」回答は、機構論的モデル（例えば、SISモデル）からシミュレーションで生成されたデータセットを用いて作成することができるだろう。あるいは、推定された有効再生産数とその不確実性を「真の」答えの代用（※proxy）として使用することもできる。このような比較がなされていないことは、本研究の根本的な論理的欠陥であろう。また、主張３については以下の3点が本文や補足資料（※Supplemental materials）に記載されていないため、著者らの解析によっては正当化されない。すなわち、１）著者らの区画化された「SIモデル」の適切な導出、２）提案された区画化（すなわち、感受性個体数S、感染個体数I,　最終感染個体数Nについて複数の部分集団を考慮すること）の背後にある生物学的な仮定、3) モデルパラメータのデータセットへのフィッティング方法、の3項目が記載されていない。これら 3 つの項目がないため、提案された SI モデルの妥当性を損なわれており、著者らの解析の再現性も保証されない。（※著者らとは別の）少数の研究者が数学的な観点からK値の振る舞いをより深く研究しているが、そうした研究・解析は主張2の妥当性を向上させるものであるが、主張1と3とは全く関係がない。したがって、主張1と3に関連するこれらふたつの欠陥を考えると、著者の結論はその解析とデータに裏付けられているとは言えない。

※論文で主張されている結論が、論文中の結果[データ、データ解析、モデル等]から論理的・科学的妥当性を持って導き出せるかどうか、というのは、科学論文全般において重要な審査基準です。

個別コメント（※ここから先が論文の各部分に関する質問やコメントになります。投稿論文では多くの場合、原稿に行番号を載せることが要求されますがそれが今回は無いので該当箇所はわかりにくいかもしれません）

[1] 1 ページ目（序論）：関連する過去の研究の情報が全くないこの序論は、標準的なジャーナル論文（※の序論）としては受け入れられない。

[2] 2 ページ（COVID-19 拡大の推移を分析する指標 K）： N(d)の定義が明確ではない。基準日から d 番目の日までに感染者として検出された人の総数のように読み取れる。補足資料で提案されている筆者の「SIモデル」を確認すると、N(d)はI(d)と定義されているように解釈できる。しかし、著者はモデル式の最終版のみを提示しており、（※この最終版の方程式は）おそらく複数の生物学的過程を明示的に定式化した「元の」モデル式から数学的に単純化してパラメータ数を減らした後に導き出されたものと思われるので、N(d)の定義を（※明快に）判断することは不可能である。

[3] 2 ページ (比増殖率の自然対数 ln[N(d+1)/N(d)]が一定の減衰係数kを持つという仮定) ：この仮定の背後にある生物学的合理性を説明すべきである。すべてのモデルの仮定は必ずしも機械論的に導き出される（※べき）とは限らないが、少なくとも生物学的な説明はどのような数理モデルにも必要であり、経験的なデータセットへの適合性の良さはモデルの仮定の妥当性を保証する必要条件でも十分条件でもない。

[4] 2 ページ (COVID-19 の収束とアウトブレイク):「収束」と「アウトブレイク」をそれぞれ明示的に定義し、K値とそれらの関係をより明確に議論する必要がある。

[5] 3 ページ（SI 感染症モデル）：この引用文献（参考文献４）では多くのモデルが提示されているため、どのモデルが本研究で提案されているモデルと関連しているのかは不明である。

[6] 3ページ（「データを再現するためには、少なくとも4つの独立した感染源を考慮に入れる必要があることがわかった」）：フィッティングの方法が再現性のある方法でうまく記述されていない。同様に、フィッティング結果の統計情報も示されていない。

[7] 4ページ（破局的な状況）：著者らは、K値の傾き（K'）を感染拡大状況の深刻度に結びつけようとしているが、「破局的（※カタストロフィックな）状況」が明示的に定義されていない。（※そのため、議論の妥当性が判断できない）

[8] 6ページ(「我々は、Kの値とその時間的な傾きK'が、COVID-19の拡大状況を理解するために極めて重要であることを実証した」) ：この結論は、本研究で提示されたどの結果によっても、また提案されたモデルによっても正当化されない。なぜなら、本研究では病気の蔓延の重大度を定量化するために、K値と比較可能なすでに確立された信頼できる指標が使用されていないからである。

[9] 6ページ（「K値の直線性は数学的に自明なものではないが、複数の連続した感染拡大によって引き起こされる可能性が高い」）：著者らがこれを主張するのであれば、モデルシミュレーションを用いて明示的に証明すべきである。

[10] Page 10 (S = N - I) : この仮定は、総人口規模が一定の標準的な感染症モデルの仮定とも参考文献(4)のモデルの仮定ともと同一ではない。Nは総人口規模であるべきであり、最終的な感染者数は一般的にNよりも少ない（※SI model, SISモデル等の二次元微分方程式モデルが一次元モデルへと縮約できることの基本的仮定を取り違えている可能性がある）。

[11] 10-11ページ（「SIモデルで単一の感染源を考慮に入れた場合、Kは単調に減少する関数である」）：これは数学的には自明なことのように思われるが、この記述を検証する結果を示すべきだ。

[12] 11ページ（Eqn.3）：総人口を部分集団への区画化（iというインデックスで分けられたIとNへの分離）することを正当化する生物学的仮定が記述されていない。

[13] Page 11 (Eqn.3)：式3の記号aは、式1のパラメータaとの混同を避けるため、別の記号に置き換えたほうがよい。

[14] 11 ページ (Eqn.3)： COVID-19の異なる（※区画化された異なる）発生源に対して共通のa値を使用するための生物学的な仮定を説明すべきである。感染パラメータ（感染率、回復率、死亡率など）について部分集団間で異なる値を持つSI（またはSIS）モデルの標準的なモデリング定式化から始めると、縮約されたモデル式（Enq.3など）のパラメータaとNの両方が部分集団（i）間で必然的に異なる値になるはずだ。

[15] Page 11 （「我々は二つの国の感染数データを説明する最適な部分集団数は４であることを見出した」) ：ここでは、フィッティングの最適性の定義がなされていない。著者らがフィッティングの度合いをパラメータの数で割り引いたのか、例えばAIC(Akaike Information Criteria)で割り引いたのかが不明である。

（※ここまで）

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	【コメント募集中】goo blogスタッフの気になったニュース
	gooブロガーの今日のひとこと
	訪問者数に応じてdポイント最大1,000pt当たる！

日	月	火	水	木	金	土
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

アクセス
閲覧	102	PV
訪問者	88	IP
トータル
閲覧	449,818	PV
訪問者	239,886	IP

臺灣と瀬田で數理生態學と妄想

翹首望東天, 神馳奈良邊. 三笠山頂上, 想又皎月圓（阿倍仲麻呂）. 明日できることは今日しない

K値プレプリント原稿についてのコメント

コメントを投稿