Octoparse

Octoparse:コードを書くことなく無料で使えるスクレイピングツール。

データ分析がどのように新型コロナウイルスの真実を明らかにするのか?

2020-02-18 11:58:35 | ビッグデータ

コロナウイルス

https://www.chappatte.com/en/

2019年12月以降、中国湖北省武漢市を中心に新型コロナウイルス(2019-nCoV)が発生し、短期間で世界に広まっています。日本国内では2020年1月15日に武漢市に渡航歴のある肺炎患者からこのウイルスが検出されており、今までは「ウイルス感染者、国内で500人超す」との報道がありました。

日本国内の感染者の急増で、多くの人々を不安に陥れているでしょう。特に、新型コロナウイルスに関する様々な噂や偽情報がインターネットやSNS等での拡散が続いていて、本当かどうかを分からなくて怖がている人もたくさんいます。

真偽が明らかではないため、噂が急速に広まり、最終的には「事実」になるかもしれません。ですから、公式および非公式の両方のソースからデータを収集し、透明なデータソースを作り、情報を共有し、真実を明らかにする必要があります。この記事の目的は、主要な公式ソースからデータを収集し、データの信頼性と透明性を高めることです。

 

公式ソースからデータを収集する

各Webサイトからデータをスクレイピングするために、今回はWebスクレイピングツールを利用して、スクレーパーを作成する手間を省きます。多くのオプションがありますが、Octoparseが最適だと思います。Octoparseは最近、中国保健省のデータベースからライブデータを抽出するためのスクレイピングテンプレートを作成しました。これは非常に簡単で、ほとんどのスクレイピングツールが必要とするタスクを設定する必要さえないので、誰でもデータを取得できます。

スクレイピングしたデータ 

 

 

データ分析

1月22日から2月4日までのデータを収集しました。データは、感染者数が増え続けており、減少傾向がないを示しています。しかし、感染疑い例の数は着実に減少しており、感染が確認された人に変わったため、感染疑いのプール全体が縮小していることを示しています。

感染疑い例

しかし、一部の人は、死亡者数が少し変わっていることを発見しました。私はデータを抽出して少し調べました。データによると、湖北省の死亡率は2.7%であり、中国の他の地域では0.19%です。つまり、湖北省の死亡率は他の地域の15倍です。

この場合、このような大きな不一致につながる可能性のある2つの仮定を引き出します。

 

仮定1:中国政府は実際の感染者数を隠蔽している

反駁:この仮定が正しい場合、実際の感染者数は、死亡者数を0.19%で割った値であり、これは288,947人に相当します。結果は、ウイルスがどの程度伝染する可能性があるかを測定するために使用されるメトリックであるR0(感染の再現数)と矛盾しています。ほとんどの研究[Maclntyre、2020]では、この感染性のR0は2〜2.5であり、季節性インフルエンザよりも少し高いことが示されています。その結果、新型コロナウイルスがあまりにも伝染しにくくなり、1か月もしないうちに約300,000人に感染する可能性は低いです。

from New York Times

それでは、このような高い死亡率を引き起こす要因は何でしょうか? 

 

仮定2:医療資源の足りないため、治療に難渋している

このは陳述より理にかなっています。医療用品、病院のベッド、医師・看護師・介護補助者などの人員不足は、自宅での自己検疫や自己隔離以外に選択の余地のない人々を残すことになります。また、不適切な自己治療は病気を悪化させる可能性もあります。さらに、新型コロナウイルスは、適切な治療が間に合わないことは言うまでもなく、既存の健康上の問題がある高齢者にとって致命的です。新型コロナウイルスの感染拡大に伴い、中国だけでなく、日本やアメリカでもマスク、アルコール消毒液などウィルス予防の用品は、店頭での売り切れ状態が出始めています。 

 

 

記事報道を取集する

Octoparseを使って、多数のメディアチャンネルからの発生以来のニュース記事も収集しました。Octoparseを使っていない場合は、これらの動画は役立つかもしれません。いくつかのニュースメディア間の違いを比較するために、ウォールストリートジャーナル、ニューヨークタイムズ、およびロイターから検索用語「コロナウイルス」で検索したの記事をスクレイピングしました。

ウォールストリートジャーナルのデータ

多くのニュース記事では、感染拡散の重大度に重点を置き、感染疑い者数や治癒者数などの他の指標を無視しています。このような不完全な物語は、中国政府だけでなく病気自体についても誤った印象を与えます。その結果、他の人が咳をしたり、風邪をひいたり、ほかの国の人と握手をしたりすると、怖がりになっています。

ウォールストリートジャーナルでWalter Meadによって書かれた「China Is the Real Sick Man of Asia」というニュース記事を見ました。タイトルが非常に外国人嫌いであるにもかかわらず、彼の記事には偽情報が何ヶ所もあります。 彼は、「新型コロナウイルスがどれほど危険かはわかりません。中国当局がまだ真実を隠そうとしている兆候があります。」と書きました。 記事の公開日に、WTOはすでにR0が約2であり、致死率が3%未満であり、季節性インフルエンザに近いことを発見しました。さらに、中国政府が何かを隠そうとしたことを証明する証拠はありません。実際、中国政府のWEBサイトのオープンソースデータベースから取得したデータは、WHO、CDC、ECDE、NHC、DXYのデータと一致していました。 

 

 

まとめ

新型コロナウイルスに関する情報が錯綜する中においても、不確実な情報や噂などに惑わされずに、信頼できる情報元で情報を得るようにしてください。また、風邪や季節性インフルエンザが発生しやすい時期であるため、マスクの着用や咳エチケット、手洗いなど感染予防に取り組んで、出来るだけ外出を控えてくださいね!

 

 

注:この記事はTowards Data Scienceで配信したものを加筆修正したものです。(オリジナルの記事を読む



最新の画像もっと見る

コメントを投稿