Tableau社からのメールで気づきました。
同社では新型コロナウィルスの世界での発生状況がわかるダッシュボード、およびデータソースを公開しています。日時更新された信頼性の高いデータにアクセスすることが出来ます。
新型コロナウィルスの信頼できるグローバルデータソースにアクセス・分析可能に
Tableau社としての社会貢献のようです。以下は大まかな要約です。
Access and analyze trusted COVID-19 (Coronavirus) global data
(新型コロナウィルスの信頼できるグローバルデータソースにアクセス・分析する)私たちはこれまでに予期すらできなかった新型コロナウィルスという公共の場における健康危機にさらされている。困難なときだからこそ、データから導かれるインサイトで正しい判断が求められる。
そのためには、タイムリー、詳細な信頼できるデータにアクセスし、迅速な判断が必要となる。 私たちは、Tableauコミュニティの力とテクノロジーを集め、データから自信を持った判断が行えるように「Covid19データリソースハブ」を作り上げた。

引用 Covid-19 Cases- Standard Dashboard
新型コロナウィルス「Covid19データリソースハブ」使い方
注意事項
神経が使われるトピックということからデータを使う上での注意事項も掲載されています。悪い例としてはBBCの棒グラフの誤った使い方が紹介されています。
公開Vizを作るうえで以下の二つは読んだほうがよさそうです。
- Data viz best practices related to COVID-19
- 10 considerations before you create another chart about COVID-19

引用 What the BBC got wrong in their COVID-19 visualization
▲ 年齢80代の人が最も死亡率が高いのですが、実際は感染者のうち15%とのこと。でも水平棒グラフのMax値を15%近辺に持ってきているので年齢80代の人が見たらびっくりしそうです(15%でも高いですけど)。
日本のマスコミでも円グラフを使った印象操作をよく見かけます。データを取り扱い、公開する人にはそれなりの倫理が求められるということですね。
アクセス方法
データ媒体は以下3種類、毎日更新されるようです(EST/米国東部標準時 AM9時)。
- Hyperファイル
- ダウンロード元
- 「data.world」というサイトで公開されています(有名?)。ハイパーファイルなので速度的にパフォーマンスが高いです。
- CSVファイル
- ダウンロード元
- こちらも「data.world」内で公開されています。ウェブデータコネクタも使えるようです。
- Google Spread Sheet
- アクセス先
- Tableau PublicはGoogle Spread Sheetもデータソースとして扱えます。少しアクセスを試みた感じちょっと速度に難がありました。時間帯によるのかもしれません。
データ構造
「Cases」が主要メジャーかと思いますが、累計値が入っていました。ある時点の数字として出すには「Difference」などと合わせて計算処理が必要そうです。
フィールド名 | 読込時データ型 | サンプル値 | 補足 |
---|---|---|---|
Date | 日付 | 2020/03/09 | 日付データ |
Country_Retion | 文字列 | India | 国名 |
Province_State | 文字列 | Beijing | 州(国によってはN/Aが多い) |
Prep_Flow_Runtime | 日付と時刻 | 2020/03/24 09:39:03 | 恐らくデータの更新時間 |
Latest_Date | 日付 | 2020/03/23 | 最新日付 |
Case_Type | 文字列 | Confirmed, Deaths | (ウィルス感染が)確認された人、死亡者 |
Cases | 数値(整数) | 0~9など | Case_Typeの累計値 |
Difference | 数値(整数) | 0~9など | Case_Typeの前日からの差 |
Lat | 数値(小数) | 21など | 緯度 |
Long | 数値(小数) | 78など | 経度 |
Tableau Publicにあった優れたViz
終わりに
オリンピックの延期が決まりました。
生活に支障が出ているので、早くウィルスが収束してほしいものです(切実