埼玉県のコロナ統計データに想うこと
埼玉県のオープンデータは虫食い状態だった
本記事の後に、埼玉県のコロナ感染者の統計分析を複数投稿予定。
1.ツイッターの反応
8/3に埼玉県の「市町村別の人口一万人当たりのコロナ感染者数」を書いた。ツイッターはあまり好かないが、翌日にツイートして案内した。で、夜にアクセスログを見て驚いた。普通、アップした記事の初日は50~100アクセス程度なので、連日100件超は珍しかった。ツイッター経由が殆ど、つまり上尾市以外からなので、なんとなく狭い街を出た感じだった。
当該ツイートのインプレッション(表示回数)は6030件に増えていた。ただし重要なのはリンクのクリック数の方で450件だった。つまり7%位が反応した(本当に読んだかは知らね(^-^?))。まあ、スマホだから一割以下は納得する。
注目された理由は、埼玉県自治体の人口当たりの感染者数がどこにも(?)無いためなのだろう。
たんに 感染者数÷人口なんだけどね。
2.Excel以前の問題
感染者データはこちらの埼玉県オープンデータにある。日々、人数を追加したCSVファイルだから、Excelに読み込んで加工できる。その日は2500件くらいだったが、一万でも十万でも関係ない。加工と言っても、シンプルな表だから並べ替えやアウトライン集計で事足りる。クロス集計にはピボットテーブルを使えばよい。
だけど、それ以前に手間取った・・・
データは下の様に「番号、判明日、年代、性別、居住地」のみで、実質4つ。できれば、発見契機(診察なのかクラスター追跡なのか)があればよかった。
NO. | 判明日 | 年代 | 性別 | 居住地 |
1 | 2020/2/1 | 30代 | 男性 | 埼玉県外 |
2 | 2020/2/10 | 40代 | 男性 | 埼玉県 |
3 | 2020/2/14 | - | - | 埼玉県外 |
4 | 2020/2/21 | 未就学児 | 男性 | 埼玉県 |
5 | 2020/3/5 | 60代 | 男性 | 行田市 |
6 | 2020/3/5 | 50代 | 男性 | 上尾市 |
ところで、最新日のデータは「調査中」がほとんど、正しく記入されるには数日かかる。そこで8/4日のデータをダウンロードし、その中から8/1日までのデータを採用した。※
しかし、4月や5月にも判明日が「調査中」のままがあったり、所在地には県外、愛知県、埼玉県外、神奈川県、東京都、県内、川口市外、非公表、空欄というように入り乱れる。性別欄では「女児」、年代では「未成年者」というのもあった。「10歳未満」と「未就学児」が混在している。
ここでは県内のみとし、「川口市外」や空欄は「不明」とするなどの除外や置き換えをしないと、とても集計に耐えられない表だった。(>_<)
こんな奥深くにも、埼玉県行政の混乱ぶりが見て取れるのだ。
だからと言って、「保健所の皆さんは忙しくて大変」という気になるようでは進歩が無いと想う。なおPCR検査数の時系列データはどこにも見当たらない。
※ 前記事は8/1日のデータで集計してしまったから、その後の8/1の更新を反映して取り直し、次記事で公開する。
人数が多い上位市で少し変更があり、町村は全て変更はない。そもそも、上位市のHPで告げる感染者数とオープンデータの値とは微妙に異なることがある。
つづく
« PCR検査拡大を拒む厚労省官僚の理由 | トップページ | 埼玉県コロナ統計-2 人口一万人当たり感染者数と倍率 »
「コロナ」カテゴリの記事
- コロナ弱体化しインフルエンザが流行る新理論(2023.11.01)
- 埼玉県インフルエンザの流行入り&コロナの年代別死亡率(2022.12.28)
- 埼玉県のインフルエンザ・グラフが改善された秘密(2022.12.11)
- 世界一の感染大国で5回目ワクチンの限界(2022.11.23)
- 上尾市のコロナカレンダー・随時版(2022.08.06)
« PCR検査拡大を拒む厚労省官僚の理由 | トップページ | 埼玉県コロナ統計-2 人口一万人当たり感染者数と倍率 »
コメント