« PCR検査拡大を拒む厚労省官僚の理由 | トップページ | 埼玉県コロナ統計-2 人口一万人当たり感染者数と倍率 »

2020年8月11日 (火)

埼玉県のコロナ統計データに想うこと

埼玉県のオープンデータは虫食い状態だった

本記事の後に、埼玉県のコロナ感染者の統計分析を複数投稿予定。

1.ツイッターの反応

8/3に埼玉県の「市町村別の人口一万人当たりのコロナ感染者数」を書いた。ツイッターはあまり好かないが、翌日にツイートして案内した。で、夜にアクセスログを見て驚いた。普通、アップした記事の初日は50~100アクセス程度なので、連日100件超は珍しかった。ツイッター経由が殆ど、つまり上尾市以外からなので、なんとなく狭い街を出た感じだった。

 当該ツイートのインプレッション(表示回数)は6030件に増えていた。ただし重要なのはリンクのクリック数の方で450件だった。つまり7%位が反応した(本当に読んだかは知らね(^-^?))。まあ、スマホだから一割以下は納得する。

注目された理由は、埼玉県自治体の人口当たりの感染者数がどこにも(?)無いためなのだろう。

たんに 感染者数÷人口なんだけどね。

2.Excel以前の問題

 感染者データはこちらの埼玉県オープンデータにある。日々、人数を追加したCSVファイルだから、Excelに読み込んで加工できる。その日は2500件くらいだったが、一万でも十万でも関係ない。加工と言っても、シンプルな表だから並べ替えやアウトライン集計で事足りる。クロス集計にはピボットテーブルを使えばよい。

 だけど、それ以前に手間取った・・・

データは下の様に「番号、判明日、年代、性別、居住地」のみで、実質4つ。できれば、発見契機(診察なのかクラスター追跡なのか)があればよかった。

NO. 判明日 年代 性別 居住地
1 2020/2/1 30代 男性 埼玉県外
2 2020/2/10 40代 男性 埼玉県
3 2020/2/14 - - 埼玉県外
4 2020/2/21 未就学児 男性 埼玉県
5 2020/3/5 60代 男性 行田市
6 2020/3/5 50代 男性 上尾市

ところで、最新日のデータは「調査中」がほとんど、正しく記入されるには数日かかる。そこで8/4日のデータをダウンロードし、その中から8/1日までのデータを採用した。

しかし、4月や5月にも判明日が「調査中」のままがあったり、所在地には県外、愛知県、埼玉県外、神奈川県、東京都、県内、川口市外、非公表、空欄というように入り乱れる。性別欄では「女児」、年代では「未成年者」というのもあった。「10歳未満」と「未就学児」が混在している。

ここでは県内のみとし、「川口市外」や空欄は「不明」とするなどの除外や置き換えをしないと、とても集計に耐えられない表だった。(>_<)

こんな奥深くにも、埼玉県行政の混乱ぶりが見て取れるのだ。

だからと言って、「保健所の皆さんは忙しくて大変」という気になるようでは進歩が無いと想う。なおPCR検査数の時系列データはどこにも見当たらない。

 前記事は8/1日のデータで集計してしまったから、その後の8/1の更新を反映して取り直し、次記事で公開する。

人数が多い上位市で少し変更があり、町村は全て変更はない。そもそも、上位市のHPで告げる感染者数とオープンデータの値とは微妙に異なることがある。

つづく

 

 

 

« PCR検査拡大を拒む厚労省官僚の理由 | トップページ | 埼玉県コロナ統計-2 人口一万人当たり感染者数と倍率 »

コロナ」カテゴリの記事

コメント

コメントを書く

(ウェブ上には掲載しません)

« PCR検査拡大を拒む厚労省官僚の理由 | トップページ | 埼玉県コロナ統計-2 人口一万人当たり感染者数と倍率 »

上尾市政をみつめるサイト

  • 上尾オンブズマン
    市民的視座から上尾の教育行政&市政を考えよう。 (情報公開請求により市政に斬り込むサイト)
  • はるかさん_かまちょ図書館
    上尾市民として市政とりわけ図書館問題を熱く語っています。ぜひ飛んでください。 かまってちょうだいの意ね。
無料ブログはココログ