日本の各府省が作成した統計の多くは政府統計の総合窓口(e-Stat)で見ることができます。膨大な数の統計がありますが、目的の統計を検索する方法として統計分野(人口や経済など)や提供周期(月次や年次など)、担当省庁の名前などで絞り込む機能があります。
しかし目的の統計を絞り込んだとしても、中には1つの統計でたくさんの表を提供しているものがあります。例えば国勢調査は人口・世帯を対象とした基幹統計ですが、令和2年の調査の結果は211表に及びます。その中の「人口等基本集計」という区分を選ぶとこのように一覧が表示されます。ご覧いただくと、それぞれの統計表の名前の長さに圧倒されるのではないかと思います。この中から目的の表を選び出すのは容易ではありません。国勢調査を所管する総務省統計局が統計表の迅速な検索のしかたを公開するほどなので、知識なしに表を検索するのは難しいと言えるでしょう。
表章項目と分類項目
実は統計表の名前の付け方はある程度決まっていて、それを知っているとそれぞれどのような表なのかが把握できます。ここで統計表を構成する要素を簡単に説明すると、表の中の値が示すものを「表章項目」と言い、その値を分割するグループを「分類項目」と言います。
例えば次のような表を考えます。
総数 | 男 | 女 | |
---|---|---|---|
総数 | 126,146,099 | 61,349,581 | 64,796,518 |
20歳 | 1,177,049 | 599,122 | 577,927 |
21歳 | 1,174,456 | 595,722 | 578,734 |
… | … | … | … |
これは年齢と男女別の人口を表した統計表(値は令和2年国勢調査)です。この表においては「人口」が表章項目で、「年齢」と「男女」が分類項目です。統計表はこのように表章項目と分類項目の組み合わせであると考えることができます。統計表の名前は基本的には「(分類項目)別(表章項目)」となるように付けられます。上の表であれば「男女, 年齢(各歳)別人口」となります。
項目の組み合わせで統計表を選ぶ
統計表を構成する「表章項目」と「分類項目」を使って表の検索ができたら目的の表にたどり着きやすいのでは?というアイデアから、それを実現するシステムを作ってみました。
このシステムでは統計調査ごとに、まず表章項目を選ぶようになっています。表章項目を選ぶとその分割に使用できる分類項目の一覧が表示され、その中から好きなだけ分類項目を選ぶことができます。好きなだけと言っても実は選べる組み合わせは統計表が存在するものに限られています。分類項目を1つ選ぶと、それと組み合わせられない分類はグレーアウトされて選択できなくなります。
表章項目と分類項目を選ぶとその下に検索結果として統計表が表示されます。ここで表示される統計表は選んだ表章項目と分類項目を「含む」表です。例えば「人口」、「年齢」、「男女」だけを選んだとしても、それより多くの分類項目(地域や国籍など)を持つ表が出て来たりします。ですが選んだ項目は全て含まれていますので、目的の分類のみを表示するように加工することは可能なはずです。
表章項目による絞り込み機能
実はe-Statの検索機能の中にも表章項目を使った絞り込みがあります。統計調査を1つに絞り込んだ状態にすると左側の「検索結果をさらに絞込み」のメニューに「表章分類で絞込み」が出て来ます。「項目・分類による統計表検索システム」で選べる表章項目は、ここに表示される一覧とほぼ同じです。
なお2024/7/28現在、令和2年国勢調査についてはこの「表章分類で絞込み」がなぜかうまく機能しません。
統計表のメタ情報
表章項目と分類項目の情報を利用して「項目・分類による統計表検索システム」を作成したわけですが、それらの項目の情報はどこから得たのか疑問に思われる方もいるでしょう。表章項目や分類項目のような、統計表の値そのものではなくその値の意味を説明するための情報を、上位の情報という意味でメタ情報と言います。このメタ情報は、e-Statで提供されているAPIを通じて統計表ごとに取得することができます。
それぞれの統計表にどのメタ情報が使われているのかはいったん取得しなければ分からないので、一覧を作るには全ての統計表のメタ情報をダウンロードして集約することになります。令和2年国勢調査の統計表は211表とありましたが、e-Stat上のデータセットの数では544もあります。初めは統計調査を選んだときにAPIでメタ情報の一覧を取得する仕組みを考えていたのですが、取得に時間がかかり過ぎるのであらかじめ別のシステムでメタ情報を取得しておくことにしました。ですので「項目・分類による統計表検索システム」ではAPIは利用しておらず、あらかじめ用意された統計調査しか選べないようになっています。
さらに、APIでメタ情報が取得できるのはデータベース形式で公開されている統計表に限られます。そのため「項目・分類による統計表検索システム」で検索できるのもデータベース形式の表だけです。
検索はAIの時代に
とりあえず思い付いたアイデアを実現してみましたが、まだ分かりにくくて統計表に詳しい人向けのシステムになっている気がします。前提知識がいらない仕組みとしては、やはりAIに質問したら該当する統計表を教えてくれるようなものが使いやすいでしょうね。すでにそういう時代になりつつあります。ですが私はシステムを組むのが楽しいのでしばらくはこれを改良していこうと思います。