人口統計は国の将来を予測する重要な指標であるが,経済の指標である総生産も重要な指標である.これは国の元気さを示す値であり,報道では GDP と称されている.一人あたりの GDP とは生産性のことであり,国民の豊かさを示す値でもある.
マクロ経済学についてはほぼ素人だが,データを扱うにあたり,都道府県ごとの総生産額と生産性は欠かせない指標と思われたので,調査ついでに公開しよう.
データベースは e-Stat にある
総務省の e-Stat は政府が公開している統計情報の宝庫である.しかしあまりにも項目が多く,検索方法を知らないと情報の樹海の中で道に迷ってしまう.
検索方法
今回はデータベースを検索して作成したファイルをダウンロードする.
トップページの「統計データを活用する」の「地域」をクリックする.
「都道府県・市区町村のすがた(社会・人口統計体系)」から「都道府県データ」の「データ表示」をクリックする.
地域の選択
「地域選択」の「2.地域候補」で「すべて選択」していったんすべての地域候補を右側のパネルに移す.
次に「全国」をクリックして「地域を削除」し,左側のパネルに戻す.「確定」をクリックする.
表示項目の選択
データの種類には「基礎データ」と「指標データ」がある.基礎データは生の数字,指標データは「***率」などの計算でできた数値である.
「表示項目選択」で「基礎データ」から「総人口」および「15~64歳人口」と,「指標データ」から「人口増減率」との「項目を選択」して右側のパネルに移す.
「分野」を「C経済基盤」に変更し「基礎データ」から「県内総生産額」を平成 17 年基準と平成 23 年基準の二つを選択する.
「データ種別」を「指標データ」に切り替え,分野を「C経済基盤」に変更し,「県内総生産額対前年増加率」の平成 17 年基準と平成 23 年基準とを二つ選択する.
ダウンロードへ
画面に都道府県ごと,各年のデータが表示されている.右上にダウンロードボタンがあるのでクリックする.
ファイル形式の指定
「表ダウンロード」画面ではファイル形式を指定する.「ダウンロード範囲」は「すべての調査年」がデフォルトで選ばれており,「ファイル形式」は「XLSX形式」に変更する.「注釈を表示する」のチェックを外す.
「ファイル名」と「サイズ」が表示される.「ダウンロード」をクリックすると実際にダウンロードが始まる.
データクレンジング
さすがにデータベースからダウンロードしただけあって,データクレンジングはしやすい.ワークシート一枚が一年に対応している.Power Query を使えばこのままでも行けるのかもしれないが,目標は第一正規形である.
同じ処理の繰り返しにはループを使う
何度も同じ手順を繰り返すのは骨が折れる.Alt キーと F11 キーを押して VBE を起動し,標準モジュールを挿入して下記コードを走らせると,そこそこの形になる.
Sub test1() Dim Sh As Worksheet For Each Sh In ThisWorkbook.Worksheets With Sh .Range("C3").Copy Sh.Range("C7:C53") .Range("1:5,54:57").Delete .Range("C1").Value = "年度" End With Next Sh End Sub
データのコピペ
タイトル行以外のセル範囲を選択して次のワークシートのデータの直下にコピペする,という作業を繰り返す.40 枚以上のワークシートでこれを繰り返すのは大変だが,コードを書くのも面倒なので手動で押し切る.これが数百枚ならコードを書くだろう.
最後にタイトルを含めたすべてのセルを選択してコピーし,新しいワークシートを挿入して「値の貼り付け」を行う.元の 40 枚以上のワークシートは不要なのでまとめて削除する.
テーブルの作成
残ったワークシートにテーブルを挿入する.
列を分野別に入れ替える
テーブルの構造としては,分類のための地域コードや都道府県名,年度がまず最初にくる.次に人口,そして総生産額および対前年増加率が最後に来る.
総生産額には平成 17 年基準と平成 23 年基準があり,それぞれ実施された年が違っていて悩ましい.基準ごとにまとめる.
県内総生産額の 100 万円単位を円単位に変換する
県内総生産額は 100 万円単位で表記されているため,これを円単位に変換する.計算列を追加して下記の数式を記述する.
= [県内総生産額] * 1,000,000
生産性を計算するには総生産額を人口で割る
生産性とは総生産額を人口で割ったものである.一人あたり GDP と言われるものだ.国別の指標はよく聞くが,都道府県別の一人あたり GDP は見たことがない.
「C1101_県内総生産額(平成17年基準)」の列と「C1111_県内総生産額(平成23年基準)」の列の右隣に新しく列を挿入する.
それぞれ下記のように数式を記述する.マウスクリックと演算記号だけで入力できるので,構造化参照は便利である.
= [県内総生産額] / [総人口]
記号が入力されている箇所は #VALUE! エラーが発生するが,後でまとめて削除するため問題ない.
パーセント表記を小数に変換する
人口増減率と対前年増加率はパーセント表記されており,これも新しく列を追加して下記の数式を記述して小数に変換する.
= [人口増減率] * 0.01
= [対前年増加率] * 0.01
数式の参照関係の解消にはコピーして値の貼り付け
最後に「すべてを選択」して「コピー」し,「値の貼り付け」で数式の参照関係を解消する.参照元のタイトルだけカットして新しい列に貼り付け,参照元の列を削除してテーブルの完成である.
散布図に描く
データ系列の選択
新しいワークシートを挿入して「挿入」タブから「散布図」を挿入する.グラフエリア上で右クリックして「データの選択」を選ぶ.
「データソースの選択」画面で「凡例項目(系列)」の「新規」をクリックする.下図ではすでに系列が追加された後である.
平成 17 年基準と平成 23 年基準の二つの系列を入力する.注意する点として,値のない空白部分も含めて列全体を指定することだ.やってみると分かるが,対応する点がない場合はグラフに表示されない.
マーカーの書式設定
グラフのマーカーの一つを選んで右クリックし「データ系列の書式設定」を選ぶ.
マーカーの「塗りつぶし」を「なし」に,「枠線」を「単色」にすると重なったマーカーも潰れない.系列によって色を分けると見やすいだろう.
補助目盛線が必要なら追加
対数グラフであることを示すために補助目盛線を追加してもよい.書式は透過性や色などで控えめにした方が上品だ.
結果を示そう
これが経済から見た日本の姿である.ほとんどの道府県の生産性が 300 – 400 万円/人の範囲にあることが分かる.右上の突出した塊は言うまでもなく東京都である.
県内総生産額の高い県が必ずしも生産性が高いわけではないことに注意しよう.人口が過密しているためなのか,他の原因があるのかは分からない.これに人口という軸を加えて解析したいところだ.さらに時間軸を加えて経時的な推移を示したい.