気象庁のサクラ開花日のテキストファイルでは全国の地方気象台の所在地は明らかではなかった.ジオコーディングを始めるには所在地を正確にしておくことが重要だ.手始めに全国の地方気象台の所在地を確認することにした.
地方気象台の数は 102 あるはずだが
気象庁のサイト 主な気象官署の所在地と電話番号 に行っても,全てが掲載されているわけではない.調べた範囲では地方気象台が 61 箇所,観測所が 2 箇所である.足りない.残りの 49 箇所はどこへ行った?
特別地域気象観測所とは?
Wikipedia には地方気象台の他に「特別地域気象観測所」なる記載がある.基本的に無人の観測所である.組織の改変に伴って無人化を進めた結果のようだ.ここには 103 箇所,と記述がある.数としてはこちらが近い.
地域気象観測所一覧
上記の PDF ファイルに答えがあった.ファイル名は ame_master. 5 ページ目以降だ.経度と緯度の記述もある.これだろう.この ame_master ファイルを読み込めれば良さそうだ.
Power BIはPDFファイルからのデータ読み込みに対応
起動時の煩わしさから使わなくなっていた Power BI だが,ひょんなことから再び使い始めてみると意外にも使いやすい.PDF ファイルからのデータ読み込みに対応しているので,使ってみることにする.
なんで複数ページの一括読み込みができないのだ?
官公庁のファイルにありがちだが,同じ構造のテーブルが複数ページにまたがって延々と繰り返されるファイル.ピボットの解除など Power BI はデータクレンジングに向いていると聞いたが,まだまだのようだ.1 ページだけなら手動で対応できるが,これが数十ページにも及ぶとなると,話が違ってくる.
最初からEXCELファイルで置いとけ
と言いたくなる.表頭と表側の分離もできていない.第一正規形にしないとデータベースに取り込めんだろうが.
経度,緯度が度,分,秒表示だと…?
突っ込みどころは他にもある.ジオコーディングが一般的になりつつある現在,経度と緯度は GIS に合わせて度単位十進法形式で表現すべきだ.換算式はあるから問題ないんだろうが,ひと手間余計だ.
5ページから59ページまでと60ページ以降ではデータ構造が違う
よく読まないと見落とすところだった.違うのは二つ.管理している地方気象台の行の有無と,風速計・温度計の高度だ.
59 ページまでは観測所の海抜高度の他に風速計の高さ,温度計の高さが併記されているが,60 ページ以降からは海抜高度しか記載されていない.観測項目の種類が違うのだろう.
これは同じテーブルに格納してよいか,悩ましい問題だ.どこまでデータ粒度を求めるのかという需要による.現時点では海抜高度までで良いと思う.
それにしても 67 ページもあるファイルを手動で構造解析してクレンジングしろってか.やってられん.
今回のネタ本
「列指向形式」とは何だ
伝わるデータ・ビジュアル術では様々な作例が出ている.21 ページに「データの前処理」についてさらっと触れてあるが,実は前処理こそデータビジュアライズに必須かつ最大のエネルギー投入を要する行程なのである.
前処理に触れていない記事は偽物だ.触れてはいるが,1ページで済ませてよい行程ではない.少なくとも一章は割くべきだ.しかも用語が間違っている.
第一正規形と書け,第一正規形と
この本で最も腹が立った記述だ.データビジュアライゼーション,または BI に関わる書籍の記載がこれでは情けない.基礎になってるのはデータベースだろう.ならばなぜデータベースの用語を使わない?
所詮は「こんな事ができますよ」という旗振りか
この本はその端緒となるのかも知れない.美しいデータビジュアライゼーションはその気になれば「俺でも作れるかも」と思わせてくれる.だが,実際には泥臭いデータの前処理という底なし沼が待ち受けていることを忘れてはならない.
「アメダス 所在地」で検索したら出てきた
しばらく上記の PDF ファイルを相手に手間取っていたが,検索クエリを変えたら欲しかったファイルがそのまま出てきた.
上記のサイトにそのまま出てくる.早速 EXCEL で開いてみる.…いい感じだ.正規化もなされていてデータベースとの親和性も高そうだ.
Power BI で開いてみる
1600箇所以上の観測機器が置かれている所在地である.数が多くてポイントのサイズがデフォルトの 10 ポイントでは大きすぎるため,4 ポイントに縮小してある.とりあえず,結果の地図を掲載しておく.
ただ,気象庁は観測機器への故意の損壊を嫌っており,アメダスの所在地を公表しているが,利用しにくいようにしている.そういうことか.
日本からは世界を席巻する人工知能は生まれない
基盤となるデータベースの整備ができていないからだ.AI の前に BI の整備が必要だし,その前提としてデータベースの整備が急務である.
英語圏と比較して,日本の IT 事情はもう 20 年近い差をつけられている.この 20 年という差はもう絶望的でさえある.GAFA の計算資源は圧倒的だし,中国の追い上げも凄まじい.日本は世界の競争から敗れつつある.
モノづくり神話はとっくに崩壊している
日本人が得意なのは職人芸的な工業の分野だが,機械化によりその得意分野ももはや中国に奪われつつある.ソフトウェアの重要性が増しているのは間違いないのに,その重要性を軽視してきたツケを払わされている.
日本が没落するのは,ある意味自然の成り行きであったと言える.
平成とは若年男性の雇用を破壊した時代であった
2019 年,平成という時代が終わりを告げ,令和という新しい元号がスタートした.この 30 年間に失われたのは今の 40 代をはじめとする若年男性の雇用であり,その結果として少子化を加速した.団塊世代が富を握って離さなかったゆえである.
日本は先進国の中で唯一,経済成長せず,結果的に日本の円は安くなり,日本は中国の下請けになりつつある.
ITを理解できない老害は去れ
団塊世代の罪は重い.ようやく雇用の流動化が進み始めたのは,団塊世代が引退したからだと橘玲は述べているが,今度は彼らの受け取る年金が日本の財政に重くのしかかる.国としては,早く給付開始年齢を 75 歳に引き上げたいのだろうが,その政治力ゆえに今は言い出せずにいる.
団塊世代が死滅した頃になってようやく,年金支給開始年齢の引き上げが本格的に国会で審議されることになるだろう.つまり,どこまで行っても将来世代へのツケ回しは終わらない.
いい加減,「老人ばかり優遇するこの国はおかしい」と叫んでも良いのではないか.
結局,最後は体力のある人間が生き残る
筋トレが一般人口にも浸透し始めている.良いことである.高齢化は不可避だが,寝たきりでは意味がない.せめて定年が延長されても働き続けることができるよう,体力を高めておくことには意義がある.
まさか,65 歳で悠々自適の年金生活を夢見ているわけではないだろうな?それができるのはごく一部の人間だけだ.言っておくが,10 年後には国会で年金給付開始年齢の段階的引き上げが審議されているぞ.
その最終段階は 75 歳だ.つまり,今の 40 代はあと 30 年は働かないと生きていけない.生活設計を根本的に見直さないといけなくなる.その時になって体が動かない,では話にならないんだよ.分かるか?
寝たきりで生活保護を受けるか,働いて納税するか
残酷な選択肢ではある.しかし日本で生きていく以上,この問いに答え続けなくてはいけない.その分かれ道は今,あなたの前にある.
あなたはどちらの人生を選びたいのか?
あとがき
Power BI コミュニティの清水優吾さんの YouTube チャンネル Power BI – ja Live #01 で取り上げていただいた.41:30 あたりから該当話題となる.
後で教えていただいたのだが,csvファイルもあった.いや全くお恥ずかしい限りである.