USGS (United States Geological Survey) はアメリカ地質調査所とも呼ばれ,全世界の地震データを蓄積しているデータベースである.
かつてここの地震データをダウンロードしたことがあった.合計 72 万件にも及ぶ巨大なファイルである.どのリンクからダウンロードしたのか,今となっては記憶が定かでない.ファイルのプロパティを見ると 2017 年 11 月作成となっていた.これを SQL Server にインポートする.
Power Query でデータクレンジング
残した列
残した列は time, latitude, longitude, depth, mag (magnitude), net, id, updated, place, type である.その他は NULL が多く,削除した.
地震の原因
type とは地震の原因となった現象である.フィルターを閲覧してみると興味深い.地震,化学爆発,環境爆発,地すべりなどの他に地雷の爆発や核爆発という項目もある.
ウィザードでインポート
主キーや NULL については目をつぶる.小数点を扱う列のみ,念のために小数点以下の桁数を 1 つ増やしておく.
切り捨てエラーが発生
発生場所の列で入力時の切り捨てエラーが発生したため,ウィザードを遡って 50 文字から 100 文字に増やす.
列マッピングで途中まで入力した行を削除し,入力し直すオプションにチェックを入れる.
インポート完了
今度は無事にインポートが完了した.
データベースのバックアップ
データベースを右クリックして「タスク」「バックアップ…」
データベースが壊れたときのためにバックアップを取っておく.オブジェクトエクスプローラーのデータベースを右クリックして「タスク」「バックアップ…」と進む.
最初は完全バックアップ
最初は完全バックアップである.次からは差分でよい.ストレージに余裕があれば都度完全バックアップが面倒でなくてよいが,最初はとにかく完全バックアップである.
バックアップ先はディスクになっている.個人用ならこれで十分であろう.
以下のメッセージが出ればバックアップは完了している.
クエリを発行してみる
下記のクエリを発行する.
USE NatureDB; GO SELECT type , COUNT(*) AS CNT FROM dbo.T_Earthquake GROUP BY type ORDER BY CNT desc;
type CNT earthquake 717557 quarry blast 2899 explosion 1901 nuclear explosion 771 mining explosion 701 rock burst 165 mine collapse 24 other event 23 sonic boom 14 chemical explosion 11 experimental explosion 5 acoustic noise 1 landslide 1
Power BI でヒートマップに表現する
EXCEL の散布図は現実解ではない
最初 EXCEL のバブルチャートで表現しようとしたのだが,データ数が多すぎて EXCEL がフリーズした.それならと散布図で表現しようとしたが,時間がかかりすぎるため,現実的ではないと判断し,Power BI に切り替えた.
データソースは SQL Server
データソースを SQL Server とし,サーバー名とデータベース名をそれぞれ入力してインポートする.latitude, longitude, mag をそれぞれ下図のようにドラッグ・アンド・ドロップする.
「視覚化」で「マップ」,「凡例」にそれぞれの項目を指定し「高度なフィルター処理」で「指定の値を含む」に japan を指定する.
フォーカス編集モード
レポート画面でフォーカス編集モードに移行する.
マップテーマの変更
マップテーマを「ヒートマップ」に変更する.
地震発生地域のヒートマップ
結果は以下である.