二乗平均平方根誤差とは英語では Root Mean Squared Error (RMSE) と書く.真値と予測値との乖離(誤差)を二乗し,その平均値をとり,その平方根を求めた値のことである.非負の値を取り,0に近いほど優れたモデルであることを示唆する.
今回使用するのはe-Statからの社会疫学的指標を加えて熱中症搬送人員数を分析するで使用したデータベースである.先の記事では回帰モデルを評価する指標が必要との認識であった.
Co-evolution of human and technology
二乗平均平方根誤差とは英語では Root Mean Squared Error (RMSE) と書く.真値と予測値との乖離(誤差)を二乗し,その平均値をとり,その平方根を求めた値のことである.非負の値を取り,0に近いほど優れたモデルであることを示唆する.
今回使用するのはe-Statからの社会疫学的指標を加えて熱中症搬送人員数を分析するで使用したデータベースである.先の記事では回帰モデルを評価する指標が必要との認識であった.
前回の記事では熱中症搬送人員数に対する日最高気温の回帰曲線を描いた.今回はポアソン分布に基づく搬送人員数の95%信頼区間を求める.
Excelのピボットテーブルでクロス集計から統計解析まででも書いたが,統計解析の醍醐味は多変量解析にある.単変量解析では変数間の交絡の可能性が否定できず,重要なポイントを見落とすことがある.
統計の専門家ではないので完全に我流の方法であるが,多変量解析における変数選択の参考になるかと思い,記しておく.
過去に査読者とのやり取りの中で,変数選択の方法をかなり具体的に指示され,その通りにしないと通さないぞという言外の圧力を感じたことがある.
その時は違和感を感じつつもその通りにしたら通ったのだが,どうにもその違和感がずっと残っていた.いわく,単変量解析で有意になった変数のみを組み合わせて多変量解析に持ち込む,という手法だったのだが,本当にそれで良かったのだろうか?
Google Formで条件分岐するアンケートを作成するで触れたが,国際標準化身体活動質問票は成人の一週間の運動量を半定量的に評価するアンケートである.略して IPAQ ともいうが,これのデータ処理に関するガイドラインを見つけたので紹介しておく.
IPAQ は東京医科大学公衆衛生学分野のサイトに掲載されている.Short 版,Long 版はさらに直近 7 日間と普段の 7 日間に分類され,結局 4 つの質問票があるが,ここでは直近 7 日間の Long 版を扱うことにする.
対象は 15 歳から 65 歳までの成人とされており,小児や高齢者での使用は想定されていない.しかしながら,これに替わる評価法がないのも実情であり,やむを得ず使用している施設もあると考えられる.
データベースにおける具体的なコーディングはIPAQガイドラインをクエリで表現するにはで説明しているので参考にされたい.
庵野拓将氏の 2018 年 6 月 21 日のブログ筋力増強と筋肥大の効果を最大にするトレーニング強度の最新エビデンスで公開された現時点でのエビデンス.
“低強度と高強度との筋力トレーニングにおける筋力と筋肥大の適応,システマティックレビューとメタアナリシス” の続きを読む