本問題では「数学の基礎・確率と統計」のうち「確率統計、基本統計量、分散、確率密度関数・確率質量関数」について学びます。
本問題の解説はYouTube動画でもご覧いただけます。
【解説動画】 第1回Python3データ分析模擬試験 第12問
※当解説動画シリーズはPythonエンジニア育成推進協会に認定された「Python 3 エンジニア認定データ分析試験」の参考教材です。
問題
確率と統計に関する次の記述のうち、正しいものはどれか。
① 5段階評価のアンケートの回答で、もっとも回答者数が多かった評価が4であった場合、このアンケートの中央値は4であるといえる。
② 分散は、すべてのデータの平均値からの差分をデータの個数で割った値である。
③ 12面体のサイコロを1回振った場合の期待値は6である。
④ 6面体のサイコロを1回振った場合、その出目の数自体は不明なものの、奇数がでていることを教えられたとする。この場合の確率を条件付き確率と呼び、これはベイズの定理の基本となっている。
⑤ 確率変数を引数にとって値を返す関数のうち、確率変数が離散的な場合を確率密度関数、確率変数が連続的な場合を確率質量関数という。標準正規分布などの確率分布は確率質量関数から得ることができる。
解説
正解は選択肢④です。以下、解説します。
選択肢①
選択肢①は、誤りです。
中央値とあるところは、正しくは、最頻値です。
中央値と最頻値の違いを確認します。体系的にはどちらも統計における代表値です。
このうち中央値は、データを小さい順に並べた時にデータが奇数個なら真ん中の値、データが偶数個なら真ん中二つの平均の値です。
最頻値は、データを集めた時に一番多くあらわれたデータです。
選択肢②
選択肢②は、誤りです。
分散とは「すべてのデータの平均値からの差分を、2乗して、データの個数で割った値」です。式で書くと右図のようになります。
例えば、3人分のテストの点数データを用いて分散を計算する場合、まず平均を出して、それぞれの点数から平均を引き、それぞれ2乗します。
(大文字のシグマは「総和」ですので)値を合計して、データの個数3で割ります。
結果の66.666が分散です。
ちなみに、その平方根は標準偏差(記号は小文字のシグマ)です。
選択肢③
選択肢③は、誤りです。
まず12面体のサイコロを振ったときの確率変数と確率分布は、右の「確率変数X」「確率分布P(X)」の表のようになります。
そして期待値を計算します。分子(確率変数)を合計すると78、これを12(確率分布)で割った6.5が期待値です。
選択肢④
選択肢④は、正しい肢です。
条件付確率の定義とベイズの定理という言葉をおさえておきましょう。
選択肢⑤
選択肢⑤は、誤りです。
確率変数が離散的な場合は確率質量関数、連続的な場合が確率密度関数です。
標準正規分布などの確率分布は、確率密度関数から得られます。
第1回Python3データ分析模擬試験第12問の解説は以上です。