本問題では「scikit-learn」のうち「次元削減、主成分分析」について学びます。
本問題の解説はYouTube動画でもご覧いただけます。
【解説動画】 第1回Python3データ分析模擬試験 第37問
※当解説動画シリーズはPythonエンジニア育成推進協会に認定された「Python 3 エンジニア認定データ分析試験」の参考教材です。
問題
次元削減に関する次の記述のうち、正しいものはどれか。
① 次元削減は、データが持っている情報をなるべく損ねることなく次元を削減してデータを展開するタスクである。具体的には目的変数の数を減らして計算量を削減する。
② 次元削減の主目的は目的変数の数を減らして計算量を削減することであるが、説明変数の削減を行うことは少ない。これは、モデルの精度を確保するためである。
③ 主成分分析とは、高次元のデータに対して標準偏差が小さくなる方向を探して、元の次元と同じかそれよりも高い次元にデータを変換する手法である。
④ 主成分分析は、scikit-learnのdecompositonモジュールのPCAクラスを用いて実行することができる。
⑤ 2次元のデータに対して主成分分析を行い、新たな2変数に変換した結果、第一主成分と第二主成分がともに重要であると確認できた場合、1次元に次元を削減できる可能性が高い。
解説
正解は選択肢④です。以下解説します。
選択肢①
選択肢①は誤りです。
次元削減は、データを(「展開」ではなく)「圧縮」するタスクです。
また計算量の削減は、(目的変数ではなく)説明変数の次元数を減らすことで実現します。
選択肢②
選択肢②は誤りです。
次元削減の主目的に関する説明ですが、目的変数と説明変数が逆です(正しくは右の通りです)。
選択肢③
選択肢③は誤りです。
主成分分析は、分散・ばらつきが大きくなる方向を探して、元の次元と同じか、低い次元にデータを変換・圧縮する、次元削減の一手法です。
選択肢④
選択肢④は正しい肢です。主成分分析の実行方法が説明されています。
選択肢⑤
選択肢⑤は誤りです。
2次元のデータに対して主成分分析を行い、どちらも重要であると確認できた場合には、1次元に次元削減できる可能性が高いとはいえません。
第1回Python3データ分析模擬試験第37問の解説は以上です。