第1回Python3データ分析模擬試験【第33問】解説

第1回Python3データ分析模擬試験第33問

本問題では「scikit-learn」のうち「機械学習の前処理、カテゴリ変数のエンコーディング、特徴量の正規化」について学びます。

本問題の解説はYouTube動画でもご覧いただけます。
【解説動画】 第1回Python3データ分析模擬試験 第33問
※当解説動画シリーズはPythonエンジニア育成推進協会に認定された「Python 3 エンジニア認定データ分析試験」の参考教材です。

問題

機械学習の前処理に関する次の記述のうち、誤っているものはどれか。

① カテゴリ変数のエンコーディングとは、文字のaを数値の0、bを1、cを2のようにカテゴリ変数を数値に変換する処理をいう。

② One-hotエンコーディングでは、たとえば、テーブル形式のデータのカテゴリ変数の列について、取り得る値の分だけ列を増やして、各行の該当する値の列のみに1を、それ以外の列には0を入力するように変換する処理をいう。

③ 特徴量の正規化とは、たとえば、ある特徴量の値が2桁の数値(数十のオーダ)、別の特徴量の値が4桁の数値(数千のオーダ)のような場合、後者のオーダの特徴量が重視されやすくなるため、尺度を揃える処理をいう。

④ 分散正規化とは、特徴量の平均が1、標準偏差が0となるように特徴量を変換する処理であり、標準化やz変換と呼ばれることもある。

⑤ 最小最大正規化とは、特徴量の最小値が0、最大値が1を取るように特徴量を正規化する処理であり、scikit-learnでは、preprocessingモジュールのMinMaxScalerクラスを用いて実行することができる。

解説

※ただいま公開に向けて準備中です。今しばらくお待ちください。