本問題では「機械学習の分類、教師あり学習・教師なし学習・強化学習の特徴」について学びます。
本問題の解説はYouTube動画でもご覧いただけます。
【解説動画】 第1回Python3データ分析模擬試験 第02問
※当解説動画シリーズはPythonエンジニア育成推進協会に認定された「Python 3 エンジニア認定データ分析試験」の参考教材です。
問題
【第1回 Python3データ分析模擬試験 第2問】
機械学習の分類に関する次の記述のうち、正しいものはどれか。
①教師あり学習の1つであるDBSCAN法は密度準拠クラスタリングアルゴリズムであり、特徴量ベクトル間の距離に着眼した手法である。
②教師あり学習は、正解となるラベルデータが存在する場合に用いられる方式であり、そのラベルを目的変数という。
③教師あり学習は、説明変数の種類により回帰と分類の2種類に分けられる。回帰は目的変数が連続値となる。
④教師なし学習は、正解ラベルを用いない学習方法であり、クラスタリングや次元削減といったタスクを行う。典型的なものにニューラルネットワークを用いた深層学習がある。
⑤強化学習は、ブラックボックス的な環境の中で行動するエージェントが、得られる報酬を最大化するように学習する方法であり、ルールベースと比較される機械学習の伝統的な手法である。
解説
正解は選択肢②です。以下、解説していきます。
機械学習の学習方式について
この問題のポイントは「機械学習の方法の分類を整理できているか」というところにあります。そこで選択肢を確認する前に、教科書の範囲で機械学習の学習方式を整理します。右表をご覧ください。
前提として「目的変数」と「説明変数」について確認します。まずタスクとなる課題に対して目的となる値(目的変数)があります。目的変数を説明するためのデータが説明変数(特徴量、特徴データともいいます)です。
機械学習の学習方式には「教師あり学習」「教師なし学習」「強化学習」の3つがあります。「教師あり学習」と「教師なし学習」ではいずれも説明変数が用いられますが、目的変数は、「教師あり学習」だけで用いられます。
「教師あり学習」の場合、目的変数の種類によって2つに分けられます。目的変数が連続値なら回帰、連続値以外なら分類です。
「教師なし学習」では、説明変数のデータ間のそれぞれの特徴をもとに学習をします。主な手法はクラスタリングと次元削減です。
「強化学習」とは「ブラックボックス的な環境の中で行動するエージェントが、
得られる報酬を最大化するような状態に応じた行動を学習していく手法」であり、比較的新しいものです。
選択肢①
選択肢①は、内容の誤った選択肢です。
DBSCAN法とは(教科書では特に言及はされていないのですが)「特徴量ベクトル間の距離に着眼した手法」つまりデータ間のそれぞれの特徴を基に学習する手法です。ですから「教師あり学習」ではなく、「教師なし学習」とするのが正しいでしょう。
選択肢②
選択肢②は、内容の正しい肢です。「教師あり学習」の特徴が問われています。
ちなみに、この選択肢は、例えば目的変数と正解ラベルを結び付けて理解しているかを聞くために、目的変数ではなく説明変数として誤りの肢にすることもできるでしょう。
選択肢③
選択肢③は、内容が誤っている肢です。先ほど整理した通り、回帰と分類は説明変数ではなくて、目的変数の種類で分けられます。
この選択肢のもう一つのポイントである、回帰と分類の一番の違い、つまり連続値かそれ以外のカテゴライズされているデータかというところも、この機会に押さえておきましょう。
選択肢④
選択肢④は、内容が誤っている肢です。「ニューラルネットワークを用いた深層学習」とありますが、「教師なし学習の典型」ではありません。(ただし教科書には載っていません。1つの解法として、ほかの選択肢との兼ね合いで判断するという方法もとりうるのではと思います)。
選択肢⑤
選択肢⑤は、内容が誤っている肢です。強化学習の特徴が問われています。
「ルールベースと比較される伝統的な手法」とありますが、強化学習は比較的新しい手法です。
第1回Python3データ分析模擬試験第02問の解説は以上です。