【Tech Trend Talk vol.9】社外向け勉強会「データ処理と機械学習アルゴリズム」を開催しました！

こんにちは！GIGのわいわいです。

今回は、「Tech Trend Talk vol.9 データ処理と機械学習アルゴリズム」のイベントレポートをお届けします。

データ処理と機械学習アルゴリズム

今回の講師は、GIGの技術顧問兼外部取締役の中島正成さん。「データ処理と機械学習アルゴリズム」と題して、機械学習を今後活用してみたいと考えているエンジニア向けに講義を行っていただきました。

中島正成：株式会社メタップスの取締役CTOとして立ち上げに参画。機械学習とデータサイエンスのプロダクトインプリメントに取り組む。その後、エン・ジャパン株式会社経営戦略室経てIGS株式会社に執行役員CTOとしてジョイン。教育領域へのA.I活用プロダクト開発に取り組む。

線形回帰のアルゴリズム

回帰とは、説明変数（例：試験勉強に費やした時間）と目的変数（例：試験の結果）の間の関係を表す式を統計的手法によって推計するものです。その中でも「線形回帰」は、データが直線に収束していくような関数を導き出していくことをいいます。

最小二乗法による最尤（ゆう）推定

週の勉強時間と試験の点数の関係を例に考えてみましょう。Y=点数、X=勉強時間と仮定し、データの収束する関数を Y=aX+b とします。

中島さん：「aは傾き、bは切片。傾きと切片の値は、最小二乗法による最尤推定を使って求めていきます」

最小二乗法とは、すべての点と線の距離の誤差を二乗した和がもっとも小さくなるような係数を求める方法です。

最尤推定の「尤」は「もっとも」という意味。すなわち、ざっくりいえば「もっとももっともらしい値を推定する」ということだそうです。「もっとももっともらしい値」とは、確率的にもっとも出現頻度が高くなると予想される値のことです（門外漢の私には少々むずかしい……）。

なぜ点と線の距離の誤差を二乗する必要があるのか、図で考えてみましょう。

この関数の場合、2時間勉強した人はおよそ150点です。一方、点Rの人は、2時間勉強して330点取っています。つまり点Rから線（関数）までは、330-150=180の誤差があることになります。

また3時間勉強した人は関数上は190点くらいです。しかし、点Sの人は、110点くらいしか取れていません。このときの誤差は、110-190=-80。マイナスの値になります。

プラスとマイナスの値が存在すると、和を計算したときに打ち消しあってしまいます。そのため、誤差を二乗することで、プラスとマイナスを考えないでよくなるのです。

Pythonを使って求める

中島さん：「Pythonの機械学習ライブラリ『scikit-learn』の中の『LinearRegression』を使えば、傾きと切片を求めることができます」

中島さん：「fitで学習させたあとに、coefとinterceptを表示するコードです。coefからは傾き、interceptからは切片が分かります」

教師あり学習のパターン認識「サポートベクターマシン」

サポートベクターマシン（SVM）は、教師あり学習を用いるパターン認識モデルの一つです。サポートベクトルに対してマージンが最大になる境界面を表す式を定義して、分類を行います。

もう少し噛み砕くて解説します。

複数のグループがあったとき、各グループの端にあるデータ点との距離が最大となるような境界面を求めていきます。各グループの端にあるデータ点のことを「サポートベクトル」と言います。

SVMの特徴

・汎用性が高い：多次元のベクトルを超境界面によって分類していくため、正解データを保有するあらゆる分類や回帰に対応できる

・学習も速くて、予測も早い：カーネル法の恩恵で計算量が少ない

・尺度の変化に弱い：境界面を引く時にスケーリングを揃えた場合とそうでない場合に分類結果が異なる可能性が高い。事前のデータクリーニング必須。

中島さん：「100点満点のものと、10万点満点のものを同じグラフの中で扱うとした場合、縦と横の尺度を変えてしまうだけで、引く線の場所と角度が異なってきます。汎用性が高い反面、ちょっと手間がかかります。データに応じて適切な尺度を見つけ出すのがSVMの難しさです」

複数案のなかから精度を高めるアルゴリズム「ランダムフォレスト」

ランダムフォレストとは、ツリー構造の弱分類器（決定木）をたくさんつくって多数決と組み合わせて予測しようというアルゴリズムです。

中島さん：「データの全てを使ってひとつの決定木をつくるのではなく、ランダムに抽出したデータから複数の決定木を生成していきます。データを適切な量に分割して、決定木をたくさん生成することで、多数決による精度を上げていこうとするのが、ランダムフォレストのやりかたです。過学習の影響も小さく、データ量がさほど多くなくてもある程度ワークします」