機械学習エンジニアとしてリーガルテックで働くまでの経緯

こんにちは、MNTSQでアルゴリズムエンジニアをしております森山 直人(もりやま なおと)です。

このエントリでは、機械学習に携わった経験がある方向けにリーガルテック領域に関心を持っていただけるよう、リーガルにもテックにも全く経験がなかった私個人の経歴と入社の経緯を書かせていただきます。

学生時代

私は現在では機械学習の業務に携わっていますが、実は学生時代にはITや数学に全く関心がなく、常に最小限の努力で日々をやり過ごすことに注力していました。

特に数学領域では高校時代から感覚を持つことができず、公式に値を代入していく単純作業と如何に多くの例題を暗記できるかという作業を退屈だと感じていました。一方、文系領域はさらに関心がなかったので、進路は消去法にて理系の大学を選びました。

大学に入ってもその意識が変わることはなく、授業はほとんど頭に入らず、試験はほぼ過去問頼りにギリギリで卒業することができました。

機械学習に出会うまで

大学卒業後はインターネットマーケティング領域で3社を渡り歩き、MNTSQは4社目です。
私がインターネットマーケティングに感じている魅力は以下2点です。

  1. 鮮度の高い情報が自身のバリューになる
  2. 個人プレーとチームプレーによる成果を明確に感じ取れる

1.については、私が大学を卒業した2010年代初頭はスマートフォンがPCを上回るかどうかの時代で、業界が急成長していました。そこでバリューを発揮するには常に最新の技術状況(何が出来て、何が出来ないか)とそれを使ったマーケティング手法の実例をキャッチアップすることが必要です。新しい物好きな自分にはとても肌に合いました。

2.については、業務としてはチームプレーな領域も多々あるなか、個人プレーな領域も多く用意されています。2つの領域を行き来することで自分を客観的に見ることができて、自身の成長の方向性に迷うことは少ないと感じました。

そんな中、いつの間にかAI・機械学習・ディープラーニングブーム(以降まとめて機械学習と記載します)が到来しました。

当時仕事に少し余裕があり、趣味レベルで新しいことにチャレンジしたいタイミングだったのため、何となくこのブームに飛び込みました。

機械学習への転機

私が機械学習に関心を持ち始めたのは2016年頃で、手始めに業界の主要技術を把握することを目標としてました。機械学習に詳しい数名の専門家に話を伺い、紹介された書籍を読み解くことを最初のマイルストーンに設定しました。

自己紹介でも書いたように数学への苦手意識が強かったのですが、書籍を読み解きつつ数学の復習をしていくと、学生時代では理解が曖昧だった線形代数周辺の計算をニューラルネットワークの処理に当てはめて考えていくことで、随分と数学についてイメージが持てるようになりました。

また、当時の業務に自然言語処理を適用できる可能性を感じ、自然言語処理を中心に学習していきました。

そこから論文を読んだり実装したり、データ分析のコンベションサイトであるKaggleにチャレンジしました。Kaggleでは個人で銅メダルと銀メダルを取得でき、現在は金メダルを目指して取り組んでいます。

機械学習領域は変化が激しく、先端情報を追うことが困難との声をよく聞きますが、インターネットマーケティング時代で培った情報収集の習慣により楽しんで継続しています。

最初設定したゴールはいつの間にか通り過ぎていまいたが、当時はそれに気づかず気ままに進んでいきました。

社外活動

独学で勉強を進める最大の障害は孤独だと思います。難解な部分を自力で解決する苦悩や間違った理解で進んでいないかへの恐怖を拭うため、勉強会を自分で開催したり、専門家が集まる勉強会で発表することに積極的にチャレンジしました。

振り返れば、この行動が今の自分をかたちづくるうえで最も価値があった部分だと感じています。これが勉強仲間の形成やモチベーションの維持に寄与しました。

機械学習キャリアスタート

機械学習の知識が一定蓄積したタイミングで、当時勤めていた会社のデータ分析チームに異動しました。そこでは機械学習を用いたレコメンドエンジンなど様々な実証実験に携わりました。

MNTSQ入社経緯

それまで個人的には充実した日々を過ごしていましたが、突然当社ファウンダーの安野より連絡をもらいました。当時MNTSQはステルス開発のタイミングでネット検索してもHPはなく、唯一登記情報として自宅から近い位置に会社があることだけ分かりました。

(正直のところ、私が最初にMNTSQの方々にお会いすると決めた動機は、会社が近いというのが一番の理由でした)

リーガルテックに関してもなにをしているのかよくわからず、刑事裁判における有罪無罪のクラス分類をイメージしていました。

実際にお会いして以下のエントリで書かれていた会社のビジョンや戦略を聞き、機械学習スタートアップとして技術以上に戦略が緻密に練られていたことが決め手となり、MNTSQに強く関心を持ちました。

まずは業務委託として部分的に携わるようになり、7月に正式に入社しました。

実務における自然言語処理

入社後主業務としてMNTSQサービスの各種機能の精度向上と契約書の構造解析に取り組んでいます。リーガルテック領域における自然言語処理のイメージが伝わるよう、前処理とモデリングの観点から一部紹介いたします。

前処理

MNTSQの強力な機能として画像スキャンされた契約書を解析(OCR)することが出来ます。「強力な機能」たらしめる要因は不安定なOCR結果を補完して高精度な出力を得るところにあります。

「OCRの精度が99%」という場合、一見して高い精度にみえるものの、これは実はA4サイズであれば約2.5行に1文字間違える頻度であり、重要な語を間違えた場合には致命的な影響を及ぼします。

例えばM&A領域の文脈では「事業譲渡」と「事業の譲渡」では法律的に意味が若干異なります。この場合「の」一字が意味を左右しますが、私の経験上「8」、「6」、「O」、「θ」へのOCRの誤認識がありました。
他にも、契約書の構造を理解するために重要な「第1条」といった語が「笫1条」と認識されてしまったりします。「第」と「笫」は一見では分かりにくいです。

こういった誤認識を回避するための前処理は専門知識と泥臭いエンジニアリングを必要とします。他にも多くのマニアックな処理を必要としますので、関心ある方は直接お話します。

また、法務領域特有の特徴語や構造に興味があればぜひ弊社今泉のエントリをご覧ください。


機械学習モデルの実装

リーガルテックにおいて特定のタスクを処理する機械学習モデル(例えば契約書のリスク判定)を実装する場合であっても、多くの機械学習に共通する作業があります。実務の場合はそれぞれにドメイン知識を組み込むことが重要です。ドメイン知識にフォーカスした場合各作業に以下の情報を組み込めます。

  • 特徴エンジニアリング
    • 特徴語などは弁護士やパラリーガルに直接聞いたほうが早く、精度に寄与する
  • 学習データと検証データとの分割(必要に応じてテストデータ)
    • 汎化性能を正しく評価するためにリークを防ぐために弁護士の意見を取り入れながらに分割データを構築する作ってもらう
    • 学習が足りない部分に対してデータを追加する
  • モデル選定
    • そもそも弁護士はどのように判断しているのかをヒアリング
    • それを元にルールベースか、機械学習ベースのアプローチを考える
  • ハイパーパラメータ選定
  • 学習
  • エラー分析
    • エラーの傾向について、そもそも学習出来ていないか、それとも惜しい段階まで来ているか(モデルの表現力の判断につながる)を弁護士が確認

学習データと検証データを適切に分割することが非常に重要であることは、機械学習に携わる人であれば多くが体感していると思います。
ところが、法務領域のデータについては、専門家の間でも解釈が分かれる場合があり、非専門家の私には格段に難しいです。その中で適切なデータ分割を行うためには、専門家の意見は非常に重要です。

MNTSQでは、代表の板谷を始めとした弁護士・パラリーガルで構成されるリーガルチームが私のいる機械学習チームのすぐ近くにおり、都度質問できる環境となっているため、大変ありがたいと感じています。

エラー分析においては、機械学習の観点から誤判定の分布や学習曲線などの統計情報に基づいて判断することが多いと思います。それと並行してリーガルチームに実際に予測データを見てもらうことで、より直感的なフィードバックを頂けるようになり、解釈を助けてくれます。

終わりに

以上私の経歴とMNTSQにおける自然言語処理について簡単に紹介いたしました。やるべきこと以上にやりたいことが積み重なっている状態ですので、自然言語処理の業務に関心がある方はぜひご応募お願いします。

MNTSQ, Ltd.'s job postings
3 Likes
3 Likes

Weekly ranking

Show other rankings
If this story triggered your interest, go ahead and visit them to learn more