400万人が利用する会社訪問アプリ

藤戸 四恩

AI ソリューション会社 / AI エンジニア

藤戸 四恩

AI ソリューション会社 / AI エンジニア

法政大学理工学部経営3年藤戸四恩です。 普段は機械学習を勉強しています。 またai ソリューション会社でaiエンジニアとして長期インターンをしています。 signateは3度メダルを獲得してsignate expertになることができました。

個人の実績

個人の実績

個人の実績

  • signateコンペ

    sigante社のコンペ「SIGNATE Student Cup 2020: データサイエンティストの職種判別にチャレンジ!!」です。概要は、英語圏の求人情報に含まれるテキストデータ(職務内容に関する記述)をもとに、4つの職業を推定するコンペです。データの内容は英語で書かれたテキストデータです。 データ量は3000件程度テキストデータです。データ量を増やす為に、データをドイツ語に翻訳し、その翻訳したデータを再度英語にする再翻訳を行いました。 使用したモデルは、BERT、RoBERTa、 TF-idf、K-meansの出力を勾配ブースティングでスタッキングを行いました。成果は、450人中49位で上位15%以内に入ることができました。

  • ニュースデータのソース元予測

    ニュースサイトの出版元の推定をし、attention weightを使用して、推定に大きく影響した単語を可視化しました。取り扱ったデータは研究室で毎日さまざまなニュースデータを取得しておりデータベース上に蓄積されています。その中でYahoo全体のニュースデータとYahooの世界情勢ニュースデータ2つのを使用しました。データ量は各ニュースデータ6000件程度です。また書かれている言語は英語です。ニュースデータの前処理は記号などを除きました。利用した手法はBERTです。BERTを使用するにあたり、huggingfaceのbert-based-uncasedを事前学習モデルとして使用しました。成果は検証データで85%程度の精度を得ることができました。また、attention-weighの可視化の方法は、12個のMuti-headの重みの平均をとり可視化しました。

  • 年齢推定アプリ

    一つ目は人の画像から年齢を推定するwebアプリを作成しました。取り扱ったデータは、web上の芸能人の年齢と顔の画像をスクレイピングをして取得しました。取得した画像データは2万件ほどでしたが、前処理をする際にデータでの年齢で20代から40代が多く不均衡な為、アンダーサンプリングを実装し5000件にして学習をさせました。利用した手法は、vgg16をファインチューニングし、出力層をつけて学習しました。出力には、Grad-Camを使用し、予測画像にヒートマップを重ねて出力することで判定根拠を可視化しました。 成果は、芸能人で学習をしたため一般人で予測するとやや年齢の予測が高めにでますが、検証用データでは8割ほどの精度がでました。

この先やってみたいこと

未来

データサイエンティストまたは機械学種エンジニアとして、 aiをつかったソリューションを行いたいです。

AI ソリューション会社4 years

AI エンジニア現在

- 現在

ai academy5 years

チューター現在

- 現在

ai academyのbootcampのコースーのチューターを行っています。

法政大学

その他理系

理工学部経営システム学科

ibm

データサイエンス(Intern)

自動販売機の売り上げを予測し、飲み物の補充タイミングの最適化を行いました。

大和総研2 months

データサイエンス(Intern)

-

決算単身からの株価予測をおこないました。


企業からスカウトをもらいましょう