博報堂テクノロジーズ、日本語特化の視覚と言語を組み合わせた事前学習モデルを開発

株式会社博報堂テクノロジーズ（東京都港区、代表者：米谷修）は、日本語に特化した画像とテキストの理解を深めるための視覚言語事前学習モデルを開発し、このたびHugging Face上で無償公開（ただし非商用に限る）したことをお知らせします。このモデルは、画像検索、テキストからの画像生成、画像のタグ付け、画像に対する質問応答など、多岐にわたる応用が可能です。

【研究・開発の背景と貢献】

多くの視覚言語事前学習（Vision-Language Pre-training; VLP）技術は、英語中心の開発により、日本語データへの対応が不十分でした。博報堂テクノロジーズは、画像エンコーダの改良と訓練データ量の増加、言語エンコーダの能力強化を通じ、日本語特化VLPモデルを開発。このモデルにより、例えば「桜の花が満開の公園」など具体的なシーンを日本語で検索した際、関連度の高い画像を正確に見つけ出すことが可能になります。

【今後の展望】

今回のモデル公開により、研究コミュニティやAI技術の開発者に対し、より高度な日本語の視覚言語理解の基盤を提供します。博報堂テクノロジーズは、今後も継続的な技術革新を通じて、研究コミュニティへの貢献を強化していく予定です。

【詳細情報】

開発したVLPモデルの技術的詳細や応用例については、博報堂テクノロジーズの公式Hugging Faceページを通じて提供します。興味のある研究者や開発者は、以下のリンクからアクセスし、モデルの使用や研究への応用が可能です。

Hugging Face:

Japanese CLIP ViT-H/14 (Base)

Japanese CLIP ViT-H/14 (Deeper)

Japanese CLIP ViT-H/14 (Wider)*
* 検索精度最高のモデル、推奨モデル

【関連情報】

・言語処理学会第30回年次大会(NLP2024)
・登壇テーマ：日本語特化の視覚と言語を組み合わせた事前学習モデルの開発 Developing Vision-Language Pre-Trained Models for Japanese
・登壇者：王直, 細野健人, 石塚湖太, 奥田悠太, 川上孝介
・所属：博報堂テクノロジーズプロダクト開発センター

【NVIDIA GTC 2024】

・登壇テーマ：日本語特化の視覚と言語を組み合わせた事前学習（VLP）モデルの開発
・登壇者：王直
・所属：博報堂テクノロジーズプロダクト開発センター

・開発部署：プロダクト開発センター

博報堂テクノロジーズのプロダクト開発センターは、AI技術の研究開発をリードし、エンジン部分からアプリケーションに至るまでの開発をフルスクラッチで手がけています。このセンターは、広告業界に限らず、多様な分野に革新的なソリューションを提供することを目指しています。

株式会社博報堂テクノロジーズでは一緒に働く仲間を募集しています

博報堂テクノロジーズ、日本語特化の視覚と言語を組み合わせた事前学習モデルを開発―画像検索において、英語モデルを上回る検索精度を実現―

採用担当

株式会社博報堂テクノロジーズ / 採用担当

株式会社博報堂テクノロジーズ

＝＝＝＝＝＝＝＝＝「マーケティング×テクノロジー」の力で、生活者と社会へ新たな体験価値を社会実装＝＝＝＝＝＝＝＝＝博報堂テクノロジーズの事業ドメインは日々進化しています。Web3.0、メタバース、ブロックチェーンといったテクノロジードリブンに加え、広告、メディア、フルファネルマーケティングといった自社ビジネスドメインの軸、各業種別のDXといった得意先ビジネスドメインの軸、これらを掛け合わせ、互いに交差し合い相乗効果となって、様々なサービス・プロダクトを生み出しています。 ■ AI技術を駆使して広告の運用を究極まで最適化する「AI領域」　　　広告におけるAIの研究開発からプロダクトの実装までを行っています。具体的には、運用型広告の入札・メディア間のアロケーションをAIによって自動最適化するプロダクトの開発、あるいは広告クリエイティブ（コピーやバナーなど）の効果予測や自動生成の実現などが挙げられます。 AIのエンジン部分からアプリケーションまでフルスクラッチで開発しており、広告業界に対しユニークなプロダクト・技術を打ち出しています。 ■ 生活者インターフェース市場における新たな価値創出する「マーケティングDX領域」テクノロジーの進化により、生活者一人ひとりの生活課題や家族の課題、その背景にある社会課題など、生活者のニーズの把握を行い「生活者インターフェース市場」として、新たな価値創造・提供を行うべく取り組んでいます。生活者に必要なサービスの開発・提供を前提に、営業やマーケティング担当と共にサービス設計から加わり、Webアプリケーション、スマホアプリ、LINEミニアプリ、デスクトップアプリ等の開発を中心にサービス横断での認証基盤やライブラリ開発、インフラ構築、保守運用まで全て内製体制で行っています。 ■ 広告メディアビジネス次世代型モデル"AaaS"の実現「メディアDX領域」博報堂ＤＹグループは、広告産業のDXとして、広告メディアビジネスの次世代型モデル「AaaS（Advertising as a Service）」を掲げ、広告領域のイノベーションを推進しています。従来の「広告枠」を売り物としたビジネスから、データ☓システム☓アルゴリズム☓人による、広告主の事業貢献である「効果」を売り物としたビジネスへと脱却することで、広告の「サービス化」を目指しています。 ■ グループIT基盤、基幹システムの刷新を推進する「情報システム領域」博報堂ＤＹグループの業務支援・会計など基幹システムや業務で使用するPC、スマホ、ネットワーク、各種コミュニケーションツール等IT環境の提供・整備、および情報セキュリティ対策など、グループITガバナンスの推進を担当しています。グループの成長を支える変革に、現在、スピード感を持ちながら取り組んでいます。

フォロー

株式会社博報堂テクノロジーズからお誘い

この話題に共感したら、メンバーと話してみませんか？