京都大学 / 経済学研究科経済学専攻
Comparative Study of Text Classification Techniques on Chinese Social Media Data for Stock Sentiment Analysis(中国のソーシャルメディアデータにおける株式センチメント分析のためのテキスト分類技術の比較研究)
私の研究テーマは、GUBAという金融フォーラムから得られた中国語のテキストデータに対するセンチメント分析です。この研究では、データセット内で最も優れた性能を発揮する手法を見つけるため、様々な手法を用いて比較分析を行っています。 まず、絵文字を含むデータセットと含まないデータセットの両方で、各手法のセンチメント分類の精度を比較しました。その結果、テキストデータに絵文字が含まれていると、データセットのセンチメント認識の精度が向上することが示されました。 次に、感情辞書(Sentiment Dictionary)に基づく手法については、分類の精度向上のために感情辞書の構築方法を改善しました。既存の文献を参考に、複数の単一感情辞書を統合し、比較的大規模な辞書を作成しました。同時に、Skip-gramとSO-PMIを用いて作成した拡張辞書の精度を比較し、分類におけるその有効性を検証しました。 さらに、異なる感情分類手法の比較から見ると、感情辞書に基づく手法は理解しやすいが、その精度は完全に辞書の構築に依存していて、感情辞書のスタイルや領域が不適切だと精度が急激に低下します。一方、BERTモデルにfine-tuningを行うことで金融分類タスクに適応させ、感情辞書よりも少ない前処理作業が必要で、人間の作業を一部節約できることが明らかになりました。これらの結果は、感情分析の手法選択において重要な示唆を提供します。