This page is intended for users in Japan. Go to the page for users in United States.

オウンドメディアの記事をテキストマイニングしてみた

A.C.O. JOURNALの記事をテキストマイニングで分析したいと思います



web解析士の池野です。今回はちまたで話題のテキストマイニングツールを使い、A.C.O. JOURNALの記事を分析してみたいと思います。そのまえに、テキストマイニングとはなんでしょう? Wikipediaには以下のように記されております。

テキストマイニング(text mining)は、文字列を対象としたデータマイニングのことである。 通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。 テキストマイニング – Wikipedia

本来はビッグデータ活用で、SNSやユーザーアンケートなど大量の文字情報(定性データ)を分析するのに使われることが多い「テキストマイニング」の技術ですが、今回はメディアの記事を分析することで新たな発見ができないかという試みです。

分析には、以下の無料ツールを使用しました。

UserLocalテキストマイニング

サイトにアクセスして「解析したいテキストを入力」または「テキストファイルを解析」からファイルをアップロードすることでテキストデータを解析してくれます。また、Twitterアカウントの発言の解析もできるようです。

今回は文章中の出現パターンが似ているものを結んだ「共起ネットワーク」と、スコアが高い単語を複数選び出し、その値に応じた大きさで図示する「ワードクラウド」の2つについてみていきたいと思います。

文字色や背景の色はそれぞれ、青=名詞、赤=動詞、緑=形容詞です。一般的な単語は出現回数が多くなってしまう傾向があるため、重みを軽くする処理を行っており、その結果がスコアの値になっています。 文章で特徴的な単語(特徴語)ほどスコアが高くなるようです。

それでは、A.C.O. JOURNAL内で訪問数の多かった記事を対象に分析していきたいと思います。

  1. 【Vol.1 体力・お金編】フリーランスつらいよ座談会!モリジュンヤ×しおたん×ムラマツヒデキ
  2. 広告からみる、世界と日本のクリエイティブのちがい
  3. サイト調査にかかる時間を10分の1以下に削減する方法
  4. 社内ワークショップのプログラムを設計する面白さ
  5. A.C.O. Journal全体


【Vol.1 体力・お金編】フリーランスつらいよ座談会!モリジュンヤ×しおたん×ムラマツヒデキ


記事を見る モリジュンヤさん、しおたんさん、ムラマツヒデキさんのお三方に、フリーランスのホンネを語っていただきました。
Planning 安田翼、Writing 小山和之、Photo Shooting 足利森


・「フリーランスで働くつらさ」をテーマにしているため対応するキーワードの出現頻度も多くなっています。
・保険証というキーワードが頻出しています。フリーランスならではの社会保障制度の問題が話題に上がっているようです。
・ネガティブイメージの形容詞が割と多いのは生々しいです。
・「ツラ」が名詞として認識されていますがこれは「つらい」の形容詞ですね。文中ではカナ混ぜにしているのですが、うまく認識されないようです。

【POINT】
お酒を飲みながらの対談形式という事もあり、堅苦しい表現ではなく、「〜ちゃう」のような語尾や「思う」という口語が多くみられます。Googleアナリティクスで流入キーワードをみると「フリーランス x (キーワード)」や出演者の人名からの流入がみられ、記事内容とユーザーのマッチングは高いと考えられます。

広告からみる、世界と日本のクリエイティブのちがい



記事を見る

海外と日本の広告における思考の違いをリサーチしてみました。
Writing 葉 娸筠



・「広告」を軸に「日本」と「海外」の違いを記事にしているため、「日本」と「海外」から似た共起ネットワークのパターンが見られます。
・「消費者」というキーワードが頻出しているのには、①広告を見た②消費者が③どのように感じるのという文書構成を取っていることが理由と考えられます。
・文中に英語の文章もあるのですが、英語は全て名詞扱いになるなど、他言語はうまく認識されないようです。(流石にむずかしいですよね)

【POINT】
この記事の読者は主に日本の方が多いためか、日本のことは分かっているけれど、海外のことは知らなかったというギャップが多く生まれた記事なのではないかと思います。いいね数も他の記事よりも伸びており、共感されやすいポイントが見えてきた記事でした。 GoogleAnalyticsで流入キーワードをみると、タイトルに含まれる様な「広告」「日本」「世界」「ちがい」などのキーワードの組み合わせからの流入がみられました。

サイト調査にかかる時間を10分の1以下に削減する方法



記事を見る

サイト構造把握のためのツール、『Integrity Plus』をご紹介します。
Writing 堀 有吾



・ツールの使い方について客観的に紹介しているため、他記事と比べて形容詞の出現頻度が少ない傾向にありました。
・ツールを「使う」ことで「〜できる」「〜しやすい」といった文章の関係性がみられました。
・タイトルに含まる「サイト調査」という単語は一回しか使われておらず、文中ではサイト把握という表現が用いられていたので表現を統一することでSEO効果が見込めそうです。

【POINT】
専門性の高い内容でしたがwebディレクターからのいいね!が多く、特定ターゲットに対して強く共感をしてもらえた記事でした。

社内ワークショップのプログラムを設計する面白さ



記事を見る

社内でやってみた事例の紹介やワークショップのプログラムについて考えてみました。
Writing 渡辺 奈津



・「会議」をテーマにした記事だったためか、出現頻度も高く、34回も登場していました。
・「会議」からの共起ネットワークパターンも似たパターンが多く見られ、「会議の◯◯」といった内容を深掘りしている傾向が見られました。

【POINT】
GoogleAnalyticsの流入キーワードでは「ワークショップ x (キーワード)」の組み合わせが多く見られました。この記事はA.C.O. JOURNALの立ち上げ時からある記事ですが、ランディングページとして検索からの集客を継続的に集めています。

A.C.O. Journal全体

続けて、記事単体ではなくA.C.O. JOURNAL全体を分析してみました。


・名詞は「会社」「web」「仕事」が多く、A.C.O.のドメインに関わる単語が多かったです。メディアコンセプトにある「カルチャー」「ノウハウ」はランク外という結果に。
・動詞は「思う」「考える」などのライター自身の意見を伝える動詞が目立ちました。
・形容詞の上位はポジティブな意味合いのものが割合多かったです。個人的には「面白い」や「楽しい」などのキーワードがもっと含まれてもいいのでないかという印象でした。


テキストマイニングからわかったこと

私自身もテキストマイニングという視点から記事を分析することで、今まで気付かなかった傾向や、新たな発見がありました。ライターの文章の癖の発見や、重要キーワードの確認、SEO対策だけでなく、文章がユーザーに与える印象を把握するヒントになるかもしれません。

最後まで、お読みいただいた皆さんありがとうございました。今回紹介した記事についても、分析と合わせて読んでいただけると嬉しいです。

株式会社A.C.O.では一緒に働く仲間を募集しています
Anonymous
45ab7b18 909c 4ff3 92a0 e06b1dfc9280?1500454818
Picture?height=20&width=20
66a7ad29 a27c 4dd1 87a6 e254aefd278d
093979ba 1dc8 4f54 b98f 4ce0429b1a89
Picture?height=20&width=20
22 いいね!
Anonymous
45ab7b18 909c 4ff3 92a0 e06b1dfc9280?1500454818
Picture?height=20&width=20
66a7ad29 a27c 4dd1 87a6 e254aefd278d
093979ba 1dc8 4f54 b98f 4ce0429b1a89
Picture?height=20&width=20
22 いいね!

開発秘話

あのサービスはこうして生まれた。開発秘話特集

今週のランキング

ランキングをみる

Page top icon