テキストマイニングにおける洗浄の注意点(2)
テキストマイニングにおいては、曖昧な感情表現も顧客のニーズを知るための重要な要素です。商品の良くない点について「悪い」とはっきりと書いてあれば良いのですが、日本語では「あまり好きではない」「気に入らない」など曖昧な表現も多く用いられます。これらを置き換えるときに、「悪い」なのか「まあまあ良い」なのかで結果は大きく変わってきます。実際の分析ではこのような感情表現にも細かい注意を払う必要があるのです。
トラックバックURL:
テキストマイニングにおいては、曖昧な感情表現も顧客のニーズを知るための重要な要素です。商品の良くない点について「悪い」とはっきりと書いてあれば良いのですが、日本語では「あまり好きではない」「気に入らない」など曖昧な表現も多く用いられます。これらを置き換えるときに、「悪い」なのか「まあまあ良い」なのかで結果は大きく変わってきます。実際の分析ではこのような感情表現にも細かい注意を払う必要があるのです。
トラックバックURL:
テキストマイニングの難しい点は、テキストの洗浄にあるといわれています。特に様々な表現を用いる日本語では洗浄に厳しいルールを設けなければ、単語の抽出が非常に難しくなるからです。例えば、「妻」という単語。英語では「Wife」と簡潔ですが、日本語では「女房・相方・奥さん・・・」というように様々な表現方法があります。これらを統一させるルールを設けた洗浄方法でなければ、精度の高い抽出は実現できません。
トラックバックURL:
テキストマイニングに取り掛かるには、集めた情報をそのまま利用することは出来ません。まずは、「テキストの洗浄」と呼ばれる作業を行う必要があります。テキストの洗浄とは、自由に書かれた文章の中から、テキストマイニングに利用できる単語を高い精度で抽出する作業のことです。曖昧な表現や、流行語、表記ゆれなどは文章中に頻出していますので、これらを捨てしまうことなくテキストマイニングに活用するための作業です。
トラックバックURL:
テキストマイニングでは、まずは分析の対象となる単語が必要となります。最も一般的に利用されるツールとしては「顧客へのアンケート」が挙げられます。この他にもサポートセンターに寄せられる質問や意見ハガキへの記入欄などもテキストマイニングに活用することが出来る重要な情報収集のツールです。ホームページ上に設置した掲示板からも、テキストマイニングに必要な単語の情報を収集することが出来ます。
トラックバックURL: