テキストマイニングにおける洗浄の注意点(1)
テキストマイニングの難しい点は、テキストの洗浄にあるといわれています。特に様々な表現を用いる日本語では洗浄に厳しいルールを設けなければ、単語の抽出が非常に難しくなるからです。例えば、「妻」という単語。英語では「Wife」と簡潔ですが、日本語では「女房・相方・奥さん・・・」というように様々な表現方法があります。これらを統一させるルールを設けた洗浄方法でなければ、精度の高い抽出は実現できません。
トラックバックURL:
テキストマイニングの難しい点は、テキストの洗浄にあるといわれています。特に様々な表現を用いる日本語では洗浄に厳しいルールを設けなければ、単語の抽出が非常に難しくなるからです。例えば、「妻」という単語。英語では「Wife」と簡潔ですが、日本語では「女房・相方・奥さん・・・」というように様々な表現方法があります。これらを統一させるルールを設けた洗浄方法でなければ、精度の高い抽出は実現できません。
トラックバックURL: