テキストマイニングの前準備

テキストマイニングに入る前にテキストの洗浄を前準備として行います。精度の高い抽出(洗浄)を行ったテキストは非常に信頼性が高いので、これらをまず数値化して分類します。テキストの数値化とは、出現頻度を数値で表すもので、出現頻度をカウントしグラフなどのツールを使ってビジュアル化します。質問内容が簡易な場合、頻度の高いテキストについてはこのグラフだけでもある程度の法則を見出すことが出来ます。