テキストマイニングの手法・マッピング分析
テキストマイニングではマッピングと呼ばれるビジュアルで単語の分析を行う手法が用いられています。単語の出現頻度のデータやコレスポンデンス分析で求められた関連性を2次元で表し、ビジュアル的に分かりやすく表現する手法です。点在するデータのポイントが近いほど関連性が深く、テキスト分析の結果を誰が見ても分かりやすく表現することが出来るため、テキストマイニングでは欠かせない分析・表現手法になっています。
トラックバックURL:
テキストマイニングではマッピングと呼ばれるビジュアルで単語の分析を行う手法が用いられています。単語の出現頻度のデータやコレスポンデンス分析で求められた関連性を2次元で表し、ビジュアル的に分かりやすく表現する手法です。点在するデータのポイントが近いほど関連性が深く、テキスト分析の結果を誰が見ても分かりやすく表現することが出来るため、テキストマイニングでは欠かせない分析・表現手法になっています。
トラックバックURL:
コレスポンデンス分析はテキストマイニングにおいては一般的に用いられている分析手法です。多変量解析の一種でテキストの出現頻度を数値化した結果を元に複数の分類項目の類似性や関係の深さを調べる場合に用います。例えば、「夫」というキーワードを使う回答者は30代以上の女性が多く、「夢」というキーワードを使う回答者は20代~30代の男性が多い。このように回答者の属性とキーワードの関連性を求めることが出来ます。
トラックバックURL:
テキストマイニングでは抽出した単語の分析の前に、単語の関連性を調査することも大切です。バスケット分析と呼ばれる、データマイニングの手法にならって関連性を見出す手法が多く用いられています。バスケット分析とは、同じカゴに物を入れるパターンを分析するもので、関連付けて使用される頻度の高い単語を分析するものです。主語と述語の係り受けなども関連性があると定義付けて、関連性を見出すことが出来ます。
トラックバックURL:
テキストマイニングに入る前にテキストの洗浄を前準備として行います。精度の高い抽出(洗浄)を行ったテキストは非常に信頼性が高いので、これらをまず数値化して分類します。テキストの数値化とは、出現頻度を数値で表すもので、出現頻度をカウントしグラフなどのツールを使ってビジュアル化します。質問内容が簡易な場合、頻度の高いテキストについてはこのグラフだけでもある程度の法則を見出すことが出来ます。
トラックバックURL: