2015年12月6日日曜日

KH Coderで分析対象語の取捨選択をする

KH Coderで分析するテキストデータは人の書いた文章であり、通常さまざま語が含まれるし、必ずしも調べたいことのみが記述されているとも限らない。つまりは、すべての語に注目していたら分析してもテキスト内容の傾向や特徴がつかめない。例えば「こと」や「する」などは日本語でよく使われる語なので出現数が多いが、これらの言葉は単体ではあまり意味がなく、 分析結果からはずしても傾向や特徴を読み取るのに支障はない。KH Coderでは指定した語を分析対象から外すことができる。以下はその手順。

1.分析対象から外す語のリストを作成する
1行に1語ずつ分析対象から外す語を記述したテキストファイルを作成する。例えば以下のようなテキストファイルを作成して保存する。

こと
する
もの
思う

2.KH Coderのメニューから語の取捨選択を開く
[前処理]>[語の取捨選択]で以下の画面を開き、「使用しない語の指定」の「ファイルから読み込み」をチェックして「参照」ボタンをクリックして、先に作成したテキストファイルを指定する。

[前処理]>[語の取捨選択]

ファイルが読み込まれると、画面に語のリストが表示される。

3.通常通り分析を行う


・分割された語をひとつの語として分析したい場合
KH Coderではテキストを自動で語単位に分割してくれるが、「日本」と「人」に別れた語を「日本人」という語の単位で分析したい場合などは、KH Coderの「強制抽出する語の指定」を利用する。方法は、語の取捨選択と同様にまず対象とする語のリストを記述した以下のようなテキストファイルを作成する。

日本人
内容分析

次にKH Coderのメニューから[前処理]>[語の取捨選択]で以下の画面を開き、「強制抽出する語の指定」の「ファイルから読み込み」をチェックして「参照」ボタンをクリックして、先に作成したテキストファイルを指定する。あとは通常通り分析を行うだけ。

0 件のコメント:

コメントを投稿