2015年11月28日土曜日

KH Coderでテキストマイニングをする

テキストデータを統計的に分析できるフリーソフトウェアKH Coderでテキストマイニングをする機会があったので、KH Coderを動かしてみるまでの手順をまとめる。

・必要なもの
-Windows PC(KH CoderにはMac版、Linux版もあるがここではWindows版を使用する)
-Excelなどのxlsやcsv形式ファイルを開ける表計算ソフトウェア

・インストール
1.以下のKH Coderホームページからパッケージ版をダウンロード。

2.ダウンロードしたファイルをダブルクリック。

3.開いたポップアップ画面で「unzip」をクリック。「unzui successfully」のメッセージが表示されたら解凍完了で、c:\khcoderにファイルが解凍される。ポップアップウィンドウは「close」をクリックして閉じる。

4.c:\kh_coder.exeを実行するとKH Coderが起動する(デスクトップにショートカットを作成しておくと便利)。

・分析テキストデータの準備
新聞記事、アンケートの自由回答、小説など、さまざまなテキストデータを分析可能。ここではKH Coderのインストールファイルに含まれているc:\khcoder\tutorial_jp\kokoro1.txtを使用して分析を試す。kokoro1.txtは青空文庫で公開されている夏目漱石の「こころ」。

・テキストデータの読み込みから分析結果の出力まで
1.[プロジェクト]>[新規]で以下の画面が開くので、[参照]ボタンをクリックして分析するテキストデータを指定し(ここではc:\khcoder\tutorial_jp\kokoro1.txt)、[OK]ボタンを押す。

2.[前処理]>[分析対象ファイルのチェック]で分析するテキストデータに不備がないかチェックする。


3.テキストデータに不備がなければ[前処理]>[前処理の実行]で前処理を実行する。この処理には時間がかかる。完了すれば分析結果を出力する準備が完了したことになる。

4.KH Coderではさまざまな分析に対応しており、その中から、分類した語の出現数の集計結果を出力するには、[ツール]>[抽出語]>[抽出語リスト]>[OK]でリストがxls形式で開く。     

5.もうひとつの出力例として、階層的クラスター分析の結果を出力する。[ツール]>[抽出語]>[階層的クラスター>[OK]で、階層的クラスターが表示される。

KH Koderでは他にも共起ネットワーク、自己組織化マップなどさまざまな分析に対応していて、詳細は[ヘルプ]>マニュアル(PDF)やc:\khcoder\khcoder_tutorial.pdfに説明がある。

0 件のコメント:

コメントを投稿