テキストマイニング
テキストマイニングをご存知だろうか? ある長文の文書について、出現する単語の種類・出現頻度・単語同士の関連度・などを統計的に解析して、どのよとうな文書であるのか知る手法である。KH CODERという現在はまだフリーで使用できるソフトウェアがある。
HK CODER Version 3
概況
開発者による活発なセミナーが行われている(2020/3現在)
社会調査のための計量テキスト分析と実践に必要なソフトウェアの開発
目的
使用目的は、色々考えられる。小説の内容について学術的に分類することも可能だろう。
今回、バイオの専門的な特許についてどのような内容が書かれているのか、どのような情報なのかデータマイニングをしたいと考えた。
具体的なアウトプット
具体的なアウトプットとして、キーワードによる検索結果から集めた多数の特許文献から、自分が必要としてい内容が記載された特許を選別するというアウトプットについて考える。
具体的な手順は、以下の通りである。
- 多数の実際に特許内容を詳細に確認する前に、まず、このテキストマイニングによって、すべての特許文献を処理する
- 解析することで出力される関連図から、出現するワードの頻度と、そのワード間の関連性を理解する
- その中から、どの特許文献が、自分にとって必要な情報が記載された特許なのかの基準で選別する
- あとは、選別した特許について、詳細に確認していく
使い方
操作方法の概要
- 新規プロジェクトの作成でファイルを指定する
- 入力ファイル
- これまでは、textファイルであった。
- 2020/03現在、入力ファイルはエクセルになっている
- エクセルには、1文章1行に整えていく必要があるようだ。
- 世の中には、PDFファイルが多いし、特許検索サイトで取得できる特許文献のフォーマットは、PDFなので、PDFの入力に対応して欲しいと思う。
- 入力ファイル
- 前処理
- 統計結果の表示
使用感
入力した文書の解析結果は、単なる数値の羅列だけではなく連関図などを駆使した出力が多数用意されている。
出現頻度の高い単語は大きなサークルで描かれる。更に、その単語に強く関連する他の単語が線で結ばれる。このような関連性を持つ複数のクラスターとして、一画面に表示される。
クラスター間の優劣や、クラスター内の関連性が一目瞭然に把握できる。
感性が騒ぐ感覚になるほど、分析結果を見て驚きを隠せなかった。
編集履歴 2019/12/19 はりきり(Mr) 2020/03/07 追記 (使用感、概況) 2020/07/11 文言整備 2020/12/05 追記 (具体的なアウトプット)