KH CODER – テキストマイニング – 特許文献の内容を短時間で理解するために使う – ID4553 [2020/12/05]

Post Views: 754

テキストマイニング

テキストマイニングをご存知だろうか? ある長文の文書について、出現する単語の種類・出現頻度・単語同士の関連度・などを統計的に解析して、どのよとうな文書であるのか知る手法である。KH CODERという現在はまだフリーで使用できるソフトウェアがある。

開発者による活発なセミナーが行われている(2020/3現在)

使用目的は、色々考えられる。小説の内容について学術的に分類することも可能だろう。

今回、バイオの専門的な特許についてどのような内容が書かれているのか、どのような情報なのかデータマイニングをしたいと考えた。

具体的なアウトプットとして、キーワードによる検索結果から集めた多数の特許文献から、自分が必要としてい内容が記載された特許を選別するというアウトプットについて考える。

具体的な手順は、以下の通りである。

操作方法の概要

入力した文書の解析結果は、単なる数値の羅列だけではなく連関図などを駆使した出力が多数用意されている。

出現頻度の高い単語は大きなサークルで描かれる。更に、その単語に強く関連する他の単語が線で結ばれる。このような関連性を持つ複数のクラスターとして、一画面に表示される。

クラスター間の優劣や、クラスター内の関連性が一目瞭然に把握できる。

感性が騒ぐ感覚になるほど、分析結果を見て驚きを隠せなかった。

編集履歴
2019/12/19 はりきり(Mr)
2020/03/07 追記 (使用感、概況)
2020/07/11 文言整備
2020/12/05 追記 (具体的なアウトプット)