カテゴリー
IT KNOWLEDGE patent

KH CODER – テキストマイニング – 特許文献の内容を短時間で理解するために使う – ID4553 [2020/12/05]

KH CODER – テキストマイニング – 特許文献の内容を短時間で理解するために使う – ID4553 [2020/12/05]

テキストマイニング

テキストマイニングをご存知だろうか? ある長文の文書について、出現する単語の種類・出現頻度・単語同士の関連度・などを統計的に解析して、どのよとうな文書であるのか知る手法である。KH CODERという現在はまだフリーで使用できるソフトウェアがある。

スポンサーリンク: ID6183593457

HK CODER Version 3

スポンサーリンク: ID4219953367

概況

開発者による活発なセミナーが行われている(2020/3現在)

KH CODER サイト

社会調査のための計量テキスト分析と実践に必要なソフトウェアの開発

目的

使用目的は、色々考えられる。小説の内容について学術的に分類することも可能だろう。

今回、バイオの専門的な特許についてどのような内容が書かれているのか、どのような情報なのかデータマイニングをしたいと考えた。

具体的なアウトプット

具体的なアウトプットとして、キーワードによる検索結果から集めた多数の特許文献から、自分が必要としてい内容が記載された特許を選別するというアウトプットについて考える。

具体的な手順は、以下の通りである。

  1. 多数の実際に特許内容を詳細に確認する前に、まず、このテキストマイニングによって、すべての特許文献を処理する
  2. 解析することで出力される関連図から、出現するワードの頻度と、そのワード間の関連性を理解する
  3. その中から、どの特許文献が、自分にとって必要な情報が記載された特許なのかの基準で選別する
  4. あとは、選別した特許について、詳細に確認していく

使い方

操作方法の概要

  • 新規プロジェクトの作成でファイルを指定する
    • 入力ファイル
      • これまでは、textファイルであった。
      • 2020/03現在、入力ファイルはエクセルになっている
    • エクセルには、1文章1行に整えていく必要があるようだ。
    • 世の中には、PDFファイルが多いし、特許検索サイトで取得できる特許文献のフォーマットは、PDFなので、PDFの入力に対応して欲しいと思う。
  • 前処理
  • 統計結果の表示

スポンサーリンク: ID6183593457

使用感

入力した文書の解析結果は、単なる数値の羅列だけではなく連関図などを駆使した出力が多数用意されている。

出現頻度の高い単語は大きなサークルで描かれる。更に、その単語に強く関連する他の単語が線で結ばれる。このような関連性を持つ複数のクラスターとして、一画面に表示される。

クラスター間の優劣や、クラスター内の関連性が一目瞭然に把握できる。

感性が騒ぐ感覚になるほど、分析結果を見て驚きを隠せなかった。

編集履歴
2019/12/19 はりきり(Mr)
2020/03/07 追記 (使用感、概況)
2020/07/11 文言整備
2020/12/05 追記 (具体的なアウトプット)

用語の解説リンク、関連投稿および広告

GNU

…end

patent

[特許関連/記事紹介] 新型コロナウイルスに関する特許の概説記事から – ID15052 [2020/05/02]
[特許] クレーム内容を理解するために文献レビュー —「対象発明の理解を通じたクレーム作成方法の提案、そしてその応用」、パテント (2013),Vol.66, No.13 – / Udemyのオンライン・ビデオ講座 で完結する – ID13101[2020/11/29]
[Patent] アメリカの特許法は2011年からやっと先発明主義から先願主義になった – ID7979 [2020/01/25]
[kw] 特許の流れ
[用語] 公開特許公報

…end

テキスト

…end

マイニング

…end

特許調査

…end

スポンサーリンク ID 7130582967

- 以下のツールに敬意を示します -
Support to AMP (Accelerated Mobile Pages) by official AMP plugin for WordPress, and compatible powered by
Post viewing : Flex Posts - Widget and Gutenberg Block