カテゴリー: ICT

  • KH CODER – テキストマイニング – 特許文献の内容を短時間で理解するために使う – ID4553 [2020/12/05]

    KH CODER – テキストマイニング – 特許文献の内容を短時間で理解するために使う – ID4553 [2020/12/05]

    テキストマイニング

    テキストマイニングをご存知だろうか? ある長文の文書について、出現する単語の種類・出現頻度・単語同士の関連度・などを統計的に解析して、どのよとうな文書であるのか知る手法である。KH CODERという現在はまだフリーで使用できるソフトウェアがある。

    HK CODER Version 3

    概況

    開発者による活発なセミナーが行われている(2020/3現在)

    KH CODER サイト

    社会調査のための計量テキスト分析と実践に必要なソフトウェアの開発

    目的

    使用目的は、色々考えられる。小説の内容について学術的に分類することも可能だろう。

    今回、バイオの専門的な特許についてどのような内容が書かれているのか、どのような情報なのかデータマイニングをしたいと考えた。

    具体的なアウトプット

    具体的なアウトプットとして、キーワードによる検索結果から集めた多数の特許文献から、自分が必要としてい内容が記載された特許を選別するというアウトプットについて考える。

    具体的な手順は、以下の通りである。

    1. 多数の実際に特許内容を詳細に確認する前に、まず、このテキストマイニングによって、すべての特許文献を処理する
    2. 解析することで出力される関連図から、出現するワードの頻度と、そのワード間の関連性を理解する
    3. その中から、どの特許文献が、自分にとって必要な情報が記載された特許なのかの基準で選別する
    4. あとは、選別した特許について、詳細に確認していく

    使い方

    操作方法の概要

    • 新規プロジェクトの作成でファイルを指定する
      • 入力ファイル
        • これまでは、textファイルであった。
        • 2020/03現在、入力ファイルはエクセルになっている
      • エクセルには、1文章1行に整えていく必要があるようだ。
      • 世の中には、PDFファイルが多いし、特許検索サイトで取得できる特許文献のフォーマットは、PDFなので、PDFの入力に対応して欲しいと思う。
    • 前処理
    • 統計結果の表示

    使用感

    入力した文書の解析結果は、単なる数値の羅列だけではなく連関図などを駆使した出力が多数用意されている。

    出現頻度の高い単語は大きなサークルで描かれる。更に、その単語に強く関連する他の単語が線で結ばれる。このような関連性を持つ複数のクラスターとして、一画面に表示される。

    クラスター間の優劣や、クラスター内の関連性が一目瞭然に把握できる。

    感性が騒ぐ感覚になるほど、分析結果を見て驚きを隠せなかった。

    編集履歴
    2019/12/19 はりきり(Mr)
    2020/03/07 追記 (使用感、概況)
    2020/07/11 文言整備
    2020/12/05 追記 (具体的なアウトプット)
  • IT、いまはICT – コンピータとの出会いの切っ掛けは工業高校での熱心な先生 [2019/12/09]

    IT、いまはICT – コンピータとの出会いの切っ掛けは工業高校での熱心な先生 [2019/12/09]

    ID4144

    はじめに

    IT (Information Technology)は、使用する者の能力を上げてくれる甲冑と剣、外部の脳、などになるとの認識をずっと抱いています。高校生の時に、先生の好意で、授業外でFORTRANのプログラミングを教えてもらったことがあります。if-thenとかelseとかあったと思います。FORTRANは科学技術計算に使用され、一方、COBOLは事務計算に使用されていました。使用できるデータ型が、それぞれ、小数点計算が得意かどうかの違いだったのではないかと思います。FORTRANを実行させるためには、そのプログラムをコンピュータに入力するのですが、紙に穴を開けたパンチカードで入力する時代です。

    今は、Network/SNSなども含めてICT(Information Communication Technology)と言われています。

    1980年代

    会社では、MSXパソコン、シャープのX68000で、Z80マシン語、BASIC、C言語でプログラミングしてました。これらは、一般ではゲーム機の認識ですが、僕はプログラムをしたくて触っていました。MSXパソコンは、当時、仕事で得た実験データの取込みと解析に使っていました。解析ソフトはBASICでしたが、改良をしながらBASICを勉強しました。MSXは誰でもその仕様を使える共通仕様が公開されていました。内部仕様が解説された書籍は、散々購入してプログラミングに使用しました。

    その後、IBMパソコンを会社で触っていましたが、IBM互換機が出始めて、IBM互換機を自作をしたりしました。今では、IBMパソコンが無くなったため、IBM互換機とは言いませんね。この時期まで、パソコン雑誌を散々買って読み漁っていました。MSX関連では、”Hit Bit”、”MSXマガジン”、PC関連では、”パソコンマガジン”、”インターフェース”、・・・(思い出したら追加します)

    1990年代

    メカトロニクスにも興味があり、ワンボードマイコンに拡張ボードを解けて、RS-232C通信でMSXパソコンとデータのやり取りをしたり、リレーボードをつけて、機器のオンオフ制御をしたり、AD/DA変換ボードをつけて、アナログデータの出力/入力をしたりしするマシン語プログラムも作ったりしてました。

    一番大掛かりな装置を組んだのは、分かる人しかわからないのですが、UF/DFの濃縮を自動制御するマシンと制御プログラムです。機会があれば、blogでも紹介したいとおもっています。

    2000年代

    ファクトリーオートメーションのコントローラーは、シーケンサーと呼ばれます。このプログラミング言語は、ラダープログラムと言います。昔は、これを使用したプログラムも散々しました。センサー、リレーを使って、機器の自動制御が可能です。

    2010年代

    今では、iPadやSurface、NASにも手を出してblogなぞもしています。自前のNASでのblog管理にはネットワークの知識が必要です。ぼちぼちですが、必要に迫られては知識習得しています。

    ゲーム機

    ゲーム機といえば、任天堂ファミコンは色々なゲームに、セガサターンは当時F1全盛期でF1レースゲームがやりたくて、それ以降はなくて、任天堂Wiiはピクミンがやりたくて、Wii Uはスプラトゥーン、最近では任天堂Switchはスプラトゥーン2がやりたくて購入しました。スプラトゥーン2は、ラストフェスが終わってかよは、古参は居なくなってしまい、僕もいつまでもやっていてもむなしい感じがしてきたので、やめました。でも、スプラトゥーンは楽しかった。

    こらからも

    高校生の頃に自動で何かを計算するということに衝撃を覚えてから半世紀、自動化が僕の課題の1つなっています。

    編集履歴

    2019/12/09, Mr. Harikiri