東京都立川市のシステム開発会社 株式会社コンフィック ブログ

お客様の業務効率化や教育環境を整備するシステムを開発・運用しています。

文書データから用語抽出

2017年02月14日 23時39分05秒 | データ変換

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,各種文書作成のためのシステムやツールを開発・運用しています。

文書データの内容を分析や傾向を確認する方法の一つとして,形態素解析により,用いられている用語を抽出する方法があります。
大量の文書データから,用語を抽出し,用いられている用語の出現数や出現分布などを確認すると,文書のカテゴリ分類や,年代による用語の使われかたなどがわかります。

抽出された用語をさらに辞書化することや,利用頻度の少ない用語を索引用語候補として用いることなどにも有効です。
さらにどの文書からその用語が抽出されたのかのデータを保持し,類語と紐づけを行うことで,高度な検索機能を実装することにもつながります。
文書のデータベース化や用語抽出のためには,形態素解析の辞書をチューニングすることも必要です。

お客様の文書に応じて必要なツール開発や業務効率化のためのご提案をいたします。
お気軽に株式会社コンフィックまでご相談ください。


【関連記事】株式会社コンフィックの「形態素解析」をテーマにしたブログ一覧




システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック http://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。





最新の画像もっと見る