東京都立川市のシステム開発会社 株式会社コンフィック ブログ

お客様の業務効率化や教育環境を整備するシステムを開発・運用しています。

機械学習のためのデータ事前処理

2020年10月13日 23時41分35秒 | データ変換

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,文書データを中心とした大量データ処理やデータベース構築のサービスを行っております。

文書データのデータベース化のご依頼とともに,近年,機械学習のためのデータを前処理してほしいといったご依頼が増えています。
既存文書を構造解析することや,形態素解析により単語抽出することなど,お客様の文書種類やその後の機械学習処理の用途に応じたデータ加工を行っております。
株式会社コンフィックでは,紙媒体からのデータ化について,多くの経験を有しています。
百数万ページの紙媒体のテキスト化や,マイクロフィルムからのテキスト化や,その後のマークアップ,データベース構築,システム開発までの経験から,お客様の文書データを最適なデータ形式に構築し,さらに用途に応じてデータ処理を行います。

お客様のデータ資産を活用するご提案をいたします。
お気軽に株式会社コンフィックまでご相談ください。


【関連記事】株式会社コンフィックの「機械学習」をテーマにしたブログ一覧




システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック https://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。





  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

OCRとXML

2020年09月29日 23時15分01秒 | XML

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,データ作成・データベース化のサービスを行っています。

紙媒体で保管されている情報を電子データ化する際,スキャンしたPDFとするだけではなく,OCRを行い,XMLまで処理を行うことで,よりデータを活用することが可能です。
株式会社コンフィックでは,数万ファイルのOCR処理を経験したスタッフが,お客様のデータ化のコンサルティングから実作業まで対応します。
OCRを行う際,認識率を向上するために,紙媒体の年代によるOCR認識辞書の作成や,旧字体の置き換え,などその後の用途に応じたご提案をいたします。
さらにテキスト化だけではなく,文書に応じたマークアップをすることにより,より汎用性の高いデータになります。
紙媒体だけではなく,マイクロフィルムからのOCRなども経験したスタッフの経験から,最適なデータ作成フローのご提案をいたします。

データ作成をご検討中の方は,サンプルを送付いただければ,ご提案いたします。
株式会社コンフィックまでご相談ください。


【関連記事】株式会社コンフィックの「コンサルティング」をテーマにしたブログ一覧




システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック https://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。





  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

正確なデータの作成

2020年06月28日 23時48分09秒 | データ変換

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,データ作成,データベース構築のサービスを行っております。

書籍や,文書のデータ化は,その文書構造定義はもちろん,テキスト化の内容や仕様についてもお客様と相談の上行います。
作成したデータをどのように用いるのか,データポリシーの策定からお手伝いいたします。
古い文書の場合,その字体やフォントにより,同じ文字でも異なる表示をする必要があるものや,文字を代替する必要があるものが出てきたりします。
できる限り正確な文字を選択し,データ化することは,データ化のルールや作業者の経験も必要です。

さらに文書には,参照情報や,手書きによるコメントが入っているものなどもあり,それが重要な場合もあります。
どの範囲までデータ化するのか,それはどのように表現するものなのかを含め,お客様と検討をいたします。
永続的に利用可能なデータとするためには,最初の仕様検討がとても重要です。

株式会社コンフィックでは,多くのデータ化実績から,最適なご提案をいたします。
お気軽に株式会社コンフィックまでご相談ください。
なお,現在テレワークを実施しているため,お電話に出ることができない場合があります。
お問合せフォームよりご連絡いただければ,担当者より折り返しのご連絡をいたします。


【関連記事】株式会社コンフィックの「データ作成」をテーマにしたブログ一覧




システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック https://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。





  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

電子書籍化

2020年02月03日 23時29分29秒 | XML

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,XML技術を用いて,データ作成やデータベース構築のサービスを行っております。


近年の書籍は,電子書籍と紙媒体と両方作成しているものがほとんどですが,従来の紙媒体で出版された書籍を再度電子書籍化してみてはいかがでしょうか。
書籍の電子化方法は様々ですが,紙媒体の書籍をスキャンしてPDF化しただけの電子化では,検索性が低く,利用者の満足度も上がらない場合があります。やはり,すべてテキスト化し,利用者を想定したファイル形式に変換の上,公開していくことが望ましいと思います。
電子書籍のファイル形式は,PDFへ自動組版することや,HTML,ePubなど様々ありますが,元データとしてマークアップされたXML形式のデータを作成することで,汎用的に活用が可能です。

株式会社コンフィックでは,紙媒体からの電子化やデータベース化,データ変換のツール開発など,ご要望に応じて開発をいたします。
データ活用のご提案もいたします。
お気軽に株式会社コンフィックまでご連絡ください。


【関連記事】株式会社コンフィックの「電子書籍」をテーマにしたブログ一覧




システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック https://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。





  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

紙媒体からXMLデータに

2020年01月14日 23時13分07秒 | XML

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,XML技術を用いてデータ作成・データベース構築のサービスを行っております。

既存データのXML化やデータベース化のご相談を多くいただきますが,その中で一部の書類については,紙媒体のみ残っていて,電子データが無いがこの情報も同じようにデータベース化したいといったご要望も良くいただきます。

紙媒体からのXMLデータ化は,その書類内容により作業プロセスが異なりますが,多くの場合には,OCR処理の上テキスト化し,そのテキストに対してマークアップする方法を行います。
一連の作業をテストし,データ精度の向上や作業効率を向上させるために,OCRの認識辞書を作成したり,マークアップ専用ツールによりテキスト変換する場合もあります。

できるだけ安価に正確なデータを作成するために,専用の作業用ツールや環境を整備の上,作業を進めます。
現在紙媒体やスキャンした画像PDF,マイクロフィルムで保管されている書類をXML化してみませんか。
いくつかのサンプルをご提示いただければ,最適なデータ化のご提案をいたします。
お気軽に株式会社コンフィックまでご連絡ください。


【関連記事】株式会社コンフィックの「専用ツール」をテーマにしたブログ一覧




システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック https://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。





  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

ブラウザで表示できない外字を画像化

2019年11月30日 23時04分47秒 | データ変換

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,データ作成・データベース構築のサービスを行っております。

古い書籍などの電子データ化は,その当時の字体をブラウザでテキスト表示することが困難な場合があります。
外字と呼ばれるそれらの旧漢字などは,検索のために代替え文字にすることが多いと思います。
ですが,原本性が重要視される書籍や,人名や地名など,代替え文字を利用すると支障の出るものについては,インライン画像にて対応をすることが多くあります。
そのような場合には,テキストではないため,検索にヒットさせるためには工夫が必要です。
代替え文字と画像を切り替える方法や,画像の属性に代替え文字を入れておくなど,内容に応じて対応する必要があります。

株式会社コンフィックでは,多くのデータ処理の経験から,対象となる書籍や文書など,最適なデータ化のご提案をいたします。
テキスト化だけではなく,マークアップを行い,より活用可能なデータを構築いたします。

データ化やデータベース化をご検討中の方は,お気軽に株式会社コンフィックまでご相談ください。


【関連記事】株式会社コンフィックの「データ化」をテーマにしたブログ一覧




システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック https://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。





  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

音声のテキスト化

2019年10月31日 23時29分13秒 | データ変換

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,データ作成・データベース構築の作業を行っております。

データ作成は,その基となる媒体が紙である場合が多かったのですが,最近では音声をテキスト化したいといったご相談をよくいただくようになりました。
音声をテキストデータ化する際,従来は人が音声を聞き,入力していましたが,最近は音声認識技術も高まり,音声を直接テキスト化処理できるようになりました。
無償のテキスト化ツールも多くありますので,そのようなツールを用いてテキストデータ化を行ってみてはいかがでしょうか。
人の話し言葉のデータベースは多くありますが,その中でも国会会議録のデータは,話し言葉のデータベースとしては,かなり大量のテキストデータです。
株式会社コンフィックでは,この国会会議録のデータ化作業の経験のあるスタッフが,お客様のデータ作成をお手伝いいたします。
大量データの処理やデータベース化をお考えの方は,お気軽に株式会社コンフィックまでご相談ください。


【関連記事】株式会社コンフィックの「テキスト化」をテーマにしたブログ一覧




システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック https://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。





  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

多言語OCRと文字コード

2019年09月19日 23時34分00秒 | データ変換

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,データ変換,データベース構築のサービスを行っております。

紙媒体からの電子データ変換は,OCRを用いて画像認識後に校正する方法が一般的です。
日本語だけではなく,多言語のOCR処理もOCRソフトウェアの精度が上がり,多種のデータを作成できるようになりました。
テキスト化では,その認識後の整形ルールや代替文字のルールを事前に決めておく必要がありますが,それは日本語だけではなく,多言語の場合も同様です。
多言語のテキストデータを作成する際には,その文字コードにも注意が必要です。
文字コードにより,文字の表示が変わってしまう場合も多くあります。
テキスト化したそのデータをどのようにその後利用するのかにより,最適な文字コードを選択することが重要です。

株式会社コンフィックでは,将来的な用途や拡張性を考慮し,テキスト化だけではなく,そのテキストのデータベース化やマークアップのサービスも行っております。
紙媒体をデータ化し,情報公開や業務に活用可能してみませんか。
お客様のご要望に応じたデータ活用方法のご提案をいたします。
お気軽に株式会社コンフィックまでご相談ください。


【関連記事】株式会社コンフィックの「OCR」をテーマにしたブログ一覧




システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック https://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。





  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

古書のテキスト化

2019年06月15日 23時02分11秒 | データ変換

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,紙媒体からのテキスト化,マークアップ,データベース化のサービスを行っております。

古書などをテキスト化する際には,旧字体をどのように処理するのかをお客様とともにルール化することが重要です。
直近の用途だけではなく,将来的にそのデータをどのように利活用するのかを検討し,データ化する必要があります。
できる限り情報が欠落することなく,原本に忠実にテキスト化することも重要です。

テキスト化だけではなく,その後多くの用途でデータ活用できるように,その文書に応じたマークアップをしておくことをお勧めしています。
古書は,その文書構造が確立していないものも多くあります。
それらをどのようにマークアップするのかは,経験が必要です。

株式会社コンフィックでは,多種,大量データのマークアップやデータベース化の経験があります。
作業対象の古書の特性を活かしたデータ作成をご提案いたします。
お気軽に株式会社コンフィックまでご相談ください。


【関連記事】株式会社コンフィックの「マークアップ」をテーマにしたブログ一覧




システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック https://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。





  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

パンチ入力とOCR

2019年05月21日 13時49分45秒 | データ変換

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,データ作成・データベース構築のサービスを行っております。

紙媒体から電子データにする際には,OCRを用いて画像を認識し,テキスト化することが多く行われています。
OCRの精度は,元の画像に依存するため,OCR結果を人が見てチェックする必要があります。
精度を高める方法として,OCRだけではなく,人が入力(パンチ入力)を行い,OCRの結果と人が入力した結果を比較し,確認する方法もあります。
テキスト化の予算とデータ精度により,どのように処理するのが最適なのかをご提案いたします。

大量のデータ入力や,データ処理の際には,作業フローを確立し,チェック方法もそのデータに合わせて検討する必要があります。
株式会社コンフィックでは,多くのデータ加工の経験から,作業フローを確立の上,対応いたします。
データ化でお困りのことがございましたら,お気軽に株式会社コンフィックまでご連絡ください。

【関連記事】株式会社コンフィックの「OCR」をテーマにしたブログ一覧




システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック https://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。





  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする