東京都立川市のシステム開発会社 株式会社コンフィック ブログ

お客様の業務効率化や教育環境を整備するシステムを開発・運用しています。

OCRとXML

2020年09月29日 23時15分01秒 | XML

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,データ作成・データベース化のサービスを行っています。

紙媒体で保管されている情報を電子データ化する際,スキャンしたPDFとするだけではなく,OCRを行い,XMLまで処理を行うことで,よりデータを活用することが可能です。
株式会社コンフィックでは,数万ファイルのOCR処理を経験したスタッフが,お客様のデータ化のコンサルティングから実作業まで対応します。
OCRを行う際,認識率を向上するために,紙媒体の年代によるOCR認識辞書の作成や,旧字体の置き換え,などその後の用途に応じたご提案をいたします。
さらにテキスト化だけではなく,文書に応じたマークアップをすることにより,より汎用性の高いデータになります。
紙媒体だけではなく,マイクロフィルムからのOCRなども経験したスタッフの経験から,最適なデータ作成フローのご提案をいたします。

データ作成をご検討中の方は,サンプルを送付いただければ,ご提案いたします。
株式会社コンフィックまでご相談ください。


【関連記事】株式会社コンフィックの「コンサルティング」をテーマにしたブログ一覧




システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック https://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。





紙媒体→テキストデータ→マークアップ

2020年09月02日 10時07分31秒 | データ変換

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,XML技術を用いて,データ作成やデータベース構築のサービスを行っております。

紙媒体をXML化して二次利用やデータ公開したいといったご相談をいただきます。

紙媒体からのXML化作業は,
 ・紙媒体をスキャニング(画像化)
 ・画像データをOCR
 ・OCRしたテキストを校正(プログラムによるチェックと手作業で確認)
 ・テキストデータをマークアップ(プログラムによるマークアップと手作業で確認)
 ・XMLチェック
といった工程により,XMLデータ化します。

プログラムによるOCR認識のチェックやマークアップは,文書種類に応じて専用のツールを作成します。
ツールの精度により,手作業部分が効率化されますので,大量データ処理の場合には手作業での修正箇所をツールに反映し,作業を繰り返すことによってツールの精度を上げていく作業サイクルを確立することも重要です。

株式会社コンフィックでは,データ活用やデータ検索機能やデータ更新環境の開発など,お客様のご要望に応じてスクラッチで開発いたします。
データ構築をご検討中の方は,お気軽に株式会社コンフィックまでご相談ください。


【関連記事】株式会社コンフィックの「マークアップ」をテーマにしたブログ一覧




システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック https://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。





紙媒体からXMLデータに

2020年01月14日 23時13分07秒 | XML

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,XML技術を用いてデータ作成・データベース構築のサービスを行っております。

既存データのXML化やデータベース化のご相談を多くいただきますが,その中で一部の書類については,紙媒体のみ残っていて,電子データが無いがこの情報も同じようにデータベース化したいといったご要望も良くいただきます。

紙媒体からのXMLデータ化は,その書類内容により作業プロセスが異なりますが,多くの場合には,OCR処理の上テキスト化し,そのテキストに対してマークアップする方法を行います。
一連の作業をテストし,データ精度の向上や作業効率を向上させるために,OCRの認識辞書を作成したり,マークアップ専用ツールによりテキスト変換する場合もあります。

できるだけ安価に正確なデータを作成するために,専用の作業用ツールや環境を整備の上,作業を進めます。
現在紙媒体やスキャンした画像PDF,マイクロフィルムで保管されている書類をXML化してみませんか。
いくつかのサンプルをご提示いただければ,最適なデータ化のご提案をいたします。
お気軽に株式会社コンフィックまでご連絡ください。


【関連記事】株式会社コンフィックの「専用ツール」をテーマにしたブログ一覧




システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック https://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。





多言語OCRと文字コード

2019年09月19日 23時34分00秒 | データ変換

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,データ変換,データベース構築のサービスを行っております。

紙媒体からの電子データ変換は,OCRを用いて画像認識後に校正する方法が一般的です。
日本語だけではなく,多言語のOCR処理もOCRソフトウェアの精度が上がり,多種のデータを作成できるようになりました。
テキスト化では,その認識後の整形ルールや代替文字のルールを事前に決めておく必要がありますが,それは日本語だけではなく,多言語の場合も同様です。
多言語のテキストデータを作成する際には,その文字コードにも注意が必要です。
文字コードにより,文字の表示が変わってしまう場合も多くあります。
テキスト化したそのデータをどのようにその後利用するのかにより,最適な文字コードを選択することが重要です。

株式会社コンフィックでは,将来的な用途や拡張性を考慮し,テキスト化だけではなく,そのテキストのデータベース化やマークアップのサービスも行っております。
紙媒体をデータ化し,情報公開や業務に活用可能してみませんか。
お客様のご要望に応じたデータ活用方法のご提案をいたします。
お気軽に株式会社コンフィックまでご相談ください。


【関連記事】株式会社コンフィックの「OCR」をテーマにしたブログ一覧




システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック https://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。





テキスト整形

2019年07月27日 23時27分28秒 | データ変換

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,データ変換,データベース構築のサービスを行っております。

OCRにて認識されたテキストデータや,PDFから抽出したテキストデータは,不要な改行や空白が入っている場合が多くあります。
空白や改行があると,機械処理を行う場合に不都合が生じる場合もあるため,活用可能なデータとするためには,テキスト整形する必要があります。
テキストデータを整形することにより,その後のマークアップやデータベース格納時のデータとして活用しやすくなります。

さらにテキストデータは,その文字コードにも配慮が必要です。
文字コードにより,文字種が変わる場合もあります。
テキストデータは,人が認識(読める)データですが,機械は文字コードにて認識しています。
文字コードの選択により,その後の検索にヒットしなかったり,利用時に文字化けしてしまったりといった事が生じます。

株式会社コンフィックでは,テキスト整形時には,その後の用途や将来の利用予定を考慮し,データ仕様のご提案をいたします。
既存データの規格を統一化しておくことは,とても有効で重要な作業です。
データの活用やデータベース化でお困りのことがございましたら,お気軽に株式会社コンフィックまでご相談ください。
変換等の作業にあたっては,数ファイルのサンプルをご提供いただければ,より良いご提案を行うことが可能です。


【関連記事】株式会社コンフィックの「整形」をテーマにしたブログ一覧




システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック https://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。





多言語のOCRと文字コード

2019年07月09日 23時30分56秒 | データ変換

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,データ作成・データベース構築のサービスを行っております。

紙媒体からOCR処理などを行いデータ作成する場合には,その認識率やデータ仕様に関する事前お打合せがとても重要です。
数万ページの大量処理を行う際には,テストデータを何度も作成し,お客様とデータ仕様に関して確認をいたします。
日本語もそうですが,多言語の場合には,特に文字コードの選定や文字種に対する文字コードの対応表などを作成する必要があります。
OCRにより誤認識することが多い記号類は,特に注意が必要です。

株式会社コンフィックでは,データ処理の多くの経験から,お客様に最適な文字データをご提案いたします。
データ処理やデータ活用でお困りのことがございましたら,お気軽に株式会社コンフィックまでご相談ください。


【関連記事】株式会社コンフィックの「OCR」をテーマにしたブログ一覧




システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック https://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。





パンチ入力とOCR

2019年05月21日 13時49分45秒 | データ変換

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,データ作成・データベース構築のサービスを行っております。

紙媒体から電子データにする際には,OCRを用いて画像を認識し,テキスト化することが多く行われています。
OCRの精度は,元の画像に依存するため,OCR結果を人が見てチェックする必要があります。
精度を高める方法として,OCRだけではなく,人が入力(パンチ入力)を行い,OCRの結果と人が入力した結果を比較し,確認する方法もあります。
テキスト化の予算とデータ精度により,どのように処理するのが最適なのかをご提案いたします。

大量のデータ入力や,データ処理の際には,作業フローを確立し,チェック方法もそのデータに合わせて検討する必要があります。
株式会社コンフィックでは,多くのデータ加工の経験から,作業フローを確立の上,対応いたします。
データ化でお困りのことがございましたら,お気軽に株式会社コンフィックまでご連絡ください。

【関連記事】株式会社コンフィックの「OCR」をテーマにしたブログ一覧




システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック https://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。





OCRミスをチェックする

2019年05月15日 23時53分57秒 | データ変換

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,各種データ作成やデータベース構築のサービスを行っております。
紙文書を電子化する際,OCRにより文字認識を行うことが多くあると思います。

OCRでは,その文字の形を認識し,テキスト化しますが,認識誤りをどのように処理するかが重要です。
OCRの認識辞書に随時画像を登録することで認識精度が向上しますが,登録しすぎても異なる文字として処理されてしまう場合があります。
文書の発行年度やフォントなども考慮しなくてはなりません。
OCR処理後には,認識したデータを必ずチェックしますが,そのチェック方法にも工夫が必要です。
チェックは,文字種「二」と「ニ」などの間違いや記号類が入っていないかを確認することや,書類のスレやゴミ等が句読点となっている場合もあります。
紙文書の状態により,チェックツールや作業フローを検討しなくてはなりません。
それにより,高精度のテキストデータを作成することが可能です。

株式会社コンフィックでは,大量データの電子化だけではなく,それらのデータを活用するご提案をいたします。
紙媒体で保管されている文書を電子化し,活用することを検討してみてはいかがでしょうか。
お気軽に株式会社コンフィックまでご相談ください。


【関連記事】株式会社コンフィックの「OCR」をテーマにしたブログ一覧





システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック https://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。





多言語のOCR

2019年05月03日 09時08分32秒 | データ変換

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,各種データ作成・データベース構築のサービスを行っております。

紙媒体からOCR処理を行い,テキストデータを作成する際,文字コードや文字種を事前に検討の上,テキスト化する必要があります。
特に,多言語で処理を行う場合には,日本語OS環境等では処理できない文字がある場合もあります。
「データ化の後に,そのデータをどこで誰がどのように用いるのか。」によって,処理方法を検討しなくてはなりません。

株式会社コンフィックでは,できる限り多用途で活用可能なデータをご提案いたします。
お客様がデータ化を希望されている対象サンプルと用途をお伺いし,検討をいたします。
お気軽に株式会社コンフィックまでご相談ください。


【関連記事】株式会社コンフィックの「テキスト化」をテーマにしたブログ一覧



システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック https://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。





以前電子化したデータを再変換

2019年04月29日 21時19分39秒 | データ変換

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,各種データ変換・データベース構築のサービスを行っております。

紙媒体から電子データに変換することは,多くの文書で行われてきました。
ですが,その電子化の際,データ仕様やその後の用途を明確にしていなかったため,活用できていないとご相談を受けることがあります。
例えば,PDFをスキャンしOCR処理後,PDF上に透明テキストを付与したデータを作成したが,PDF検索でうまく検索がヒットしない。
同様にテキスト化を行ったが,紙文書通りにテキストを作成したため,不要な空白だらけのデータになっている。
など,活用できないデータになっている場合もあるようです。

株式会社コンフィックでは,そのようなご相談を受けた際,サンプルデータを数点お預かりし,将来的に活用可能なデータ形式へのご提案をいたします。
Webを中心とした検索用途,さらに印刷にも活用でき,データ公開やそのAPI作成まで可能とするご提案をいたします。

現在のデータを活用できていない方は,活用可能なデータ形式に再変換してみませんか。
株式会社コンフィックまでお気軽にご相談ください。


【関連記事】株式会社コンフィックの「ワンソースマルチユース」をテーマにしたブログ一覧





システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック https://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。