こわれもの注意

PDFからテキストを抽出

ちょっと用があって、PDFからテキストを取り出したいというニーズがあった。
グーグルを検索すると、ソースネクストから”PDFをWORDデータに変換するツール”「いきなり PDF to Data」というのがあって、サイトの情報はかなりいい感じ。
値段も3000円程度とお買い得な感じがした。
よし!これを買うぞ!と思ってアマゾンでユーザーの感想を見てみると・・・

アマゾンのいきなりPDF to Data

ああ、こりゃダメだ。
OCRでグラフィックからテキストに変換する機能が中心らしい。

検索すると、世界にはいろんな方法があるらしいけど、一応アドビをみるとこちらの方法が順当な模様。

<Adobeからの解説の引用>
http://support.adobe.co.jp/faq/qadoc/AJ25.nsf/0/4d4884c118e39eb249256c48003e16e3?OpenDocument

-PDF ファイルからすべてのテキストを抽出する方法

注意:テキストを他のファイルに貼り付けた場合、テキスト書式が失われる場合があります。

Windows では、PDF ファイルからテキストを書き出します。以下の手順を実行します。

1. Acrobat Reader で PDF ファイルを開きます。
2. [ファイル] メニューから [テキストに書き出し] を選択します。
3. テキストファイルのファイル名と保存先を指定し、[保存] ボタンをクリックします。

<引用ここまで>

Acrobatを持ってない場合は、このページからAcrobat7.0Professionalの試用版がダウンロードできるよ。
30日間は使えるよ。
http://www.adobe.co.jp/products/acrobatpro/tryout.html

コメント一覧

luke
TBさせていただきました
http://blog.so-net.ne.jp/mondo-luke0006/
ご無沙汰です。

この記事は非常に重いテーマなので、元記事にそぐわないと思われましたら、どうぞ削除して下さい。

この時は、ほんと大変でした。元データPDFを見ていただければ分かりますが、表のスケールがものすごく大きいのです。表組みをコピペしてExcelにテキスト貼り付け、必要な部分だけ整理し直してブログにアップ。まだブログもHTMLも始めたばかりだったので、分からないなりに一生懸命でした。

今は、様々なPDF加工ツールが出ていていいですね。
うすあじ
ですねぇ
「コピー→メモ帳に貼り付け」で解決するサイズなら、それもいいかも。

まあ、どんな方法でも解決できればOKですよ。
あなな
いつも「コピー→メモ帳に貼り付け」でやってます。

部分的にもとれるので便利な反面、表の中の文字列も拾っちゃうのでアレです。
名前:
コメント:

※文字化け等の原因になりますので顔文字の投稿はお控えください。

コメント利用規約に同意の上コメント投稿を行ってください。

 

  • Xでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

最新の画像もっと見る

最近の「SOHO」カテゴリーもっと見る

最近の記事
バックナンバー
人気記事