たらたらたらり。

ビンボー症で花粉症(ぼ)のお気楽日誌。身元がバレても気にしない。分かった方も暖かくスルーで☆

pdfをテキストに

2010年07月21日 16時45分33秒 | MacとかUNIXとか
来るべき英作文の壁に備えて、手持ちの英語論文をテキスト化して
コーパス(文章のデータベース)に使おうと思いまして。

Adobe Readerにも「テキストとして保存」の機能があるのだけど、
改行コードがおかしかったり(\rとか\r\rとか)、
ページが変わるところで空白挟まったりで、うまくいかなかったので。
あと、いちいちファイルを開いて保存し直すのもかなりダルい。

で、手っ取り早く変換できそうな(Mac用の)ツールを求めて、
Automatorを開いたら、それらしい項目があった!

1. Automator.app をひらく


2. 左側のメニューから、以下の2項目を右側のウィンドウに持ってくる

「指定されたFinder項目を取得」
「PDFからテキストを取り出す」


3. テキストにしたいPDFを、
 「指定されたFinder項目を取得」へドラッグして、
 「PDFからテキストを取り出す」で保存先を選んで、
 右上の実行ボタンをクリック

保存しておけば(ワークフローでもアプリでも)、何度でもOK。

変換するファイルの数が多かったりするとエラーになるようですが、
エラーが出ても出力ファイルは無事にできていることが多いようです

最新の画像もっと見る