namazu on gentoo

膨大な数のPDFファイルを namazu で全文管理している。
研究論文がPDFで手軽に手に入るようになったのは、10年前と比較すると画期的なことだ。

ところが、Gentoo の namazu がまったく動作しなくなった。
こういうと語弊があるが、とにかく PDF 関連がまったく動作しなくなった。
全てのPDFファイルについて、
Unable to convert pdf file (maybe copying protection)'

というエラーを吐く。

追っていくと /usr/share/namazu/filter/pdf.pl という perl で記述されたフィルタに辿りつく。このフィルタを調べると、namazu では PDF ファイル内部のテキストを抽出するのに pdftotext というコマンドを使っている。そして、pdftotext は xpdf に含まれているものを想定しているようだ。

ところが、最近の gentoo のバージョンアップにより、pdftotext は xpdf ではなく poppler に含まれるようになってしまった。といっても、機能的にはまったく同じで、引数やオプションも共通らしい。だから、基本的にnamazuの pdf.pl でも使えるはずだ。

ところが、うまくはいかない。というのも、pdf.pl ファイル内では、pdftotext コマンドのバージョンを調べることにより処理を分岐させている。最近の xpdf はバージョン1.0であり、xpdf に含まれる pdftotext も同じバージョンを名乗っていたようだ。しかし、poppler に含まれれる pdftotext はバージョン 0.1 を名乗っている。機能的に同じものが別のバージョンを名乗ってしまうところに問題がある。

というわけで、pdf.pl を手動で書き換え、バージョンチェックの部分を変更した。具体的には pdfconverter のバージョンを 0.9 以上かそれ以下かで判別している部分(62行目)を0.10を基準に判別するように変更するだけ。

これで無事 namazu で PDF の全文検索用データベースが構築できるようになった。
コメント ( 0 ) | Trackback ( 0 )
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする


« gnome-2.24、... vista の network »


 
コメント
 
コメントはありません。
コメントを投稿する
 
名前
タイトル
URL
コメント
コメント利用規約に同意の上コメント投稿を行ってください。

数字4桁を入力し、投稿ボタンを押してください。