自転車操業日記

自転車と組版ソフトについての備忘録。

CS4:正規表現で索引

2011-09-02 17:50:45 | たまにはしごとだって
アタシは植物の学名つきの索引をつくることが比較的多い。これで面倒なのが,ラテン語の名前の部分とそれ以外の部分は書体を変える(イタリックとローマンに区別することが多い)こと。索引なんかで数が多くなってくると,指定入れるだけでかなりかかったりする。しかし規則性はあるわけで,それをつかまえて自動化できないかなーと考えていた。
正規表現を使えばできることは想像できてたけど,機会がなくてやってなかった。きょう,フォーマットをいじる必要があったので,あんまり時間かけずにできる範囲で,ついでに考えてみた。

ラテン語の部分は,冒頭の1文字が大文字になる単語と,小文字ばっかりの単語。その単語の間に,変種とか亜種とかの記号(これはローマン)が入ったり入らなかったり。あとその間に,学名をつけた人のなまえ(固有名詞だから冒頭の1文字は大文字)がはいる。これもローマン。ただ,書式ばらばら。かっこがついたりつかなかったり,終わりにピリオドがついたりつかなかったり,イニシャルがついたりつかなかったり。かっこのなかも1語のこともあればそうじゃないこともある。

記号はだいたい決まるので,まとめて( )にいれてたてせんで区切ってひとつにまとめられたけど,人名のほうはどうしようか悩み中。直前にスペースがくっつく大文字で始まる単語,って感じで大半は拾えるけど,イレギュラーなものがうまく拾えない。

記号はこんな感じ。(var. |ssp. |f\. |&|ex)
人名は悩ましい。 \u\l+ でだいたいひろって,あと手でつぶすかんじで。ちなみに\uの前には半角スペースが入っています。これがないと,ラテン名の初めの単語がローマンになっちゃう。

これを段落スタイルに埋め込んでおいて,索引の書き出しをするときに指定するか,学名が出てくるところが一部なら,あとで別のスタイルを適用してあげる感じで使う。
電子版をつくることを考えると,索引と目次は絶対ソフトの機能を使ってつくった方がいい。pdfに書き出したときにそれぞれのページへリンクが設定されるから,pdfベースでソフト化するなら,すごく便利だ。もちろん,改訂も楽だしね。

いま初心者向けの図鑑(アタシはほとんど担当してないから関係ないのだけど)の電子化をいろいろやってる。そのときpdfを書くのだけど,そこにリンクを埋め込んでやっても,その情報を使う方法がないらしい。索引や目次から目的のページに飛ばすには,改めて手動でリンクを設定するそうで,だから校正の手間がたいへんみたいだ。しかも1件いくらで超過コストがかかる。あほらしい。
組版見てる側からずいぶん文句を言ったのだけど,「開発会社が出来ないって言ってるから出来ません」とかしれっと言われるので,もう相手にしないことにした。
パイロット版とか見ると,pdfは基本的には画像としてだけ使って上にレイヤー1枚書いてボタンとかを配置してる感じなのだけど,透明テキストのデータはテキスト検索に使ってるぽいんだよね。リンクデータってどこに残るんだろう。

最新の画像もっと見る

post a comment