巣窟日誌

お仕事と研究と私的出来事

WordドキュメントをHTMLに変換するとなると…

2005-01-06 22:07:50 | インターネット (CMC)
(この記事は2005年1月5日の「オンラインジャーナルをつくるとなると…」の続きです。)

オンラインジャーナルにすべく「言語研究」関連のWord原稿を受け取ったわたしは、ブルーになった。ゆううつになったとともに、実際顔が青くなったのだ。

言語研究という特性ゆえに文字装飾が激しかったことにくわえ、論文の各寄稿者が全角や半角のスペースやタブ、あるいは文の途中で改行を適当に入れて、印刷用にレイアウトを整えていた。前にも書いたとおり、本文の文字データに図形をかぶせつくった図表が多かった。(下の図参照)

word_input_1

さて、これをどのようにHTMLドキュメントに変換するかだ。

WordドキュメントのHTML化は、どのような方法をとってもそれなりの問題が生じる。そのためにWordドキュメントをHTMLドキュメントに直してくれる業者も存在するのだが、今回はご予算少々につき「業者にお願いする」という選択肢はない。

そこで自分でやるとなると、次の3つが考えられる。

1. Wordの機能だけを使ってHTMLに変換する

WordにはHTML文書形式にしてファイルを保存する機能もある。保存のさいに「ファイルの形式」を「Webページにして保存」にすればよい。

ただし、単なる「Webページにして保存」では、Office固有のマークアップタグが多数含まれてしまう。これを除去して保存するためには、ファイルの形式を「Webページにして保存(フィルタ後)」を選ぶ。このファイル形式はWord 2002以降ノバージョンにある機能で、Word 2000でOffice固有のマークアップタグを除去するためには、「HTML Filter 2.1 for Office 2000」というアドインをダウンロードして使用する。

手軽な方法だが欠点がある。レイアウトを完璧には維持できないこと。そしてHTMLファイルの容量が大きくなることだ。

2. WordファイルをHTMLファイルに変換するソフトウェアを使用する

シェアウェア「軽々HTML for Word」のようなソフトウェアを利用するのも、選択肢の一つだ。特にこの「軽々HTML for Word」は、1の欠点である「レイアウトの崩れ」「ファイルが大きくなる」に対応しているスグレモノである。

3. Wordファイルからテキストデータだけを利用して、自分でHTMLドキュメントを作る。

テキストエディタを開いてタグをお手打ちするもよし、ずるけてHTMLオーサリングソフトを使うも良し。ただし文章の種類によってはかなりめんどい。

今回3を選んだのは、元の体裁がB5の冊子のためのものだったからだ。原稿は9.5ptのMS明朝とCenturyで作成されている。このままではフォイントサイズが小さすぎる上に、「画面上で読む」ことを前提にした場合、明朝体・Serif体はふさわしくないように思われた。しかし、この記事の最初に書いたように、元原稿で全角や半角のスペースやタブ、文の途中での改行を入れることで視覚的なレイアウトが保たれている場合、フォントの種類やサイズを変えることはかなり危険だ。作成者の意図したレイアウトが大きく崩れる可能性があるからである。

というわけで、原稿をプリントアウトしたものを目で確認しながら、一つ一つタグを入れていった。すべてをお手打ちにする甲斐性などなくDreamweaverを使用したが、フォントスタイルを変えなければならない場所がやたら多く面倒くさかった。

コレを12月30日からはじめたところ、はじめたとたんに同居している母は腰痛で年末対応臨戦態勢から脱落し、わたしはMTのトラブルでサーバーをおとして業者さんにご迷惑をかけて平謝りし、雪が降って雪かきをし、正月早々ブログ人のトラブルであせりまくりくるはめになった。しかし残りの時間で粛々と…というより、"しくしく"と(泣きながら)作業をし、とりあえず形だけ作ってサーバーにアップしておいた。3が日はこれにて終了。アップした後で頭をひやしてからもう一度みたら、タグを入れ忘れているところや機種依存文字が残っているところが多数あるではないか。ああ、自分の目なんてあてにならないものだ。

しかし、次号からは紙ベースはまったくなしの、真のオンラインジャーナルになるんだっけ。どうする? 原稿の図表は次のように編集してくれると助かるのだが…

word_input_2