(株)カプロラクタム-blog

果たしてココは何処なのだろうか・・・
否!ココは(株)カプロラクタム代表取締役兼社員αのweblogである!

バックアップ

2006年06月18日 | Weblog
半日がかりでgooブログの記事のバックアップを取りました。

ココを開設して早1年半になります。最近は毎日更新が定着しており、記事総数も540件、538日分も溜まりました。まあ、これだけ使っていればこのgooブログも愛着が出てきますし、最近ではアクセスエラーも減り、以前より使い勝手が良く感じるようになってきています。
しかし、いくら大手とはいえ、突然ブログが閉鎖となる可能性も無きにしも非ず。また、他のブログは知りませんがgooは同時に15件ずつしか表示できませんし、ワード検索はあるにしても何故かタイトルが検索できない、カウンタもない、アクセス解析もないなど、細かな不満は少々(?)あるわけです。そんなわけで、いつでも別の場所に変われるよう、また自分で検索するのに扱いやすいよう、文章データをHDDに保存すべく作業に乗り出しました。

とりあえず考えたのはテキストデータのみにして保存する方法。計540件を15件ずつ表示するには、一番下にある<前のページを36回開きながらコピペしていけば良いわけです。至ってシンプル。しかしこの方法では当然のことながらリンクやフォントの変更、画像まではコピーできません。それはそれと割り切るか、折角組んだタグもひっくるめて保存するか・・・30分考えた後、後者の方に傾きました。
次に考えたのはワードで保存するか、html形式で保存するか。htmlの方が楽そうですが、日本語がEUCになっているためソースが容赦なく文字化けし、そのままhtml化しても半分ぐらい化けが残った状態になってしまいました。一旦諦めてワードの可能性も模索。ワードならコピペでタグに当たる部分も正常に移りますし、いらない部分などまとめて選択して削除するのも簡単です。しかし、妙に行間が空いていて、それを縮めようと段落を弄った時点で致命的な問題を発見。全て選択して一気に弄ると、フォントででかくした文字や画像までもその行間隔となってしまうのです。540記事のうち画像は数点だとしても、フォントを弄ったのは何百あるのか・・・それを逐一直す気になれず、再びhtml化に戻りました。この時点で2時間経過・・・

ここで趣向を変え、「名前をつけて保存」の可能性に着目。ソースをテキストエディタで見ながら試行錯誤し、さらに1時間後ついに左右の柱などの余分な箇所を取り去って、同時に構造も大方解読できました。後は次々に36回サイトを開いては「名前をつけて保存」をし、必要な部分だけコピペを繰り返す作業で終了。作業自体は30分かかりませんでした。540件を1ページに納めると鬼のように重かったので、半年ごとに3ページ作成しました。これでも開くには重いけど・・・
それにしても、1年半で結構書いたと思ったのに、文字情報としては3M足らずにしかならないってのは今更ながら驚きですね。この場合タグが純粋な文字以上に容量を喰っているので、実際打った文字は1M分ぐらいでしょうけど。そういえば「大百科」の10万文字が200Kbにしかならなかったときはかなりショックだったよなぁ・・・高校三年間の結晶が画像1枚より軽いのですから(笑)
でも、逆に言えば動画やら音楽やらってのはめちゃくちゃ無駄に使っているってことですよね。

ちなみに本日、本家が9000ヒットしました。それを記念して、今回作成し長々と製作日記をしたためた“blog倉庫”を本家にアップロードしましたので、暇な方は、マイホームページからご覧下され。・・・と、直リンでなくこう宣伝しておけば早く1万ヒットに到達するかな?ココなら1週間でゆうに取れる500ヒットが、あそこは1年がかりですからね・・・

さて、W杯を見に行くか・・・ってもうロスタイムかよ!