(株)カプロラクタム-blog

果たしてココは何処なのだろうか・・・
否!ココは(株)カプロラクタム代表取締役兼社員αのweblogである!

バックアップ

2006年06月18日 | Weblog
半日がかりでgooブログの記事のバックアップを取りました。

ココを開設して早1年半になります。最近は毎日更新が定着しており、記事総数も540件、538日分も溜まりました。まあ、これだけ使っていればこのgooブログも愛着が出てきますし、最近ではアクセスエラーも減り、以前より使い勝手が良く感じるようになってきています。
しかし、いくら大手とはいえ、突然ブログが閉鎖となる可能性も無きにしも非ず。また、他のブログは知りませんがgooは同時に15件ずつしか表示できませんし、ワード検索はあるにしても何故かタイトルが検索できない、カウンタもない、アクセス解析もないなど、細かな不満は少々(?)あるわけです。そんなわけで、いつでも別の場所に変われるよう、また自分で検索するのに扱いやすいよう、文章データをHDDに保存すべく作業に乗り出しました。

とりあえず考えたのはテキストデータのみにして保存する方法。計540件を15件ずつ表示するには、一番下にある<前のページを36回開きながらコピペしていけば良いわけです。至ってシンプル。しかしこの方法では当然のことながらリンクやフォントの変更、画像まではコピーできません。それはそれと割り切るか、折角組んだタグもひっくるめて保存するか・・・30分考えた後、後者の方に傾きました。
次に考えたのはワードで保存するか、html形式で保存するか。htmlの方が楽そうですが、日本語がEUCになっているためソースが容赦なく文字化けし、そのままhtml化しても半分ぐらい化けが残った状態になってしまいました。一旦諦めてワードの可能性も模索。ワードならコピペでタグに当たる部分も正常に移りますし、いらない部分などまとめて選択して削除するのも簡単です。しかし、妙に行間が空いていて、それを縮めようと段落を弄った時点で致命的な問題を発見。全て選択して一気に弄ると、フォントででかくした文字や画像までもその行間隔となってしまうのです。540記事のうち画像は数点だとしても、フォントを弄ったのは何百あるのか・・・それを逐一直す気になれず、再びhtml化に戻りました。この時点で2時間経過・・・

ここで趣向を変え、「名前をつけて保存」の可能性に着目。ソースをテキストエディタで見ながら試行錯誤し、さらに1時間後ついに左右の柱などの余分な箇所を取り去って、同時に構造も大方解読できました。後は次々に36回サイトを開いては「名前をつけて保存」をし、必要な部分だけコピペを繰り返す作業で終了。作業自体は30分かかりませんでした。540件を1ページに納めると鬼のように重かったので、半年ごとに3ページ作成しました。これでも開くには重いけど・・・
それにしても、1年半で結構書いたと思ったのに、文字情報としては3M足らずにしかならないってのは今更ながら驚きですね。この場合タグが純粋な文字以上に容量を喰っているので、実際打った文字は1M分ぐらいでしょうけど。そういえば「大百科」の10万文字が200Kbにしかならなかったときはかなりショックだったよなぁ・・・高校三年間の結晶が画像1枚より軽いのですから(笑)
でも、逆に言えば動画やら音楽やらってのはめちゃくちゃ無駄に使っているってことですよね。

ちなみに本日、本家が9000ヒットしました。それを記念して、今回作成し長々と製作日記をしたためた“blog倉庫”を本家にアップロードしましたので、暇な方は、マイホームページからご覧下され。・・・と、直リンでなくこう宣伝しておけば早く1万ヒットに到達するかな?ココなら1週間でゆうに取れる500ヒットが、あそこは1年がかりですからね・・・

さて、W杯を見に行くか・・・ってもうロスタイムかよ!

最新の画像もっと見る

5 コメント

コメント日が  古い順  |   新しい順
Unknown (穏高)
2006-06-18 23:55:42
いわゆる「オフライン閲覧用」のソフトを使えば良かったのでは。

例えば、巡集。

http://www.vector.co.jp/soft/win95/net/se314781.html

リンクをガリガリと辿って、自動的に保存してくれます。
返信する
Unknown (alpha)
2006-06-19 00:20:47
・・・その方法も考えたのですがね。とりえず抜いて終了、なら絶対そうするべきだったと思います。

ですが最初に540件をずらっと並べようと思ってしまったので、先にオフラインに取り込んでからコピペするか、オンラインのままコピペしていくかの違いを考えて、オフライン化の手間とソフトを探す時間を惜しむ事にしたわけです。



んで、とりあえず何の設定もせず使ってみましたが、ガリガリよそのサイトらしき情報を削り始めました。ファイル数推定13000って何・・・orz

blogの場合は難しそうです。
返信する
Unknown (穏高)
2006-06-19 10:39:00
取得する階層を限定すれば、そういった憂き目は避けられるよ。最初は10だから、そりゃもう、酷いことに…。

あと、外部サーバは取らない、という設定にしておけば、階層が深くてもそれ程数は増えない。で、自分のサイトのみで良ければURLフィルタを設定することで対応できる。

そんな感じかなぁ。



でも確かに、本文のHTMLだけ抜き出したい、って言うのには向かないかもね。そう言うのはスクリプトを書いてちょちょいとやってしまうのが吉。

あ、もう終わってるか。
返信する
Unknown (alpha)
2006-06-19 23:43:05
ぅぃ。でもあの方法ではコメントまで抜けないので、できれば1記事ずつ抜いての保存もしておきたいと思います。

階層は36にしつつ、取得範囲を/e/内に限定して抜く、とかはできるのかな?

返信する
Unknown (穏高)
2006-06-20 00:14:48
URLフィルタで出来ない?

http://blog.goo.ne.jp/kaprolaktam/e/*

を設定して、「下記文字列に一致する操作を許可」と、「上記URLに一致するURLのみ許可」にチェック。

実行。



…ほら、出来るっぽい。





広告を消すなら、広告削除設定が使えるかも。試してない。
返信する

コメントを投稿