メモ帳

各種メモ代わり

師走の入り

2006-12-01 23:00:00 | Weblog
12月01日(金)
いよいよ師走。走らなくっちゃ!

再来週の講義のために本をコピーし、OCRへかける準備。
mにやってもらおうとしたが、オートシートフィーダが調子が悪い?
用紙はきちんと送られている様だが、読み取り結果としては斜めに曲がっている。
何が起きてるのだろうか?

15時から理事と打ち合わせ。
業務部に戻って、課長から今年のデータを受け取る。

研究室に戻り、金ゼミが終わっていなかったので、遅れて出席。

途中からでわかりにくかったこともあり、質問して撃破してしまった。
撃破するつもりじゃなかったんだが・・・

分析していた7年分のデータより、単独でできる今年のデータの分析の方が簡単でもあり、こちらを先に処理することにした。

元のデータ形式は同じなので、せd(sed) での変換スクリプトは前の分がそのまま流用できるはず・・・・

であったが、世間はそんなに甘くない!
今年から追加された項目があり、スクリプトにその処理を追加。
これで せd一発! でも処理してくれない! どうして?

この処理には手間取る。エクセルで変換したいセルの文字列をコピーし、エディタで編集しているスクリプトにペーストし、せdを起動しても、問題の文字列を処理してくれない!!!

何度やっても同じ。業を煮やせばバイナリエディタ! とまでは必要なく、エクセルをCSVでテキスト化し、エディタで開いて、問題の文字列のチェック。

いわゆる機種依存文字。ローマ数字はどうなってる?16進表示させると同じ見た目でも2つのコードがある。
最終的にどうやって変換したかは忘れてしまったが、力づくで処理!?
忘れたくらいだから実際は簡単に処理。せdだけではすまなかったということを記録しておこう!

Rで簡単に分析してみる。あれぇ、思ったよりいい結果が出ている。
詳細は明日検討しよう。

最新の画像もっと見る

コメントを投稿