GooのトップページをGETすると
ヘッダ部分は
日本語はもちろんUTF-8ではいっている。
このなかの"UTF-8"というキーワードを見つけるためには
meta , Content-Type, charset と言う順に探さなければならない。
この場合はこのMetaタグが1行でまとまっているからいいのだが、
HTMLはどこに改行をいれてもよい。
改行が入ることを前提に考えなければならない。
Delphi + BregExp では、 m// のオプションでsをつけても うまく nが '.' にマッチしてくれない。
仕方がないので、文字列全体の \\n をスペースに置き換えて大きな1行にして
マッチさせようとしたら、m//の途中でエラーになってしまう。
多分UTFが入っているためだと思う。
もう一度頭を空っぽにして考え直す必要がある。
今日は仕事でExcel VBAなんか久しぶりにやってみたけど
VBAってデコレーションたっぷりなケーキを食う様で
おなかいっぱいな感じ。
今日はこれまでっ
ヘッダ部分は
<head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>goo</title> <link rel="shortcut icon" href="gooicon.ico"> <meta name="content-language" content="ja"> <meta name="description" content="NTTレゾナントが運営する安心・安全のポータルサイトです。検索、辞書、地図、乗り換え、ニュース、ショッピングなど生活に便利な機能が充実。あなたの行動を支援するメディアとして様々なサービスを展開しています。"> <meta http-equiv="Content-Style-Type" content="text/css"> <meta http-equiv="Content-Script-Type" content="text/javascript"> <link rel="stylesheet" href="/css/top_4.css" media="all"> </head> |
日本語はもちろんUTF-8ではいっている。
このなかの"UTF-8"というキーワードを見つけるためには
meta , Content-Type, charset と言う順に探さなければならない。
この場合はこのMetaタグが1行でまとまっているからいいのだが、
HTMLはどこに改行をいれてもよい。
改行が入ることを前提に考えなければならない。
Delphi + BregExp では、 m// のオプションでsをつけても うまく nが '.' にマッチしてくれない。
仕方がないので、文字列全体の \\n をスペースに置き換えて大きな1行にして
マッチさせようとしたら、m//の途中でエラーになってしまう。
多分UTFが入っているためだと思う。
もう一度頭を空っぽにして考え直す必要がある。
今日は仕事でExcel VBAなんか久しぶりにやってみたけど
VBAってデコレーションたっぷりなケーキを食う様で
おなかいっぱいな感じ。
今日はこれまでっ