IMAPフォルダに日本語を使ったときの文字化けみたいなやつ　…　「IMAP-UTF7」というそうだ - ttt

IMAPフォルダに日本語を使ったときの文字化けみたいなやつ　…　「IMAP-UTF7」というそうだ

2008-04-22 23:07:07 | デジタル・インターネット

普通の人はあんまり見ることはない気もしますが、IMAPでフォルダ名に日本語を使うと、BASE64みたいな、アルファベットや記号など7bitコード文字だけにエンコードされた名前になります。

あれって、IMAP-UTF7という名前のエンコーディングなんだそうです。

簡単にデコードできるツールってないかな？と思って、FreeBSDのportsの中を探してみたら、

ports/converters/p5-Unicode-IMAPUtf7/

というのがありました。

付属していたスクリプトをそっくりマネして書いただけなんですが、とりあえずテストするスクリプト。

require 'Unicode/IMAPUtf7.pm';
my $t = Unicode::IMAPUtf7->new, 'Unicode::IMAPUtf7';

my @input = qw(&Tgtm+DBN- &kAFP4W4IMH8wojCkMMYw4A- &j,dg0TDhMPww6w-);

for (my $i = 0; $i < @input; $i++) {
$tmp = $t->decode($input[$i]);
print "|" . $input[$i] . "| -> |$tmp|\n";
}

実行してみる。

% perl imap-utf7.pl | nkf
|&Tgtm+DBN-| -> |下DBN-|
|&kAFP4W4IMH8wojCkMMYw4A-| -> |送信済みアイテム|
|&j,dg0TDhMPww6w-| -> |迷惑メール|

なるほど・・・

ただ、１個めのデコード結果がおかしいような。本当は「下書き」になるはずなんだけど。

nkfがおかしいのかな？と思い、iconv。

% perl imap-utf7.pl | iconv -f 'utf-8' -t euc-jp
|&Tgtm+DBN-| -> |下DBN-|
|&kAFP4W4IMH8wojCkMMYw4A-| -> |送信済みアイテム|
|&j,dg0TDhMPww6w-| -> |迷惑メール|

だめですね。

いろいろ試す。

|&Tgtm+DBN-| -> |下DBN-|
|&Tgs-123| -> |下123|
|&ZvgwTQ-| -> |書き|
|&ZvgwTw-| -> |書く|
|&Tgswa2b4ME0-| -> |下に書き|
|&Tgtm+A-| -> |下A-|

「下書」がアウトらしい・・・

ひょっとして、Unicode/IMAPUtf7.pm がおかしい？？？

4 コメント

コメント日が古い順 | 新しい順

IMAP-UTF7 ってのは正式な名前じゃないわけです。 (obache): 2008-05-03 00:31:10; IMAP-UTF7 ってのは正式な名前じゃないわけです。
このエンコードを定義している RFC 3501 では「Modified UTF-7」としています。

ともあれ、そのRFCを読んでいただくと分かりますが、Modified UTF-7 には "+" は含まれません。ということで、お試しになっている文字列がそもそも、Modified UTF-7 ではないわけですが、いったいどうやって作ったものでしょうか?; 返信する

Unicode::IMAPUtf7のドキュメントにはRFC2060と出... (本人): 2008-05-05 00:21:25; Unicode::IMAPUtf7のドキュメントにはRFC2060と出てますが、
RFC3501によって、RFC2060がobsoleteになってるんですね。

IMAPサーバはimap-uwで、IMAPクライアントは、Netscape Communicator、Mozilla Thunderbird、Outlook Expressなどで、とくに文字化けなしです。

「下書き」をUTF-7でエンコードすると「+Tgtm+DBN」になるようなので、+を&に置き換えて、最後に-を追加して…

use Unicode::IMAPUtf7;
my $t = Unicode::IMAPUtf7->new();
print $t->decode('&Tgtm&DBN-') . "\n";

とすれば「下書き」に戻りました。

どういうわけか
print $t->encode('下書き');
は
+Tgtm&DBN-
になるんですが、これはdecode()しても「下書き」に戻りません。
謎が増えました…

ファイルシステム上でのファイル名がどうなるかは、IMAPサーバの実装依存という感じはしますね。

Unixで+と&といえば、「lost&found」が「lost+found」になってるのを思い出しました。; 返信する

Unicode::IMAPUtf7 のソースを見てみたら・・・こ... (obache): 2008-05-15 11:14:35; Unicode::IMAPUtf7 のソースを見てみたら・・・これはまずいでしょ。
そもそも、latin1 しか考えてないような。

Encode::IMAPUTF7 のほうがよさそう。; 返信する

確認していただきありがとうございます。 (本人): 2008-05-17 02:05:02; 確認していただきありがとうございます。
うーん、そういうオチでしたか。; 返信する

規約違反等の連絡

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。

最新記事

>> もっと見る

カテゴリー

バックナンバー

2021年10月

2021年09月

2021年08月

2021年07月

2021年06月

2021年05月

2021年04月

2021年03月

2019年07月

2019年05月

2019年04月

2019年01月

2018年02月

2018年01月

2017年12月

2016年11月

2016年10月

2016年09月

2016年08月

2016年07月

2016年06月

2016年05月

2016年04月

2016年03月

2016年02月

2016年01月

2015年12月

2015年11月

2015年10月

2015年09月

2015年08月

2015年07月

2015年06月

2015年05月

2015年04月

2015年03月

2015年02月

2015年01月

2014年12月

2014年11月

2014年10月

2014年09月

2014年08月

2014年07月

2014年06月

2014年05月

2014年04月

2014年03月

2014年02月

2014年01月

2013年12月

2013年11月

2013年10月

2013年09月

2013年08月

2013年07月

2013年06月

2013年05月

2013年04月

2013年03月

2013年02月

2013年01月

2012年12月

2012年11月

2012年10月

2012年09月

2012年08月

2012年07月

2012年06月

2012年05月

2012年04月

2012年03月

2012年02月

2012年01月

2011年12月

2011年11月

2011年10月

2011年09月

2011年08月

2011年07月

2011年06月

2011年05月

2011年04月

2011年03月

2011年02月

2011年01月

2010年12月

2010年11月

2010年10月

2010年09月

2010年08月

2010年07月

2010年06月

2010年05月

2010年04月

2010年03月

2010年02月

2010年01月

2009年12月

2009年11月

2009年10月

2009年09月

2009年08月

2009年07月

2009年06月

2009年05月

2009年04月

2009年03月

2009年02月

2009年01月

2008年12月

2008年11月

2008年10月

2008年09月

2008年08月

2008年07月

2008年06月

2008年05月

2008年04月

2008年03月

2008年02月

2008年01月

2007年12月

2007年11月

2007年10月

2007年09月

2007年08月

2007年07月

2007年06月

2007年05月

2007年04月

2007年03月

2007年02月

2007年01月

2006年12月

2006年11月

2006年10月

2006年09月

2006年08月

2006年07月

2006年06月

2006年05月

2006年04月

2006年03月

2006年02月

2006年01月

2005年12月

2005年11月

2005年10月

2005年09月

2005年08月

2005年07月

2005年06月

2005年05月

2005年04月

カレンダー

プロフィール

最新コメント

こんにちは/2011年10月1日からBSデジタル放送のチャンネルが増える
sbin/(FreeBSD) ZFS: i/o error - all block copies unavailable
Unknown/「ラジコンボーイ」と「ゼロヨンＱ太」
DolbyNR/久しぶりに秋葉原に行ったら、すっかり変化してた
Nobu/銀座の若大将
本人/FreeBSD 10.2で、nss_ldapが使われていると、/bin/cshがSIGINTで死ぬ
おさな/FreeBSD 10.2で、nss_ldapが使われていると、/bin/cshがSIGINTで死ぬ
Unknown/Express5800/S70 タイプhfをIntel AMTにて遠隔制御
スマホ　修理/液晶画面にシミのようなものが……
Unknown/「ラジコンボーイ」と「ゼロヨンＱ太」

ブックマーク

nyohoho0: nyohoho0

goo blog おすすめ

おすすめブログ

お客さまのご利用端末からの情報の外部送信について

goo blog お知らせ

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	gooブロガーの今日のひとこと
	訪問者数に応じてdポイント最大1,000pt当たる！
	goo blogは20周年を迎えました！