WaterMind PC Blog

PCとネットワークに関するニュースコラム.

Skypeの全世界規模不具合: エピローグ4 スーパーノード

2007-08-26 11:40:33 | ネットワーク技術

これまでのあらすじ:

数日間続いていたと思われる,高品位音声チャットで有名な無償ソフトSkypeの全世界的規模の通話不能不具合は,Skype側の対処により,終息した.Skype側は,この不具合の原因説明を月曜日にすると約束し,その原因は,ソフト更新を引き金とした,バグの発動によるものだとした.しかし,その説明は抽象的で,様々な謎を残した.

 その後,上記の「ソフトの更新」がWindowsUpdateのあった近辺の日時であったため,WindowsUpdateが原因となっているのではないかというユーザの指摘があったが,MSはその説を否定するコメント発表した…ここまでは,前回書いたとおり.

 本日,さらなる詳細な原因説明が,Skype日本オフィスから発表されることとなったが,その内容は意外なものだった.なんと,SKype側から「WindowsUpdateが引き金を引いた」という説明がなされたからだ.

 この説明によると,今回の不具合は

  1. WindowsUpdateにより,多数のSkypeスーパーノードが再起動.これによりP2Pネットワーク内のスーパーノード数が減少.
  2. 再起動の結果,各Skype端末からログインサーバに対して認証要求が大量発生し,認証が滞留.ログインしなければ,P2Pネットワークに参加できないので,P2Pネットワーク内のスーパーノードの数は,なかなか増加しない.
  3. 残存ノード(通常ノード含む)から,残されたスーパーノードへ負荷が集中
  4. ここで負荷を分散させるために,スーパーノードではないノードを,格上げするアルゴリズムが作動するが,バグがあり,うまく作動せず.(Self-Heal「自己回復」能力)
  5. 残されたスーパーノードが負荷に耐えきれず,ダウン
  6. これが連鎖的に起こっていき,スーパーノードが絶滅寸前に追い込まれ,Skypeネットワークに崩壊の危機が迫る
  7. Skype側で強制的に,通常ノードをスーパーノードへ格上げし,スーパーノードを無理矢理増やす(「Skypeクライアントを立ち上げたままにしておけ」という,Skyoe側の指示はこのためか?).
  8. 負荷が徐々に拡散し,最終的に正常化

ということのようだ.

 「スーパーノード」とは,「多数のSkype端末を管理するサーバとなるノードで,端末のうち,インターネットのグローバル・アドレスを持ち,処理能力の高いSkype端末から選ばれる。Skypeネットワーク全体の約1%がスーパーノードとなっている.」とのこと.ご存じの通り,このような親子ノード構造は,P2Pネットワークソフトでは,よく見られるアーキテクチャーだ.

 「ログインサーバ」は,認証サーバなので,おそらくSkype所有のサーバなのだろう.ログイン後,ノードはスーパーノードに接続することになる.

 この「詳細説明」で,残された謎のかなり部分は解消されることになった.しかし,謎のすべてが解消されたわけではない.具体的には…

  • 「WindowsUpdate引き金」説の証拠はあるのか? おそらくSkype側では,SkypeのP2Pネットワークのモニタリング・ステーションがあり,ネットワークの状態をモニタリングしていると思う.そうであるならば,Skype側は,「WindowsUpdate引き金」説の根拠として,WindowsUpdateによる更新の始まりと連動して,P2Pネットワーク全体の負荷が上昇した証拠を持っているのかもしれない.MS側も,WindowsUpdateの負荷モニタリングを行っているので,その負荷に関する資料を,Skype側に提供しているのかもしれない.
  • なぜ今月のWindowsUpdateの更新時に,そのような不具合が起こったのか? たとえば,今月のWindowsUpdate配布が,サーバ増強等により,これまでよりも,多くのPCに配布する能力があり,結果的に,多くのスーパーノードが再起動したというのであれば,納得できる.しかしMS側の説明では「普段通りだった」とのこと.
  • なぜ今月のWindowsUpdateの配布が開始された8月14日から2日後の,16日に障害が発生したのか? Skype側の説明では,「15日頃から不具合報告があるので,その頃から徐々に負荷があがっていたのだろう」とのこと.P2Pネットワークに対する負荷増大が,指数関数的だったのだろうか?
  • Skype側はどのような方法で,通常ノードをスーパーノードに格上げしたのか? おそらくSkype所有のスーパーノードに接続してきたノードやログインサーバに接続してきたノードの中から,適切なノードを選択し,(限定?)格上げ命令をしたのだろうが,本当にそうなのだろうか?ちなみに,普段からSkype側で,スーパーノード数を調節している模様.
  • Self-Heal(自己回復)能力以外に,P2Pネットワークの崩壊危機に対処する別の能力を,Skypeは持っているのか?

 今回の発表から推測すると,おそらくSkype側でも,今回の大規模不具合の,詳しい原因解明はできていないのだろう.しかしこの原因が究明されなければ,Skypeを安心して使用することはできない.特にビジネスでは,今回のような大規模不具合は致命的だ.

 P2Pネットワークが,おそらく非線形の支配する一種の複雑系であり,その挙動やカタストロフィへ陥る兆候などが予想しにくいことは,十分理解できる.しかし,次回のWindowsUpdateまでには,原因を究明し,対策を講じなければ,ユーザーはSkypeに三行半(みくだりはん)を突きつけるかもしれない.


Skypeの全世界規模不具合: エピローグ3 残り火

2007-08-22 02:41:43 | ネットワーク技術

これまでのあらすじ:

数日間続いていたと思われる,高品位音声チャットで有名な無償ソフトSkypeの全世界的規模の通話不能不具合は,Skype側の対処により,終息した.Skype側は,この不具合の原因説明を月曜日にすると約束し,その原因は,ソフト更新を引き金とした,バグの発動によるものだとした.しかし,その説明は抽象的で,様々な謎を残した…のは,前回書いたとおり. 

 Skype側の行った今回の抽象的な原因説明は,意外なところに飛び火した.それはなんとMSだ.

 21日付のITMediaの記事”Skype障害と月例パッチは無関係」、MSが強調”によると,一部のユーザが,Skype側の説明にあった「ソフトの更新」をMicrosoftUpdate(WindowsUpdate)と解釈し,MSに問い合わせを行った模様だ.ただ実際には,MicrosoftUpdateは,今回の障害とは無関係というのが,おおかたの見方のようだ.

 ただしこの記事にも書かれているとおり,Skypeの(ログイン)サーバが,何らかの外的攻撃を受けたとする見方も,未だに根強い.

 セキュリティ上,詳しいことは述べられないのかもしれないが,Skype側には,もう少し詳しい説明をお願いしたいものだ.さもないと,様々な憶測とともに,ユーザたちの「Skypeのセキュリティ」に対する疑念は,払拭できないのではないだろうか?


Skypeの全世界規模不具合: エピローグ2 その理由

2007-08-21 01:11:30 | ネットワーク技術

これまでのあらすじ:

数日間続いていたと思われる,高品位音声チャットで有名な無償ソフトSkypeの全世界的規模の通話不能不具合は,Skype側の対処により,終息した.Skype側は,この不具合の原因説明を月曜日にすると約束した…のは,前回お知らせしたとおり. 

 約束通り,Skype側から原因説明がなされた.それを意訳すると

  1. 最初にSkypeのP2Pネットワークが不安定となった.
  2. その原因は,定例のソフトの更新により,ユーザーが全世界規模で一斉に,リブートしたことから始まった.
  3. このリブートが,ログイン要求の嵐を巻き起こし,P2Pネットワークのリソースを枯渇させた.
  4. その枯渇がさらなる連鎖反応を起こし,P2Pネットワークが崩壊した.

下記が原文の引用.

On Thursday, 16th August 2007, the Skype peer-to-peer network became unstable and suffered a critical disruption. The disruption was initiated by a massive restart of our user’s computers across the globe within a very short timeframe as they re-booted after receiving a routine software update.

The abnormally high number of restarts affected Skype’s network resources. This caused a flood of log-in requests, which, combined with the lack of peer-to-peer network resources, prompted a chain reaction that had a critical impact.

説明はまだ続く.

 私は知らなかったのだが,通常,SkypeのP2Pネットワークには,ネットワークがカタストロフィに至らないための,「self-heal」能力=自己回復能力がある.ところが,ネットワーク・リソースのアローケーション・アルゴリズムに,知られていないバグが存在したため,自己回復能力が速やかに機能しなかったようだ.

下記が原文の引用.

Normally Skype’s peer-to-peer network has an inbuilt ability to self-heal, however, this event revealed a previously unseen software bug within the network resource allocation algorithm which prevented the self-healing function from working quickly. Regrettably, as a result of this disruption, Skype was unavailable to the majority of its users for approximately two days.

説明は続く.

 「以上の理由により,今回の不具合は,Skypeの(ネットワーク・リソースのアローケーション・アルゴリズム)のバグのためであり,いかなる外的攻撃によるものではない.」とSkype側は強調している.

下記が原文の引用.

The issue has now been identified explicitly within Skype. We can confirm categorically that no malicious activities were attributed or that our users’ security was not, at any point, at risk.

説明はまだ続くが,弁明と謝罪といっていいだろう.

 「未曾有のネットワーク崩壊だったが,近年のコミュニケーション技術においては,このようなことは珍しくない.4年間もの間,稼働してきたネットワークを我々は自負している.Skypeは柔軟なコミュニケーションツールを,全世界に提供してきた.Skypeは,様々な改良をしてきているので,ユーザが,今回のような不具合を経験することは今後はないと約束する.最後に,協力してくれたSkypeユーザコミュニティの善意に感謝する.」

下記が原文の引用.

This disruption was unprecedented in terms of its impact and scope. We would like to point out that very few technologies or communications networks today are guaranteed to operate without interruptions.

We are very proud that over the four years of its operation, Skype has provided a technically resilient communications tool to millions of people worldwide. Skype has now identified and already introduced a number of improvements to its software to ensure that our users will not be similarly affected in the unlikely possibility of this combination of events recurring.

The Skype community of users has been incredibly supportive and we are very grateful for all their good wishes.

(Posted at 5:35 AM GMT)

だいたいの意訳はこんなところだ.しかしこの説明を聞いても,私はすっきりした気分になることはできなかった.次のような疑問が,まだ残るからだ.

  1. Skypeのログインは,ログイン用のサーバを使用していないのか?それとも「P2Pネットワークのリソース」に,ログインサーバは含まれるのか?
  2. ソフトの更新によって,全世界的規模のリブートが起こることは,予測できなかったのか?それはSkypeネットワークの自己回復能力により,対処できる負荷であると踏んでいたのか?
  3. 結局,どのような方法でSkype側は対処したのか?

    Skypeクライアント・ソフトの更新なしに,Skype側でどのように対処したのか?

    やはりログインサーバの負荷に関して,ハード的・ソフト的に対処したのか?

    我々の知らない,「裏コマンド」をSkype側から送信し,Skypeクライアントが受信できるようになっていて,強制更新をかけたのか?

 みなさんなら,どう謎を解く?


Skypeの全世界規模不具合: エピローグ1

2007-08-19 07:56:19 | ネットワーク技術

 数日間続いていたと思われる,高品位音声チャットで有名な無償ソフトSkypeの全世界的規模の通話不能不具合は,Skype側の対処により,終息したのは,前回お知らせしたとおり.

 その後,Skype側から,新たな告知があった.それによると,来週の月曜日に今回の不具合の詳細な説明があるようだ.Skype側からの告知を,下記に引用しておく.月曜日に詳細な説明が発表され次第,このブログに内容を紹介する予定.

Hello friends,

Take a deep breath. Skype is back to normal.

On Monday, we’ll provide a more detailed explanation of what happened. Until then, we’d like to apologize and thank you. Precisely in that order.

We know how difficult and frustrating the past two days have been. And still, your good wishes kept flowing in. Thank you for the amazing patience, trust and support!

UPDATED 18 August, 2007 11:00 GMT


Skypeの全世界規模不具合,ほぼ終息する

2007-08-18 17:05:45 | ネットワーク技術

 数日間続いていたと思われる,高品位音声チャットで有名な無償ソフトSkypeの全世界的規模の不具合が,Skype側の何らかの対処により,終息した.2007年8月18日16:34現在,正常にSkypeでログインし,音声チャットが可能となっている.

  Skype側もログインにおける不具合について,終結を宣言した.ただし,SkypeのP2Pネットワークに,徐々に浸透するタイプの「不具合対処」のためか,一部のユーザーにおいては未だに,ログインできても通話ができなかったり,友人のオンライン状態表示が正確でない可能性はあるようだ.これらの問題も,数時間経てば解消するとのこと.下記にSkype側の告知を引用する.

Hello again,

We are pleased to announce that the situation continues to improve. The sign-on problems have been resolved. Skype presence and chat may still take a few more hours to be fully operational. We know what our faithful users have been going through and we thank you for your patience and kind support.

If you are one of the minority who may still be experiencing problems, please be patient. You do not need to adjust or restart your computer. Skype will start working for you very soon.

We will issue a further update when we know that Skype is functioning normally, or if there is further material news.

We’ve commandeered extra supplies of pizza and coffee, and we can promise that the Skype people aren’t going anywhere until they’re happy that everything is back to normal.

Please see our Heartbeat blog for any further updates.

UPDATED 18 August, 2007 00:30 GMT

 これで今回の大騒動も幕引きとなりそうだが,今回の騒動がSkypeの持つ「高度な信頼性」「高度な接続性」のイメージを,著しく傷つけたのは間違いない.特にSkypeは,暗号化された通話が特徴の一つであり,ビジネスユーザーも他のIMソフトに比べて,多いものと思われる.SkypeInSkypeOutを利用しているビジネスユーザーにとっては,この不具合によるビジネスへの影響も少なからずあったと思われ,場合によっては,訴訟問題も考えられる.私も毎日Skypeを使用しているユーザーの一人として,今後の,Skype側の「後始末」に注目していきたい.

 それにしても,今回の不具合の原因は,結局何だったのだろう?ログインがらみの不具合ならば,Skypenoログイン関係のサーバに原因がありそうなのだが…

 Skype側には,是非,不具合原因をユーザーに説明する責任を,まっとうして欲しいものだ.


緊急!Skypeで全世界的規模の不具合発生

2007-08-18 16:31:31 | ネットワーク技術

注意:2007年8月18日の午後に,下記不具合は解決された模様です.

 高品位音声チャットで有名な無償ソフトSkypeにおいて,全世界規模の不具合が発生し,音声チャットができなくなったユーザが大量発生している模様.

 この不具合は,一部のSkypeユーザーにおいて,Skypeを起動し,正しいアカウント(Skype名とパスワード)を入力し,ログインしようとしても,ログインできない,あるいは,ログインしても,しばらくすると自動的にログアウトしてしまうという致命的なもの.

 Skype側の発表によると,これはSkypeのソフト側の問題であり,SkypeのP2Pネットワークの異常ではないようだ.従って,特定のバージョンのSkypeのみの不具合である可能性もある.少なくとも,最新バージョン3.5.0.214においては,この不具合が発生しているようだ.

 Skype側では,「12時間から24時間以内にこの不具合を解決する予定であるため,Skypeを起動したままにしておいてほしい.不具合対策が完了すれば,ログインする.」としているが,日本時間8月18日1:09現在も,この不具合は継続している. 下記にSkypeからの告知を転載する.

16 August, 2007 14:02 GMT: Some of you may be having problems logging in to Skype. Our engineering team has determined that it’s a software issue. We expect this to be resolved within 12 to 24 hours. Meanwhile, you can simply leave your Skype client running and as soon as the issue is resolved, you will be logged in. We apologize for the inconvenience.

 その後、Skype側から発表された情報によると、Skype側のなんらかの対処により、ログインできるようになったユーザーが徐々に増えているようだ。この「対処」がどのようなものかは不明であるが、SkypeのP2Pネットワークに、徐々に広がっていくタイプの「対処」なのかもしれない。その場合は、全Skypeユーザが正常にログインできるようになるためには、それなりの時間がかかるものと思われる。

 また、現在掲示板等において、「Webベース支払いサービスのメンテ失敗」や「ネット攻撃」が、今回の不具合原因としてささやかれているが、これについてはSkype側は、全面的に否定している。下記にSkypeからの告知を転載する.

Hello all,

Here’s the latest on the sign-on problem. We’re on the road to recovery. Skype is stabilizing, but this process may continue throughout the day. An encouraging number of users can now use Skype once again. We know we’re not out of the woods yet, but we are in better shape now than we were yesterday.

Finally, we’d like to dispel a couple of theories that we are still hearing. Neither Wednesday’s planned maintenance of our web-based payment services nor any form of attack was related to the current sign-on issues in any way.

We’ll update you again as soon as we can. Thanks for hanging tight.

Please see our Heartbeat blog for ongoing updates.

UPDATED 17 August, 2007 11:00 GMT

★関連リンク