GridTeam 諸葛瑾JAPAN

IBMグリッドコンピューティング『WorldCommunityGrid』参加中。
ねこねこソフトも応援中。

サーバトラブルとBacking-Off

2017-07-20 06:20:00 | トラブル情報
(2017/7/20木曜)
7月18日に定期メンテでサーバが停止したのですが、翌19日になっても通信が回復せず。
現在20日木曜の朝ですが、まだ復旧していない。
WCGのツイッターやフォーラムに状況説明あり。サーバ故障らしい。
https://www.worldcommunitygrid.org/forums/wcg/viewthread_thread,40180_offset,40
サーバのカーネル刷新して再起動したが一号機はよかったが、二号機がデータリカバリ失敗エラーらしい。
調査のためのサーバチェックに時間がかかっているらしい。
(データ量が多いからスキャンも時間がかかる&成果データを壊さないように慎重に復旧)
分散化されてるサーバだから、正常サーバ群だけ先行再開させても良さそうですが
無償ボランティアだから、無理に業務再開を急ぐ義務も無いですかね。
フォーラムでは、こうしたトラブル対策のために、
たくさんWorkUinitを貯め込めるようにしてほしい、という書き込みもあり。
私のマネージャも通信リトライを無駄に繰り返している&WUも空っぽで作業しようがない
ので、マネージャは止めておくしか無いですね。


(2014/4/6)
長らくレポート出してませんが(汗、
先に罰金backing-offレポートを。
4月6日に朝から「アップロードがエラー、宿題のダウンロードは出来る」という現象が。
メッセージでは「メンテのため」とあるがアップロードだけ止めるの?
2014/04/06 12:47:14 World Community Grid [error] Error reported by file upload server: Maintenance underway: file uploads are temporarily disabled.
2014/04/06 13:14:38 World Community Grid Message from server: Project is temporarily shut down for maintenance
「2014/04/06 22:03:59 Backing off」で22:43から以降成功、そのころに繋がるようになりました。
公式でメンテだと告知されてたんですね。
https://twitter.com/WCGrid/status/452113933839921152


(2013/5/4)
まだ4月レポート出してませんが、先に罰金backing-offレポートを。
5/4 13時ごろから報告アップロードエラー、ただし私だけ?

よく見ると、クリーンエネルギープロジェクトのを分割アップロードしようとして(1-0から1-4の5ファイル分割)、最後だけサーバに受信してもらえていない??
しかも、他の宿題結果はアップロードできている。なので私だけ部分的にダメっぽい。再起動しても、この1個だけは受信してもらえない。
2013/05/04 13:43:23 World Community Grid [error] Error reported by file upload server: EOF on socket read : asked for 16382, got 186
2013/05/04 13:43:23 World Community Grid Temporarily failed upload of E213121_518_C.33.C31H19NS.02233556.1.set1d06_1_4: transient upload error
2013/05/04 13:43:23 World Community Grid Backing off 1 min 0 sec on upload of E213121_518_C.33.C31H19NS.02233556.1.set1d06_1_4
どうなるのだろう、誰かが諦めてパージ解放削除するのか、延々と再送信&拒否を繰り返すのか。13時から16時になったけどもまだリトライしている...


(2013/3/31 01:19)
3ヶ月放置してすみません、公私忙しく更新できず。
1時19分に、パソコン使っていたら、エージェントから通信エラーのpopupが。
公式ホームページが閲覧できないし、
https://twitter.com/WCGrid公式ツイートではトラブルに言及無し。
ツイッターでも通信できないことに言及が...お一人だけ?
https://twitter.com/nullpogemuta/status/318037524717125632
ということは、少なくとも私の環境が悪いせいではないようです。


■2013/1/22 WCGサーバ停止(Major Outage)有り。日本時間昼12時より
WCGRIDからメールが1/19に来た。
放置してたのですがさっき翻訳させてみた。

There will be an extended outage beginning Tuesday, January 22, 2013 at 3:00 UTC so that work can be done to resolve the recent performance issues.
This outage is anticipated to last up to 24 hours, and during this time you will not be able to send or receive any work units nor will you be able to upload any completed result files.
The World Community Grid website and forums should not be affected by this outage. For up to date information on this issue, please visit this thread in the Known Issues forum.
https://secure.worldcommunitygrid.org/forums/wcg/viewthread?thread=34590
Thank you for your patience while we work to resolve this issue!
Sincerely,
最近のパフォーマンスの問題を解決するため、2013年1月22日 午前3時(UTC)火曜日から停電を予定しています。
この停電は、最大24時間かかることがあり、その時間帯はサーバへは一切の、ワークユニット受信と結果ファイルのアップロードができません。
ワールド·コミュニティー·グリッドのウェブサイトとフォーラムはこの停止によって影響を受けません。
この件に関する最新情報は、「既知の問題のフォーラム」スレッドをご覧ください。
我々がこの問題を解決するまでの間、今しばらくお待ちいただければ幸いです。
敬具

日本だと1月22日の正午でいいのかな>深夜03:00から処理サーバ停止ということは。
処理サーバ系の問題解決のためのメンテであり、WEBサーバ系は稼働してるのかな。