最適化問題に対する超高速&安定計算

クラスタ計算機やスーパーコンピュータ上での大規模最適化問題やグラフ探索などの研究のお話が中心

自己紹介と重要リンク

2018年10月19日 22時11分55秒 | Weblog
大規模最適化問題に対する超高速&安定計算。
半正定値計画問題(SDP)の対するソフトウェア SDPA, SDPARA の開発者及び SDP の超大規模計算に対する世界記録保持者。
JST CREST ポストペタスケールシステムにおける超大規模グラフ最適化基盤:研究代表者

1: GraphCrest ホームページ (すでに終了)
2: SDPA ホームページ(sourceforge)
3: Katsuki Fujisawa HP
4: 最短路問題 Online Solver
5: SCOPE(「計算と最適化の新展開」研究部会)(すでに終了)
6: Twitter : sdpaninf
コメント
この記事をはてなブックマークに追加

日本学術振興会(H31年度)特別研究員-PD・DC、特別研究員-RPDの募集

2018年02月23日 00時05分58秒 | Weblog
日本学術振興会(H31年度)特別研究員-PD・DC、特別研究員-RPDの募集

<日本学術振興会HP>
  https://www.jsps.go.jp/j-pd/index.html

<特別研究員-PD・DC>
  https://www.jsps.go.jp/j-pd/data/boshu/tuti_pddc.pdf

<特別研究員-RPD>
  https://www.jsps.go.jp/j-pd/data/boshu/tuti_rpd.pdf
コメント
この記事をはてなブックマークに追加

SDPARA V100 と P100 その2

2018年02月22日 23時34分29秒 | Weblog
V100 1枚でも 4265.126GFlops ぐらいの性能が出るようです。。。

◯ ソフトウェア SDPARA 7.6.1
◯GPU : Tesla V100 1枚
[gpdpotrf] ### END n=107206, nb=3584, 1x1 procs, ver 50: 96.295sec --> 4265.126GFlops ###
[gpdpotrf] ### END n=82472, nb=3584, 1x1 procs, ver 50: 51.073sec --> 3661.058GFlops ###

◯GPU : Tesla P100 16枚 (4 x 4)
[gpdpotrf] ### END n=82472, nb=4608, 4x4 procs, ver 50: 27.110sec --> 6897.116GFlops ###

◯参考記録
[gpdpotrf] ### END n=379350, nb=5632, 4x4 procs, ver 50: 562.348sec --> 32358.921GFlops ###
コメント
この記事をはてなブックマークに追加

DMMマイニングファーム

2018年02月21日 01時22分59秒 | Weblog

株式会社DMM.com (本社:東京都港区、代表取締役社長 片桐孝憲 http://www.dmm.com/ 以下DMM.com)は、2018年2月9日(金)より石川県金沢市にて仮想通貨の大規模マイニングファームの運営を開始したことをお知らせします。

また、同年3月には1000台規模のマシンが稼働するマイニングファームをショールーム化し、業界関係者はもちろん、一般の方についても予約制にて見学を受け付ける予定です。
当ショールームは3月初頭よりオープンすることを目指しており、一般の方向けの見学については、3月中旬より受付を開始する予定です。
後日一般受付に先駆け、メディア関係者向けの先行受付をご案内致します。

DMMが運営するマイニングファームは国内事業者では他に類を見ない1000台規模のマシンが稼働する大規模なマイニングファームです。寒冷地区にマイニングファームを設立することで、低価格な電力調達を実現し、マイニング収益を最大化します。

▼国内から展開する理由
マイニングファームの海外展開に先駆け、国内にて展開することにより、物資の輸送やメンテナンスの面でスピーディーに対応することができます。
また、マイニングファームをショールーム化し実際にマイニングしている施設をご覧いただくことによって、実稼働しているマシンやファームの施設の案内をうけることができ、国内にいながら、仮想通貨のマイニングに関する理解を深めることにつながります。

▼マイニングする仮想通貨
DMMが運営するマイニングファームでは、ビットコインをはじめライトコイン、イーサリアムなど複数の種類のコインを採掘しています。仮想通貨はまだ黎明期の為、どの通貨が今後主導権を握るのかは不透明です。その為、特定の通貨のリスクに左右されず分散したポートフォリオを構築することによりリスクヘッジを行なっております。

▼DMマイニングファーム公式ページ
https://crypto.dmm.com/

【DMMマイニングファーム概要】
■ 所在地:石川県金沢市
■ マシンフロア延床面積:約500㎡(約150坪)
■ 建物規模:地上2階層構造
1階部分:事務所、マシンフロア
2階部分:事務所
■ 構 造:鉄骨造
■ 見学開始予定:2018年3月中旬
コメント
この記事をはてなブックマークに追加

Hakata Workshop; Winter Meeting 2018

2018年02月20日 00時49分28秒 | Weblog
Hakata Workshop; Winter Meeting 2018
~Discrete Mathematics and its Applications~
URL:http://comb.math.kyushu-u.ac.jp/?Hakata%20Workshop%3BWinter%20Meeting%202018

目的:
離散数学/組合せ数学とその応用に関する講演, および, 数学ソフトウェアの紹介企画を行います, 今回,参加者の交流をさらに深めるために, 研究をする上で作製した数学ソフトウェアを発表・展示する機会を設けようと思います.

開催日 2018年2月22日(木) - 23日(金)

開催場所
2月22日(木)
九州大学 伊都キャンパス ウェスト1号館 4階
IMIオーディトリム (W1-D-413) 前 ホワイエ

2月23日(金) 〒812-0013 福岡市博多区博多駅東1丁目16-14
リファレンス駅東ビル 2階 会議室 Y-2

コメント
この記事をはてなブックマークに追加

地域産業界への「橋渡し」機能を強化

2018年02月19日 01時30分05秒 | Weblog
情報・人間工学領域における連携・協力に関する協定を締結
-地域産業界への「橋渡し」機能を強化-


ポイント
九州地域における橋渡し機能を強化するための連携協力に関する協定書を締結
地域企業が抱える課題を両機関が連携して解決
実証実験の協力や設備の相互利用など、密接な連携を行うための枠組みを構築

公益財団法人 九州先端科学技術研究所【理事長 貫 正義】(以下「ISIT」という)オープンイノベーション・ラボ【ディレクター 荒牧 敬次】と国立研究開発法人 産業技術総合研究所【理事長 中鉢 良治】(以下「産総研」という)情報・人間工学領域【領域長 関口 智嗣】は、九州地域における橋渡し機能を強化することを目的として、連携協力協定書を平成30年2月1日に締結しました。
産総研は、わが国最大級の公的研究機関として、新たな技術の創出とその実用化を担っています。産総研 情報・人間工学領域では、ビッグデータから価値を創造する人工知能技術の開発や、産業や社会システムの高度化に資するサイバーフィジカルシステム技術の開発など、情報技術や人間工学分野における研究を行っています。一方、ISITは、福岡市を拠点として、情報技術やナノテクノロジーなどの先端科学技術分野において、九州地域における産業の振興と経済社会の発展のため活動している公的な研究機関です。ISIT オープンイノベーション・ラボでは、情報技術分野において、地域企業や大学と密接に連携しながら、研究開発やコンサルティング、人材育成などを行っています。
本協定では、九州地域の民間企業が抱える課題に対して、両機関が協力して解決を図ることを目指します。研究成果を産業界に円滑に橋渡しするため、コンソーシアム事業や実証実験などにおける連携や、施設やデータなどの相互利用を想定しています。
また、産総研九州センターで開催されるイベントなどにISITが参画することや、人工知能・ビッグデータ・IoTなどに関連した研究開発を共同で実施することも計画しています。
コメント
この記事をはてなブックマークに追加

チームリーダー募集

2018年02月18日 21時36分10秒 | Weblog
採用情報(研究部門/研究職・技術職) >

チームリーダー募集
募集研究室
計算科学研究センター(仮称) 高性能ビッグデータ研究チーム


研究分野の概要
計算科学研究センターは、計算科学研究機構を改組して平成30年4月1日発足予定の新しいセンターで、計算機科学・計算科学の研究開発機能と「京」スーパーコンピュータの運用機能を併せ持つ組織です。計算科学研究センターは幅広い分野の研究機関と連携し、国際的な研究開発拠点を構築し、我が国の計算科学技術を先導します。計算科学と計算機科学が密接に連携し、計算科学技術の幅広い分野を支える共通基盤としての次世代スーパーコンピュータ(通称ポスト「京」)の開発を2014年4月より進めています。
高性能ビッグデータ研究チームは、ポスト「京」をベースとして、次世代ビッグデータや機械学習の加速、さらにそれを用いた計算科学の加速・高度化の研究・開発を行うことを目的とします。この目的を達成するために、次のような研究テーマが考えられています。

次世代不揮発性メモリを活用した大規模並列I/Oなどのビッグデータの高速化・スケール化
次世代不揮発性メモリを用いたチェックポイント等の高信頼化のスケール化・高速化
深いメモリ階層に対応する超並列アルゴリズムやプログラミング
マルチペタバイト級のデータのテラビット級ネットワークにおける高速転送
ビッグデータとHPCのソフトウェアスタックの統合
機械学習とHPCとの統合と、それによる計算科学の高度化・高速化
超大規模ビッグデータの視覚化や対話型操作

募集職種、募集人数及び職務内容
募集職種・人数
チームリーダー(常勤/任期あり) 1名

職務内容
高性能ビッグデータ研究チームを主宰し、コ・デザインに基づく研究課題の立案・研究開発・成果普及を研究員と共に遂行する。また、開発したソフトウェアを継続的に利用・保守可能となる枠組みの構築が期待される。
コメント
この記事をはてなブックマークに追加

NTT R&Dフォーラム2018

2018年02月17日 00時07分46秒 | Weblog
NTT R&Dフォーラム2018
デジタル技術が彩る未来へ


開催概要
開催日 2018年2月22日(木)・23日(金) 10:00~17:00
会場 NTT武蔵野研究開発センタ
テーマ デジタル技術が彩る未来へ
主催 日本電信電話株式会社
コメント
この記事をはてなブックマークに追加

Tesla C2075 x 4枚で Graph500

2018年02月16日 00時32分32秒 | Weblog
Tesla C2075 x 4 枚でも意外なことに 1GTEPS 以上出ます。。。

============= Result ==============
SCALE: 24
edgefactor: 16
NBFS: 16
graph_generation: 17.183539285
num_mpi_processes: 4
construction_time: 20.752644661
redistribution_time: 1.514821591
min_time: 0.243109
firstquartile_time: 0.247441
median_time: 0.257272
thirdquartile_time: 0.260775
max_time: 0.275781
mean_time: 0.256529
stddev_time: 0.00982171
min_nedge: 268432547
firstquartile_nedge: 268432547
median_nedge: 268432547
thirdquartile_nedge: 268432547
max_nedge: 268432547
mean_nedge: 268432547
stddev_nedge: 0
min_TEPS: 9.73356e+08
firstquartile_TEPS: 1.02936e+09
median_TEPS: 1.04338e+09
thirdquartile_TEPS: 1.08483e+09
max_TEPS: 1.10417e+09
harmonic_mean_TEPS: 1.0464e+09
harmonic_stddev_TEPS: 1.03444e+07
min_validate: 1.59e-07
firstquartile_validate: 2.145e-07
median_validate: 2.355e-07
thirdquartile_validate: 2.4e-07
max_validate: 4.83155
mean_validate: 0.301972
stddev_validate: 1.20789


Mon Feb 5 00:43:20 2018
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 390.25 Driver Version: 390.25 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla C2075 Off | 00000000:02:00.0 On | 0 |
| 30% 70C P0 83W / N/A | 3288MiB / 5301MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 1 Tesla C2075 Off | 00000000:03:00.0 Off | 0 |
| 30% 61C P0 78W / N/A | 3222MiB / 5301MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 2 Tesla C2075 Off | 00000000:83:00.0 Off | 0 |
| 30% 67C P0 76W / N/A | 3228MiB / 5301MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 3 Tesla C2075 Off | 00000000:84:00.0 Off | 0 |
| 30% 76C P0 90W / N/A | 3223MiB / 5301MiB | 0% Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| 0 4559 C ./runnable 1622MiB |
| 1 4560 C ./runnable 1617MiB |
| 2 4561 C ./runnable 1623MiB |
| 3 4562 C ./runnable 1618MiB |
+-----------------------------------------------------------------------------+

マシンの仕様
Intel Xeon + 4 GPU マシン
CPU:Xeon X5690(3.46GHz,6core)×2
Memory:192GB(16GB×12)
HDD:SATA500GB×2
NIC : GbE x 1 & Inifiniband(FDR) x 1
GPGPU:Tesla C2075×4
OS:CentOS 7.4
コメント
この記事をはてなブックマークに追加

Chainer 3.3.0

2018年02月15日 00時20分53秒 | Weblog
CUDA 9.1 + cuDNN 7.0.5 + Chainer 3.3.0 + cupy 2.3.0 + Python 3.6.4 の組合せで動作させてみました。。。

NVIDIA Quadro K620 でも、CPU ( Xeon(R) CPU E5-2687W v4 @ 3.00GHz) 24コアよりもかなり速いようです。

○ CPU 実行のみ
$ time python ./train_mnist.py
GPU: -1
# unit: 1000
# Minibatch-size: 100
# epoch: 20

epoch main/loss validation/main/loss main/accuracy validation/main/accuracy elapsed_time
1 0.186352 0.0989221 0.943083 0.9688 11.391
2 0.0723007 0.095402 0.977817 0.9677 24.3193
3 0.0470672 0.0662951 0.985 0.9793 37.6937
4 0.0351649 0.0791272 0.9888 0.9769 51.5521
5 0.0276496 0.0922011 0.99105 0.9757 65.5114
6 0.0252488 0.0776275 0.992167 0.9777 79.9253
7 0.0230062 0.0786154 0.992467 0.9784 94.551
8 0.0176244 0.0796685 0.994283 0.9803 109.435
9 0.0158112 0.0906824 0.99505 0.9787 124.785
10 0.0149168 0.0736694 0.9951 0.9815 140.244
11 0.012578 0.0810864 0.996033 0.983 156.146
12 0.0159714 0.0898045 0.995133 0.9796 172.44
13 0.012258 0.106515 0.996233 0.979 189.184
14 0.00974748 0.0941018 0.99705 0.9808 206.713
15 0.0124353 0.100479 0.99645 0.9801 224.486
16 0.0096153 0.101046 0.997033 0.9818 242.873
17 0.00955086 0.115592 0.99685 0.9811 261.603
18 0.0126071 0.0961814 0.996433 0.9828 280.604
19 0.00992429 0.121901 0.997067 0.9813 299.934
20 0.0101419 0.112412 0.997083 0.9815 320.127

real 5m22.323s
user 46m27.591s
sys 80m18.202s

○ CPU + GPU 実行
$ time python ./train_mnist.py -g 0
GPU: 0
# unit: 1000
# Minibatch-size: 100
# epoch: 20

epoch main/loss validation/main/loss main/accuracy validation/main/accuracy elapsed_time
1 0.193693 0.109649 0.941067 0.9655 3.58263
2 0.0716577 0.0860594 0.977683 0.9742 6.71554
3 0.0482691 0.0765099 0.984998 0.9774 9.71762
4 0.0343706 0.0782541 0.988765 0.9794 12.7348
5 0.0281391 0.0784323 0.990998 0.9796 15.7445
6 0.0226691 0.0779455 0.992148 0.9785 18.9664
7 0.0197018 0.0815052 0.993465 0.9806 22.1346
8 0.0199337 0.0781468 0.993482 0.9805 25.2467
9 0.0146195 0.0875199 0.995649 0.9797 28.2768
10 0.0150823 0.0881077 0.995282 0.982 31.2886
11 0.0145551 0.118743 0.995316 0.9773 34.2844
12 0.0131148 0.0961625 0.995948 0.981 37.3095
13 0.0128889 0.0710114 0.995932 0.9846 40.3107
14 0.00959946 0.0782425 0.997299 0.9842 43.322
15 0.0119166 0.11542 0.996298 0.9785 46.3243
16 0.0123473 0.113495 0.996298 0.9789 49.3341
17 0.0118735 0.0879922 0.996499 0.9832 52.3695
18 0.00768105 0.120469 0.997966 0.9791 55.3768
19 0.0126242 0.0907392 0.996382 0.9834 58.4051
20 0.00838919 0.115338 0.997599 0.9807 61.4162

real 1m4.962s
user 1m6.165s
sys 0m13.768s



◯計算サーバ
CPU : Intel(R) Xeon(R) CPU E5-2687W v4 @ 3.00GHz x 2
メモリ:512GB
GPU : NIVIDIA Quadra K620 x 1
OS : CentOS 7.4
コメント
この記事をはてなブックマークに追加

六本松:福岡市科学館からの風景

2018年02月14日 00時54分54秒 | Weblog













コメント
この記事をはてなブックマークに追加

修理行き

2018年02月13日 00時18分01秒 | Weblog
修理行きとなりました。。。

◯計算サーバ
CPU : Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz x 2
メモリ:512GB
GPU : NVIDIA Tesla P100 x 2
OS : CentOS 7.4






コメント
この記事をはてなブックマークに追加

2月 IMI Colloquium 再掲載

2018年02月12日 00時05分58秒 | Weblog
2月 IMI Colloquium

日時:2018年2月14日(水)
16:45-17:45

場所:九州大学 マス・フォア・インダストリ研究所 ウエスト1号館 D棟 4階
 IMIオーディトリアム(W1-D-413)(円形階段教室)

講師:矢田 勝俊 氏 (関西大学)

講演タイトル:センサー、ビッグデータ、そしてマーケティング

講演要旨:
センサーのような新しい情報機器は動的・非構造的データを継続的に生成し、従来、ブラックボックスであった多様な事象の状態についてリッチな情報を我々に提供してくれる。新しいデータはユニークなモデリングによって、大きな付加価値を生み出すことがある。本講演では、センサーを中心とするビジネスのビッグデータをマーケティングでどのように活用していくか、そしてどのような障害が付加価値の創造を妨げるのかを事例を交えながら紹介していきたい。
コメント
この記事をはてなブックマークに追加

新 GPU クラスタ 性能測定 その15

2018年02月11日 00時31分01秒 | Weblog
以下のようにクロックアップしてから SDPARA を実行したところ性能が上がりました。。。
nvidia-smi -i 0 -ac 3004,875"
Applications clocks set to "(MEM 3004, SM 875)" for GPU 00000000:81:00.0

◯ SDPARA 7.6.1
1: クロックアップ後
[gpdpotrf] ### END n=379350, nb=2048, 4x4 procs, ver 50: 990.664sec --> 18368.452GFlops ###

2: クロックアップ前
[gpdpotrf] ### END n=379350, nb=2048, 4x4 procs, ver 50: 1121.286sec --> 16228.655GFlops ###


◯追加分
ノード数4
各ノード
CPU : Intel(R) Xeon(R) CPU E5-2650 v3 @ 2.30GHz x 2 : 10cores / 1CPU
GPU : NVIDIA K40m x 2
メモリ:256GB
ネットワーク:GbE x 2 + Mellanox Infiniband FDR x 2
HDD : HP 1000GB 7.2krpm SC 2.5型 6G SATA ハードディスクドライブ
OS : CentOS 7.4


◯現在の GPU クラスタ
ノード数4
各ノード
CPU : Intel(R) Xeon(R) CPU E5-2640 v3 @ 2.60GHz x 2 : 8cores / 1CPU
GPU : NVIDIA K40m x 2
メモリ:256GB
ネットワーク:GbE x 2 + Mellanox Infiniband FDR x 2
HDD : HP 500GB 7.2krpm SC 2.5型 6G SATA ハードディスクドライブ
OS : CentOS 7.4









コメント
この記事をはてなブックマークに追加

GPU クラスタでの Graph500 性能 : GPU 使用 その2

2018年02月10日 02時42分42秒 | Weblog
以下のようにクロックアップしてから Graph500 を実行したところ性能が上がりました。。。
nvidia-smi -i 0 -ac 3004,875"
Applications clocks set to "(MEM 3004, SM 875)" for GPU 00000000:81:00.0

◯クロックアップ後
============= Result ==============
SCALE: 29
edgefactor: 16
NBFS: 16
graph_generation: 94.6030427101
num_mpi_processes: 16
construction_time: 105.660344754
redistribution_time: 9.3978489982
min_time: 0.913174
firstquartile_time: 0.961941
median_time: 1.03434
thirdquartile_time: 1.1033
max_time: 1.56901
mean_time: 1.06881
stddev_time: 0.164437
min_nedge: 8589858508
firstquartile_nedge: 8589858508
median_nedge: 8589858508
thirdquartile_nedge: 8589858508
max_nedge: 8589858508
mean_nedge: 8589858508
stddev_nedge: 0
min_TEPS: 5.47471e+09
firstquartile_TEPS: 7.78561e+09
median_TEPS: 8.30464e+09
thirdquartile_TEPS: 8.92971e+09
max_TEPS: 9.40659e+09
harmonic_mean_TEPS: 8.03683e+09
harmonic_stddev_TEPS: 3.19255e+08
min_validate: 2.00234e-07
firstquartile_validate: 2.2212e-07
median_validate: 2.47266e-07
thirdquartile_validate: 3.19444e-07
max_validate: 22.1308
mean_validate: 1.38318
stddev_validate: 5.53271


◯クロックアップ前
============= Result ==============
SCALE: 29
edgefactor: 16
NBFS: 16
graph_generation: 132.257772982
num_mpi_processes: 16
construction_time: 109.879436388
redistribution_time: 9.42433531606
min_time: 1.01756
firstquartile_time: 1.11051
median_time: 1.18029
thirdquartile_time: 1.24541
max_time: 1.607
mean_time: 1.19345
stddev_time: 0.141292
min_nedge: 8589858508
firstquartile_nedge: 8589858508
median_nedge: 8589858508
thirdquartile_nedge: 8589858508
max_nedge: 8589858508
mean_nedge: 8589858508
stddev_nedge: 0
min_TEPS: 5.34527e+09
firstquartile_TEPS: 6.89722e+09
median_TEPS: 7.27774e+09
thirdquartile_TEPS: 7.73507e+09
max_TEPS: 8.44163e+09
harmonic_mean_TEPS: 7.19752e+09
harmonic_stddev_TEPS: 2.20015e+08
min_validate: 1.8999e-07
firstquartile_validate: 1.96975e-07
median_validate: 2.3155e-07
thirdquartile_validate: 2.70084e-07
max_validate: 22.5079
mean_validate: 1.40674
stddev_validate: 5.62696


◯追加分
ノード数4
各ノード
CPU : Intel(R) Xeon(R) CPU E5-2650 v3 @ 2.30GHz x 2 : 10cores / 1CPU
GPU : NVIDIA K40m x 2
メモリ:256GB
ネットワーク:GbE x 2 + Mellanox Infiniband FDR x 2
HDD : HP 1000GB 7.2krpm SC 2.5型 6G SATA ハードディスクドライブ
OS : CentOS 7.4


◯現在の GPU クラスタ
ノード数4
各ノード
CPU : Intel(R) Xeon(R) CPU E5-2640 v3 @ 2.60GHz x 2 : 8cores / 1CPU
GPU : NVIDIA K40m x 2
メモリ:256GB
ネットワーク:GbE x 2 + Mellanox Infiniband FDR x 2
HDD : HP 500GB 7.2krpm SC 2.5型 6G SATA ハードディスクドライブ
OS : CentOS 7.4









コメント
この記事をはてなブックマークに追加