最適化問題に対する超高速&安定計算

クラスタ計算機やスーパーコンピュータ上での大規模最適化問題やグラフ探索などの研究のお話が中心

CUDA 9.1 Patch 1 (Released Jan 25, 2018) その2

2018年02月28日 00時31分19秒 | Weblog
CUDA 9.1 Patch 1 (Released Jan 25, 2018)

Patch 1 (Released Jan 25, 2018) Download (112.9 MB)
cuBLAS Patch Update: This update to CUDA 9.1 includes new GEMM kernels optimized for the Volta architecture and improved heuristics to select GEMM kernels for given input sizes.

前回の続きですが、matrixMulCUBLAS の方は相当速くなりました。。。

パッチ適用前
# ./matrixMulCUBLAS
[Matrix Multiply CUBLAS] - Starting...
GPU Device 0: "Tesla V100-PCIE-16GB" with compute capability 7.0

GPU Device 0: "Tesla V100-PCIE-16GB" with compute capability 7.0

MatrixA(640,480), MatrixB(480,320), MatrixC(640,320)
Computing result using CUBLAS...done.
Performance= 3544.62 GFlop/s, Time= 0.055 msec, Size= 196608000 Ops
Computing result using host CPU...done.
Comparing CUBLAS Matrix Multiply with CPU results: PASS

パッチ適用後
# ./matrixMulCUBLAS
[Matrix Multiply CUBLAS] - Starting...
GPU Device 0: "Tesla V100-PCIE-16GB" with compute capability 7.0

GPU Device 0: "Tesla V100-PCIE-16GB" with compute capability 7.0

MatrixA(640,480), MatrixB(480,320), MatrixC(640,320)
Computing result using CUBLAS...done.
Performance= 7441.86 GFlop/s, Time= 0.026 msec, Size= 196608000 Ops
Computing result using host CPU...done.
Comparing CUBLAS Matrix Multiply with CPU results: PASS


コメント

CUDA 9.1 Patch 1 (Released Jan 25, 2018)

2018年02月27日 00時15分12秒 | Weblog
CUDA 9.1 Patch 1 (Released Jan 25, 2018)

Patch 1 (Released Jan 25, 2018) Download (112.9 MB)
cuBLAS Patch Update: This update to CUDA 9.1 includes new GEMM kernels optimized for the Volta architecture and improved heuristics to select GEMM kernels for given input sizes.

と書いてあるのですが、パッチ適用後も性能は特に変化ありません。。。

パッチ適用前
./matrixMul -device=0 -wA=4096 -hA=4096 -wB=4096 -hB=4096
[Matrix Multiply Using CUDA] - Starting...
gpuDeviceInit() CUDA Device [0]: "Tesla V100-PCIE-16GB
MatrixA(4096,4096), MatrixB(4096,4096)
Computing result using CUDA Kernel...
done
Performance= 3831.02 GFlop/s, Time= 35.875 msec, Size= 137438953472 Ops, WorkgroupSize= 1024 threads/block
Checking computed result for correctness: Result = PASS

パッチ適用後
# ./matrixMul -device=0 -wA=4096 -hA=4096 -wB=4096 -hB=4096
[Matrix Multiply Using CUDA] - Starting...
gpuDeviceInit() CUDA Device [0]: "Tesla V100-PCIE-16GB
MatrixA(4096,4096), MatrixB(4096,4096)
Computing result using CUDA Kernel...
done
Performance= 3831.19 GFlop/s, Time= 35.874 msec, Size= 137438953472 Ops, WorkgroupSize= 1024 threads/block
Checking computed result for correctness: Result = PASS


コメント

発掘!新たなビジネスアイデア!

2018年02月26日 22時29分14秒 | Weblog
発掘!新たなビジネスアイデア! ~気象データを利用したビジネス 創りませんか?~

http://www.jma-net.go.jp/fukuoka/gyomu/file/ideathon/index.html

「発掘!新たなビジネスアイデア!」は気象データとIoT/AI技術を関連づけながら、
グループワークを通じて気象データを用いたビジネスのアイデアを考え出していく企画です。
気象やIoTの専門家、異なった専攻の方と一緒に今までになかったアイデアを見つけてみませんか?

共催:福岡管区気象台
   気象ビジネス推進コンソーシアム(WXBC)

○日時
平成30年3月3日(土)13:30~17:00(開場13:00)※終了後、1時間程度の意見交換会を実施予定(自由参加)
タイムテーブル
○会場
福岡管区気象台 2F 大会議室
気象台へのアクセス
○対象
18歳以上~30歳未満の方(専攻分野は問いません)
○参加費
無料(会場までの交通費は各自でご負担ください)
○参加方法
メール受付による事前登録制となっております。(定員24名)
参加ご希望の方は必要事項を記入の上、以下の宛先へお申し込みください。募集締切:平成30年2月28日15時
宛先:福岡管区気象台業務課 3CP広報係 fk-kanku@met.kishou.go.jp
件名:【発掘!新たなビジネスアイデア!】参加申し込み
[必要事項]
氏名
フリガナ
年齢(平成30年3月3日時点)
所属学校/学科/研究室など
当日緊急連絡先
※当日、災害発生等により中止とする場合の連絡に利用させていただきます。
連絡用メールアドレス
※当方より参加に必要な書類をメールで送付します。送信したメールアドレスと連絡先が異なる場合に記入してください。
コメント

abci.ai

2018年02月25日 01時09分29秒 | Weblog
abci.ai というホームページ。まだ ABCI 建設予定地という写真が載っているだけです。。。

コメント

SIAM PP 18 プログラム変更

2018年02月24日 00時54分28秒 | Weblog
MS125
High Performance Computing in Optimization - Part III of III
2:30 PM - 4:10 PM
Room: 63-201/202

For Part II, see MS114

High performance computing (HPC) becomes increasingly relevant in solving large-scale optimization problems in many applications areas such as operations research, energy systems, industrial engineering, advanced manufacturing, and others. Despite being in its infancy, HPC optimization was successfully used to solve problems of unprecedented sizes. The mainstream computational approaches are parallelization of linear algebra, optimization decomposition algorithms and branch-and-bound searches. This minisymposium on HPC optimization will host a series of presentations on parallel methods and software implementations and is aimed at fostering interdisciplinary collaborations between the optimization and parllel processing communities.

Organizer: Katsuki Fujisawa
Kyushu University, Japan
Yuji Shinano
Zuse Institute Berlin, Germany
Olaf Schenk
Università della Svizzera italiana, Switzerland
Kibaek Kim
Argonne National Laboratory, USA
Cosmin G. Petra
Lawrence Livermore National Laboratory, USA
2:30-2:50 Asynchronous Dual Decomposition for Stochastic Mixed-Integer Programs abstract
Kibaek Kim, Argonne National Laboratory, USA; Cosmin G. Petra, Lawrence Livermore National Laboratory, USA; Victor M. Zavala, University of Wisconsin, Madison, USA
2:55-3:15 Assessing Performance of Parallel Branch-and-Bound Algorithms abstract
Ted Ralphs, Lehigh University, USA; Stephen Maher, Lancaster University, United Kingdom ; Yuji Shinanno, Zuse Institute Berlin, Germany
3:20-3:40 Scalable and Provably Convergent Asynchronous Progressive Hedging for Scenario-Based Decomposition of Stochastic Convex Programs abstract
Jean-Paul Watson, Sandia National Laboratories, USA

NEW 3:45-4:05 ParaXpress - A Massively Parallel Mixed Integer Linear Programing Solver with the Potential to Harness Over a Million CPU Cores abstract
Yuji Shinano, Zuse Institute Berlin, Germany; Timo Berthold and Stefan Heinz, Fair Issac Europe Ltd, Germany
Cancelled 2:30-2:50 Parallel Quasi-Newton Methods for the Optimization of Complex Systems Using High-Performance Computing
Cosmin G. Petra, Lawrence Livermore National Laboratory, USA
コメント

日本学術振興会(H31年度)特別研究員-PD・DC、特別研究員-RPDの募集

2018年02月23日 00時05分58秒 | Weblog
日本学術振興会(H31年度)特別研究員-PD・DC、特別研究員-RPDの募集

<日本学術振興会HP>
  https://www.jsps.go.jp/j-pd/index.html

<特別研究員-PD・DC>
  https://www.jsps.go.jp/j-pd/data/boshu/tuti_pddc.pdf

<特別研究員-RPD>
  https://www.jsps.go.jp/j-pd/data/boshu/tuti_rpd.pdf
コメント

SDPARA V100 と P100 その2

2018年02月22日 23時34分29秒 | Weblog
V100 1枚でも 4265.126GFlops ぐらいの性能が出るようです。。。

◯ ソフトウェア SDPARA 7.6.1
◯GPU : Tesla V100 1枚
[gpdpotrf] ### END n=107206, nb=3584, 1x1 procs, ver 50: 96.295sec --> 4265.126GFlops ###
[gpdpotrf] ### END n=82472, nb=3584, 1x1 procs, ver 50: 51.073sec --> 3661.058GFlops ###

◯GPU : Tesla P100 16枚 (4 x 4)
[gpdpotrf] ### END n=82472, nb=4608, 4x4 procs, ver 50: 27.110sec --> 6897.116GFlops ###

◯参考記録
[gpdpotrf] ### END n=379350, nb=5632, 4x4 procs, ver 50: 562.348sec --> 32358.921GFlops ###
コメント

DMMマイニングファーム

2018年02月21日 01時22分59秒 | Weblog

株式会社DMM.com (本社:東京都港区、代表取締役社長 片桐孝憲 http://www.dmm.com/ 以下DMM.com)は、2018年2月9日(金)より石川県金沢市にて仮想通貨の大規模マイニングファームの運営を開始したことをお知らせします。

また、同年3月には1000台規模のマシンが稼働するマイニングファームをショールーム化し、業界関係者はもちろん、一般の方についても予約制にて見学を受け付ける予定です。
当ショールームは3月初頭よりオープンすることを目指しており、一般の方向けの見学については、3月中旬より受付を開始する予定です。
後日一般受付に先駆け、メディア関係者向けの先行受付をご案内致します。

DMMが運営するマイニングファームは国内事業者では他に類を見ない1000台規模のマシンが稼働する大規模なマイニングファームです。寒冷地区にマイニングファームを設立することで、低価格な電力調達を実現し、マイニング収益を最大化します。

▼国内から展開する理由
マイニングファームの海外展開に先駆け、国内にて展開することにより、物資の輸送やメンテナンスの面でスピーディーに対応することができます。
また、マイニングファームをショールーム化し実際にマイニングしている施設をご覧いただくことによって、実稼働しているマシンやファームの施設の案内をうけることができ、国内にいながら、仮想通貨のマイニングに関する理解を深めることにつながります。

▼マイニングする仮想通貨
DMMが運営するマイニングファームでは、ビットコインをはじめライトコイン、イーサリアムなど複数の種類のコインを採掘しています。仮想通貨はまだ黎明期の為、どの通貨が今後主導権を握るのかは不透明です。その為、特定の通貨のリスクに左右されず分散したポートフォリオを構築することによりリスクヘッジを行なっております。

▼DMマイニングファーム公式ページ
https://crypto.dmm.com/

【DMMマイニングファーム概要】
■ 所在地:石川県金沢市
■ マシンフロア延床面積:約500㎡(約150坪)
■ 建物規模:地上2階層構造
1階部分:事務所、マシンフロア
2階部分:事務所
■ 構 造:鉄骨造
■ 見学開始予定:2018年3月中旬
コメント

Hakata Workshop; Winter Meeting 2018

2018年02月20日 00時49分28秒 | Weblog
Hakata Workshop; Winter Meeting 2018
~Discrete Mathematics and its Applications~
URL:http://comb.math.kyushu-u.ac.jp/?Hakata%20Workshop%3BWinter%20Meeting%202018

目的:
離散数学/組合せ数学とその応用に関する講演, および, 数学ソフトウェアの紹介企画を行います, 今回,参加者の交流をさらに深めるために, 研究をする上で作製した数学ソフトウェアを発表・展示する機会を設けようと思います.

開催日 2018年2月22日(木) - 23日(金)

開催場所
2月22日(木)
九州大学 伊都キャンパス ウェスト1号館 4階
IMIオーディトリム (W1-D-413) 前 ホワイエ

2月23日(金) 〒812-0013 福岡市博多区博多駅東1丁目16-14
リファレンス駅東ビル 2階 会議室 Y-2

コメント

地域産業界への「橋渡し」機能を強化

2018年02月19日 01時30分05秒 | Weblog
情報・人間工学領域における連携・協力に関する協定を締結
-地域産業界への「橋渡し」機能を強化-


ポイント
九州地域における橋渡し機能を強化するための連携協力に関する協定書を締結
地域企業が抱える課題を両機関が連携して解決
実証実験の協力や設備の相互利用など、密接な連携を行うための枠組みを構築

公益財団法人 九州先端科学技術研究所【理事長 貫 正義】(以下「ISIT」という)オープンイノベーション・ラボ【ディレクター 荒牧 敬次】と国立研究開発法人 産業技術総合研究所【理事長 中鉢 良治】(以下「産総研」という)情報・人間工学領域【領域長 関口 智嗣】は、九州地域における橋渡し機能を強化することを目的として、連携協力協定書を平成30年2月1日に締結しました。
産総研は、わが国最大級の公的研究機関として、新たな技術の創出とその実用化を担っています。産総研 情報・人間工学領域では、ビッグデータから価値を創造する人工知能技術の開発や、産業や社会システムの高度化に資するサイバーフィジカルシステム技術の開発など、情報技術や人間工学分野における研究を行っています。一方、ISITは、福岡市を拠点として、情報技術やナノテクノロジーなどの先端科学技術分野において、九州地域における産業の振興と経済社会の発展のため活動している公的な研究機関です。ISIT オープンイノベーション・ラボでは、情報技術分野において、地域企業や大学と密接に連携しながら、研究開発やコンサルティング、人材育成などを行っています。
本協定では、九州地域の民間企業が抱える課題に対して、両機関が協力して解決を図ることを目指します。研究成果を産業界に円滑に橋渡しするため、コンソーシアム事業や実証実験などにおける連携や、施設やデータなどの相互利用を想定しています。
また、産総研九州センターで開催されるイベントなどにISITが参画することや、人工知能・ビッグデータ・IoTなどに関連した研究開発を共同で実施することも計画しています。
コメント

チームリーダー募集

2018年02月18日 21時36分10秒 | Weblog
採用情報(研究部門/研究職・技術職) >

チームリーダー募集
募集研究室
計算科学研究センター(仮称) 高性能ビッグデータ研究チーム


研究分野の概要
計算科学研究センターは、計算科学研究機構を改組して平成30年4月1日発足予定の新しいセンターで、計算機科学・計算科学の研究開発機能と「京」スーパーコンピュータの運用機能を併せ持つ組織です。計算科学研究センターは幅広い分野の研究機関と連携し、国際的な研究開発拠点を構築し、我が国の計算科学技術を先導します。計算科学と計算機科学が密接に連携し、計算科学技術の幅広い分野を支える共通基盤としての次世代スーパーコンピュータ(通称ポスト「京」)の開発を2014年4月より進めています。
高性能ビッグデータ研究チームは、ポスト「京」をベースとして、次世代ビッグデータや機械学習の加速、さらにそれを用いた計算科学の加速・高度化の研究・開発を行うことを目的とします。この目的を達成するために、次のような研究テーマが考えられています。

次世代不揮発性メモリを活用した大規模並列I/Oなどのビッグデータの高速化・スケール化
次世代不揮発性メモリを用いたチェックポイント等の高信頼化のスケール化・高速化
深いメモリ階層に対応する超並列アルゴリズムやプログラミング
マルチペタバイト級のデータのテラビット級ネットワークにおける高速転送
ビッグデータとHPCのソフトウェアスタックの統合
機械学習とHPCとの統合と、それによる計算科学の高度化・高速化
超大規模ビッグデータの視覚化や対話型操作

募集職種、募集人数及び職務内容
募集職種・人数
チームリーダー(常勤/任期あり) 1名

職務内容
高性能ビッグデータ研究チームを主宰し、コ・デザインに基づく研究課題の立案・研究開発・成果普及を研究員と共に遂行する。また、開発したソフトウェアを継続的に利用・保守可能となる枠組みの構築が期待される。
コメント

NTT R&Dフォーラム2018

2018年02月17日 00時07分46秒 | Weblog
NTT R&Dフォーラム2018
デジタル技術が彩る未来へ


開催概要
開催日 2018年2月22日(木)・23日(金) 10:00~17:00
会場 NTT武蔵野研究開発センタ
テーマ デジタル技術が彩る未来へ
主催 日本電信電話株式会社
コメント

Tesla C2075 x 4枚で Graph500

2018年02月16日 00時32分32秒 | Weblog
Tesla C2075 x 4 枚でも意外なことに 1GTEPS 以上出ます。。。

============= Result ==============
SCALE: 24
edgefactor: 16
NBFS: 16
graph_generation: 17.183539285
num_mpi_processes: 4
construction_time: 20.752644661
redistribution_time: 1.514821591
min_time: 0.243109
firstquartile_time: 0.247441
median_time: 0.257272
thirdquartile_time: 0.260775
max_time: 0.275781
mean_time: 0.256529
stddev_time: 0.00982171
min_nedge: 268432547
firstquartile_nedge: 268432547
median_nedge: 268432547
thirdquartile_nedge: 268432547
max_nedge: 268432547
mean_nedge: 268432547
stddev_nedge: 0
min_TEPS: 9.73356e+08
firstquartile_TEPS: 1.02936e+09
median_TEPS: 1.04338e+09
thirdquartile_TEPS: 1.08483e+09
max_TEPS: 1.10417e+09
harmonic_mean_TEPS: 1.0464e+09
harmonic_stddev_TEPS: 1.03444e+07
min_validate: 1.59e-07
firstquartile_validate: 2.145e-07
median_validate: 2.355e-07
thirdquartile_validate: 2.4e-07
max_validate: 4.83155
mean_validate: 0.301972
stddev_validate: 1.20789


Mon Feb 5 00:43:20 2018
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 390.25 Driver Version: 390.25 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla C2075 Off | 00000000:02:00.0 On | 0 |
| 30% 70C P0 83W / N/A | 3288MiB / 5301MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 1 Tesla C2075 Off | 00000000:03:00.0 Off | 0 |
| 30% 61C P0 78W / N/A | 3222MiB / 5301MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 2 Tesla C2075 Off | 00000000:83:00.0 Off | 0 |
| 30% 67C P0 76W / N/A | 3228MiB / 5301MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 3 Tesla C2075 Off | 00000000:84:00.0 Off | 0 |
| 30% 76C P0 90W / N/A | 3223MiB / 5301MiB | 0% Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| 0 4559 C ./runnable 1622MiB |
| 1 4560 C ./runnable 1617MiB |
| 2 4561 C ./runnable 1623MiB |
| 3 4562 C ./runnable 1618MiB |
+-----------------------------------------------------------------------------+

マシンの仕様
Intel Xeon + 4 GPU マシン
CPU:Xeon X5690(3.46GHz,6core)×2
Memory:192GB(16GB×12)
HDD:SATA500GB×2
NIC : GbE x 1 & Inifiniband(FDR) x 1
GPGPU:Tesla C2075×4
OS:CentOS 7.4
コメント

Chainer 3.3.0

2018年02月15日 00時20分53秒 | Weblog
CUDA 9.1 + cuDNN 7.0.5 + Chainer 3.3.0 + cupy 2.3.0 + Python 3.6.4 の組合せで動作させてみました。。。

NVIDIA Quadro K620 でも、CPU ( Xeon(R) CPU E5-2687W v4 @ 3.00GHz) 24コアよりもかなり速いようです。

○ CPU 実行のみ
$ time python ./train_mnist.py
GPU: -1
# unit: 1000
# Minibatch-size: 100
# epoch: 20

epoch main/loss validation/main/loss main/accuracy validation/main/accuracy elapsed_time
1 0.186352 0.0989221 0.943083 0.9688 11.391
2 0.0723007 0.095402 0.977817 0.9677 24.3193
3 0.0470672 0.0662951 0.985 0.9793 37.6937
4 0.0351649 0.0791272 0.9888 0.9769 51.5521
5 0.0276496 0.0922011 0.99105 0.9757 65.5114
6 0.0252488 0.0776275 0.992167 0.9777 79.9253
7 0.0230062 0.0786154 0.992467 0.9784 94.551
8 0.0176244 0.0796685 0.994283 0.9803 109.435
9 0.0158112 0.0906824 0.99505 0.9787 124.785
10 0.0149168 0.0736694 0.9951 0.9815 140.244
11 0.012578 0.0810864 0.996033 0.983 156.146
12 0.0159714 0.0898045 0.995133 0.9796 172.44
13 0.012258 0.106515 0.996233 0.979 189.184
14 0.00974748 0.0941018 0.99705 0.9808 206.713
15 0.0124353 0.100479 0.99645 0.9801 224.486
16 0.0096153 0.101046 0.997033 0.9818 242.873
17 0.00955086 0.115592 0.99685 0.9811 261.603
18 0.0126071 0.0961814 0.996433 0.9828 280.604
19 0.00992429 0.121901 0.997067 0.9813 299.934
20 0.0101419 0.112412 0.997083 0.9815 320.127

real 5m22.323s
user 46m27.591s
sys 80m18.202s

○ CPU + GPU 実行
$ time python ./train_mnist.py -g 0
GPU: 0
# unit: 1000
# Minibatch-size: 100
# epoch: 20

epoch main/loss validation/main/loss main/accuracy validation/main/accuracy elapsed_time
1 0.193693 0.109649 0.941067 0.9655 3.58263
2 0.0716577 0.0860594 0.977683 0.9742 6.71554
3 0.0482691 0.0765099 0.984998 0.9774 9.71762
4 0.0343706 0.0782541 0.988765 0.9794 12.7348
5 0.0281391 0.0784323 0.990998 0.9796 15.7445
6 0.0226691 0.0779455 0.992148 0.9785 18.9664
7 0.0197018 0.0815052 0.993465 0.9806 22.1346
8 0.0199337 0.0781468 0.993482 0.9805 25.2467
9 0.0146195 0.0875199 0.995649 0.9797 28.2768
10 0.0150823 0.0881077 0.995282 0.982 31.2886
11 0.0145551 0.118743 0.995316 0.9773 34.2844
12 0.0131148 0.0961625 0.995948 0.981 37.3095
13 0.0128889 0.0710114 0.995932 0.9846 40.3107
14 0.00959946 0.0782425 0.997299 0.9842 43.322
15 0.0119166 0.11542 0.996298 0.9785 46.3243
16 0.0123473 0.113495 0.996298 0.9789 49.3341
17 0.0118735 0.0879922 0.996499 0.9832 52.3695
18 0.00768105 0.120469 0.997966 0.9791 55.3768
19 0.0126242 0.0907392 0.996382 0.9834 58.4051
20 0.00838919 0.115338 0.997599 0.9807 61.4162

real 1m4.962s
user 1m6.165s
sys 0m13.768s



◯計算サーバ
CPU : Intel(R) Xeon(R) CPU E5-2687W v4 @ 3.00GHz x 2
メモリ:512GB
GPU : NIVIDIA Quadra K620 x 1
OS : CentOS 7.4
コメント

六本松:福岡市科学館からの風景

2018年02月14日 00時54分54秒 | Weblog













コメント