最適化問題に対する超高速&安定計算

大規模最適化問題、グラフ探索、機械学習やデジタルツインなどの研究のお話が中心

Software in Mathematics Demonstration Track in Hakata Workshop 2018

2018年01月16日 00時56分42秒 | Weblog
Software in Mathematics Demonstration Track in Hakata Workshop 2018

Hakata Workshop(博多ワークショップ)~Discrete Mathematics and its Applications
九州大学 マス・フォア・インダストリ研究所
数学理論先進ソフトウェア開発室

この企画について
数学においても定理や理論をコンピュータ言語で実装する必要性が増しています. 社会への数学理論の還元だけでなく, 実装により数学理論が可視化できさらに数学理論が進化することがしばしばあるからです.
今回の組合せセミナーでは, セミナー参加者の交流をさらに深めるために, 研究をする上で作製した数学ソフトウェアを発表・展示する機会を設けようと思います.
「数学ソフトウェア」と聞くとMathematicaやMatlabのような完成度の高く汎用性のあるものを想像するかもしれませんが, ここではそういったものでなくてもかまいません. 著作権違反のコピーではだめですが, 新規性や独創性等も要求しません. 「○○という数学分野を研究するために, △△というコンピュータ言語でプログラムを書いてみました」や「卒論・修論を書くためにこんな数学に関するプログラムを書きました」といった軽い気持ちで書いたものでもかまいません.


日時
2018年2月22日(木) 16:00~17:30

場所
九州大学伊都キャンパス ウェスト1号館講義室(予定)
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

新 GPU クラスタ 性能測定 その14

2018年01月15日 00時14分34秒 | Weblog
原因はよくわかりませんが、以下の新環境で性能が上がりました。。。

◯ SDPARA 7.6.1

1: CUDA 9.0 & Infiniband MLNX_OFED_LINUX-4.1-1.0.2.0-rhel7.4-x86_64
[gpdpotrf] ### END n=379350, nb=2048, 4x4 procs, ver 50: 1158.714sec --> 15704.452GFlops ###

2: CUDA 9.1 & CentOS 7.4 Infiniband ドライバ
[gpdpotrf] ### END n=379350, nb=2048, 4x4 procs, ver 50: 1121.286sec --> 16228.655GFlops ###


◯追加分
ノード数4
各ノード
CPU : Intel(R) Xeon(R) CPU E5-2650 v3 @ 2.30GHz x 2 : 10cores / 1CPU
GPU : NVIDIA K40m x 2
メモリ:256GB
ネットワーク:GbE x 2 + Mellanox Infiniband FDR x 2
HDD : HP 1000GB 7.2krpm SC 2.5型 6G SATA ハードディスクドライブ
OS : CentOS 7.4


◯現在の GPU クラスタ
ノード数4
各ノード
CPU : Intel(R) Xeon(R) CPU E5-2640 v3 @ 2.60GHz x 2 : 8cores / 1CPU
GPU : NVIDIA K40m x 2
メモリ:256GB
ネットワーク:GbE x 2 + Mellanox Infiniband FDR x 2
HDD : HP 500GB 7.2krpm SC 2.5型 6G SATA ハードディスクドライブ
OS : CentOS 7.4









コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Deadline for Early Registration: January 15, 2018 (JST)

2018年01月14日 00時43分01秒 | Weblog
1月15日が Early Registration の締め切りです。
Deadline for Early Registration: January 15, 2018 (JST)

CALL FOR PARTICIPATION

HPC Asia 2018: International Conference on High Performance Computing
in Asia Pacific Region

http://sighpc.ipsj.or.jp/HPCAsia2018/

January 29-31, 2018, Tokyo, Japan

Sponsored by IPSJ SIGHPC
Technically Co-sponsored by IEEE Computer Society
In cooperation with ACM SIGHPC
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

九大-富士通研究所 技術交流会 2018

2018年01月13日 00時48分30秒 | Weblog
九大-富士通研究所 技術交流会 2018

開催日時
1月18日(木) 13:00 ~ 17:30

開催場所
九州大学 伊都キャンパス ウエスト1号館 D棟 4階 IMIオーディトリアム (W1-D-413)
伊都キャンパスへのアクセス,伊都キャンパスマップ

【プログラム】(随時更新予定です.)
1月18日(木)

13:00 - 13:05 ご挨拶
福本康秀 (九州大学 マス・フォア・インダストリ研究所 所長)

13:05 - 13:20
講演タイトル : 富士通の人工知能研究
講演者 : 穴井 宏和 (富士通研究所 人工知能研究所 プロジェクトディレクター)
【講演概要】
13:40 - 14:00
講演タイトル : パターン認識分野におけるセキュリティ研究
講演者 : 江田 智尊 (九州大学 数理学府 D2)
【講演概要】
14:00 - 14:20
講演タイトル : TBA
講演者 : 野間 唯 (富士通研究所 コンピュータ研究所 主任研究員)

14:20 - 14:40
講演タイトル : Groebner基底の計算アルゴリズムとその利用例
講演者 : 髙橋 康 (九州大学 数理学府 M1)
【講演概要】
14:40 - 15:00
講演タイトル : 大規模データ利活用に向けた省領域データ構造の研究
講演者 : 後藤 啓介 (富士通研究所 人工知能研究所 人工知能基盤PJ 研究院)
【講演概要】

15:00 - 15:15 休憩

15:15 - 15:35
講演タイトル : k-交換システムに対する巨大近傍を用いた局所探索法
講演者 : 江藤 巧馬 (九州大学 数理学府 M2)
【講演概要】
15:35 - 15:55
講演タイトル : IoT×AIの取り組み
講演者 : 倉成 真一 (富士通九州ネットワークテクノロジーズ株式会社 第一ソリューション統括部 AIソリューション部 部長)
【講演概要】
15:55 - 16:15
講演タイトル : Lyndon 文字列とテキスト圧縮の関係について
講演者 : 中島 祐人 (九州大学 システム情報科学研究院 情報学部門 助教)
【講演概要】
16:15 - 16:35
講演タイトル : 富士通のセキュリティ研究開発
講演者 : 鎌倉 健 (富士通研究所 セキュリティ研究所 主管研究員)
【講演概要】
16:35 - 16:40 closing
穴井 宏和 (富士通研究所 人工知能研究所 プロジェクトディレクター)

16:40 - 17:30 交流会
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Chainer 3.2.0 と imagenet その3

2018年01月12日 00時36分16秒 | Weblog
前回の V100 や GeForce GTX 1080 Ti などと比べると極めて遅いです(当然でしょうが)。。。

◯CPU Intel(R) Xeon(R) CPU E5-2670 v3 @ 2.30GHz x 2個 + NVIDIA Quadro K420 1個
$ time python ../imagenet/train_imagenet.py -a alex -g 0 -E 50 train.txt test.txt
epoch iteration main/loss validation/main/loss main/accuracy validation/main/accuracy lr
4 1000 3.40144 0.277312 0.01
9 2000 1.99988 0.510063 0.01
13 3000 1.33209 0.647812 0.01
18 4000 0.883646 0.757375 0.01
23 5000 0.599879 0.827563 0.01
27 6000 0.43296 0.875969 0.01
32 7000 0.329996 0.906187 0.01
37 8000 0.262041 0.924563 0.01
41 9000 0.222094 0.938438 0.01
46 10000 0.197076 0.944594 0.01

real 470m9.974s
user 227m48.250s
sys 284m33.631s

◯CPU Intel(R) Xeon(R) CPU E5-2670 v3 @ 2.30GHz x 2個
# time python ../imagenet/train_imagenet.py -a alex -g -1 -E 50 train.txt test.txt

epoch iteration main/loss validation/main/loss main/accuracy validation/main/accuracy lr
4 1000 3.36402 0.285094 0.01
9 2000 1.95647 0.519844 0.01
13 3000 1.29434 0.657719 0.01
18 4000 0.844572 0.766125 0.01
23 5000 0.561211 0.842094 0.01
27 6000 0.413539 0.8815 0.01
32 7000 0.312991 0.910937 0.01
37 8000 0.254715 0.927937 0.01
41 9000 0.19088 0.945312 0.01
46 10000 0.181867 0.950031 0.01

real 1032m4.749s
user 3634m40.588s
sys 6542m35.312s
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

日本版「量子」コンピューターの選択

2018年01月11日 00時48分30秒 | Weblog
日経サイエンス 2018年2月号
日本版「量子」コンピューターの選択


11月20日,内閣府の革新的研究開発推進プログラム(ImPACT) は,NTTなどと共同で,「世界最大規模の量子コンピューター」を開発し,誰でもインターネットを通じて利用できるクラウドサービスとして提供すると発表した。

量子コンピューター研究は3年前,米国の研究グループが発表した1本の論文をきっかけに様相が一変した。グーグルはこのグループを引き抜いて研究を本格化し,IBMほかIT大手やベンチャー企業,有力大学が研究を加速。それまで20年間にわたって数個にとどまっていた量子ビットの集積度は,今や50ビットに届く勢いだ。中国,米国,EU,オランダ,英国,スウェーデン,オーストラリアも,相次いで大型の研究開発投資を進めている。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Chainer 3.2.0 と imagenet その2

2018年01月10日 00時44分52秒 | Weblog
今回は FP16 の使用による性能の差を見てみました。やり方が悪いのかもしれませんが、差があまり出てません。。。

◯ Tesla V100 : FP32 使用
$ time python ../imagenet/train_imagenet.py -a alex -g 0 -E 50 train.txt test.txt
epoch iteration main/loss validation/main/loss main/accuracy validation/main/accuracy lr
4 1000 3.35799 0.286312 0.01
9 2000 2.00128 0.511656 0.01
13 3000 1.3103 0.657094 0.01
18 4000 0.874036 0.759281 0.01
23 5000 0.598393 0.829406 0.01
27 6000 0.412055 0.881 0.01
32 7000 0.320549 0.909031 0.01
37 8000 0.26741 0.924375 0.01
41 9000 0.204615 0.940969 0.01
46 10000 0.179809 0.949094 0.01

real 7m31.958s
user 43m40.265s
sys 2m8.365s


◯ Tesla V100 : FP16 使用
$ time python ../imagenet/train_imagenet.py -a alex_fp16 -g 0 -E 50 train.txt test.txt
epoch iteration main/loss validation/main/loss main/accuracy validation/main/accuracy lr
4 1000 3.382 0.26975 0.01
9 2000 2.07 0.4945 0.01
13 3000 1.336 0.644 0.01
18 4000 0.8875 0.771 0.01
23 5000 0.621 0.856 0.01
27 6000 0.4445 0.918 0.01
32 7000 0.33525 0.953 0.01
37 8000 0.255875 0.97 0.01
41 9000 0.23675 0.974 0.01
46 10000 0.183125 0.9845 0.01

real 7m20.667s
user 45m0.828s
sys 2m15.185s


◯ GeForce GTX 1080 Ti : FP32 使用
$ time python ../imagenet/train_imagenet.py -a alex -g 1 -E 50 train.txt test.txt
epoch iteration main/loss validation/main/loss main/accuracy validation/main/accuracy lr
4 1000 3.46576 0.267594 0.01
9 2000 2.02987 0.505938 0.01
13 3000 1.33035 0.651531 0.01
18 4000 0.875972 0.757469 0.01
23 5000 0.593854 0.831187 0.01
27 6000 0.429627 0.875313 0.01
32 7000 0.304163 0.911156 0.01
37 8000 0.26019 0.925656 0.01
41 9000 0.212174 0.93975 0.01
46 10000 0.17245 0.949687 0.01

real 7m38.391s
user 45m40.814s
sys 2m2.824s


◯ GeForce GTX 1080 Ti : FP16 使用
$ time python ../imagenet/train_imagenet.py -a alex_fp16 -g 1 -E 50 train.txt test.txt
epoch iteration main/loss validation/main/loss main/accuracy validation/main/accuracy lr
4 1000 3.426 0.26625 0.01
9 2000 2.021 0.50325 0.01
13 3000 1.314 0.6385 0.01
18 4000 0.879 0.781 0.01
23 5000 0.603 0.8665 0.01
27 6000 0.41625 0.93 0.01
32 7000 0.321 0.95 0.01
37 8000 0.254 0.9695 0.01
41 9000 0.223 0.978 0.01
46 10000 0.19 0.983 0.01

real 7m0.676s
user 37m13.339s
sys 1m48.444s
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

SIAM PP18 Deadline for Earlybird Registration is approaching (Jan.20):

2018年01月09日 00時23分08秒 | Weblog
We are happy to invite you to SIAM PP18 (March 7-10, 2018, Tokyo, Japan).
We have record-breaking 126 MS's, and 100+ contributed talks and posters.

Deadline for Earlybird Registration (January 20) is approaching.
Please register NOW at the following site:
http://siampp18.jsiam.org/

SIAM Conference on Parallel Processing for Scientific Computing (PP18)

Waseda University, Tokyo, Japan
March 7-10, 2018
http://www.siam.org/meetings/pp18 http://siampp18.jsiam.org/
Twitter hashtag: #SIAMPP18

Hosted by:
SIAM Activity Group on Supercomputing (SIAG/SC)
The Japan Society for Industrial and Applied Mathematics (JSIAM)
Waseda University
The Joint Usage/Research Center for Interdisciplinary Large-scale Information Infrastructures
(JHPCN)
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Chainer 3.2.0 と imagenet

2018年01月08日 00時36分15秒 | Weblog
やっぱり Tesla V100 や GeForce GTX 1080 Ti は速い。。。

◯ Tesla V100 PCIe
$ time python ../imagenet/train_imagenet.py -g 0 -E 18 train.txt test.txt
epoch iteration main/loss validation/main/loss main/accuracy validation/main/accuracy lr
4 1000 3.43079 0.259062 0.01
9 2000 2.33857 0.428969 0.01
13 3000 1.69085 0.558969 0.01

real 2m52.302s
user 16m11.994s
sys 0m49.653s

◯ GeForce GTX 1080 Ti
$ time python ../imagenet/train_imagenet.py -g 1 -E 18 train.txt test.txt
epoch iteration main/loss validation/main/loss main/accuracy validation/main/accuracy lr
4 1000 3.46599 0.254469 0.01
9 2000 2.37635 0.42025 0.01
13 3000 1.74475 0.546969 0.01

real 2m31.105s
user 13m37.571s
sys 0m35.873s

◯ Tesla K40m
$ time python ../imagenet/train_imagenet.py -g 1 -E 18 train.txt test.txt
epoch iteration main/loss validation/main/loss main/accuracy validation/main/accuracy lr
4 1000 3.49999 0.246375 0.01
9 2000 2.36371 0.418094 0.01
13 3000 1.76144 0.541906 0.01

real 11m7.945s
user 22m9.749s
sys 4m7.984s

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

NVIDIA Tesla V100 と SDPARA

2018年01月07日 01時56分16秒 | Weblog
NVIDIA Tesla V100 (1枚)の性能を SDPARA 7.6.1 を用いて測定してみました。

nb = 3584 ぐらいの値が良さそうです。

[gpdpotrf] ### END n=107206, nb=1024, 1x1 procs, ver 50: 204.023sec --> 2013.060GFlops ###
[gpdpotrf] ### END n=107206, nb=1536, 1x1 procs, ver 50: 146.845sec --> 2796.903GFlops ###
[gpdpotrf] ### END n=107206, nb=2048, 1x1 procs, ver 50: 119.595sec --> 3434.169GFlops ###
[gpdpotrf] ### END n=107206, nb=2560, 1x1 procs, ver 50: 104.077sec --> 3946.207GFlops ###
[gpdpotrf] ### END n=107206, nb=3072, 1x1 procs, ver 50: 94.764sec --> 4334.026GFlops ###
[gpdpotrf] ### END n=107206, nb=3584, 1x1 procs, ver 50: 94.713sec --> 4336.360GFlops ###
[gpdpotrf] ### END n=107206, nb=4096, 1x1 procs, ver 50: 96.872sec --> 4239.726GFlops ###
[gpdpotrf] ### END n=107206, nb=4608, 1x1 procs, ver 50: 99.286sec --> 4136.625GFlops ###
[gpdpotrf] ### END n=107206, nb=5120, 1x1 procs, ver 50: 102.152sec --> 4020.567GFlops ###


◯ソフトウェア SDPARA 7.6.1

◯計算サーバ
CPU : Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10GHz x 2
メモリ:256GB
GPU : NVIDIA Tesla V100 x1 & GeForce GTC 1080 Ti x 2
OS : CentOS 7.4
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Meltdown

2018年01月06日 00時01分17秒 | Weblog
Mac OS, Linux (CentOS), Windows10 のマシンにおいて、すでに(当面の?)対応を完了しました。。。

Meltdown

Meltdownは、Intelのマイクロプロセッサに存在するハードウェアレベルの脆弱性であり、正当な権限のないプロセスが特権メモリにアクセスすることが可能になる恐れがある。この脆弱性は、AMDのマイクロプロセッサには影響しないとセキュリティ研究者によって考えられている。
CVE番号はCVE-2017-5754、脆弱性通称は"Rouge Cache Data Load"。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

NVIDIA Tesla V100

2018年01月05日 01時04分00秒 | Weblog


V100 のメモリバンド幅が非常に大きい。
ちなみに P100 & K40m と GTX 1080Ti & V100 では実行しているマシンが異なるので、Host と Device 間のバンド幅に関しては参考程度に。

# ./bandwidthTest --device=1
[CUDA Bandwidth Test] - Starting...
Running on...

Device 1: Tesla K40m
Quick Mode

Host to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 9840.9

Device to Host Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 8315.7

Device to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 182612.1


# ./bandwidthTest -device=1
[CUDA Bandwidth Test] - Starting...
Running on...

Device 1: GeForce GTX 1080 Ti
Quick Mode

Host to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 11685.8

Device to Host Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 12856.6

Device to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 346895.8


# ./bandwidthTest --device=0
[CUDA Bandwidth Test] - Starting...
Running on...

Device 0: Tesla P100-PCIE-16GB
Quick Mode

Host to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 9215.2

Device to Host Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 7586.4

Device to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 402852.2


# ./bandwidthTest -device=0
[CUDA Bandwidth Test] - Starting...
Running on...

Device 0: Tesla V100-PCIE-16GB
Quick Mode

Host to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 11730.0

Device to Host Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 12879.7

Device to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 741333.3
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

HPC Asia 2018 CALL FOR PARTICIPATION

2018年01月04日 00時36分33秒 | Weblog
CALL FOR PARTICIPATION

HPC Asia 2018: International Conference on High Performance Computing
in Asia Pacific Region

http://sighpc.ipsj.or.jp/HPCAsia2018/

January 29-31, 2018, Tokyo, Japan

Sponsored by IPSJ SIGHPC
Technically Co-sponsored by IEEE Computer Society
In cooperation with ACM SIGHPC
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

1月 IMI Colloquium

2018年01月03日 00時37分55秒 | Weblog
1月 IMI Colloquium

日時:2018年1月10日(水)
16:45-17:45

場所:九州大学 マス・フォア・インダストリ研究所 ウエスト1号館 D棟 4階
 IMIオーディトリアム(W1-D-413)(円形階段教室)

講師:富安 亮子 氏 (山形大学/JSTさきがけ)

講演タイトル:材料科学のデータ解析における高度情報処理適用事例

講演要旨:
高度情報処理は、最近数学外の分野でよく耳にする言葉だが、発表者は、回折データから材料のミクロ情報を読み解く数学的手法開発に長年携わってきた。特に、 「格子決定」「位相回復」という二つのテーマ、その代数学・整数論との意外な関係が、この応用研究を現在まで続けてきた理由である。

代数学や調和解析の典型的な問題と異なり、計測技術を駆使して取得されたデータの真の姿はノイズや様々な因子、有限性の向こう側にある。この自然の声を通 して得られた数学を紹介する
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

新マシン GeForce GTX 1080 Ti その2

2018年01月02日 00時01分38秒 | Weblog


Chainer 3.2.0 で MNIST の実行を行ってみました。

time python ./train_mnist.py -g 1
GPU: 1
# unit: 1000
# Minibatch-size: 100
# epoch: 20

epoch main/loss validation/main/loss main/accuracy validation/main/accuracy elapsed_time
1 0.19217 0.0908331 0.941234 0.9706 4.18323
2 0.0728654 0.0949544 0.976833 0.9705 7.54424
3 0.0468418 0.0857347 0.984999 0.9733 10.9104
4 0.0367249 0.0692376 0.988115 0.9795 14.2286
5 0.029575 0.0858509 0.990298 0.9769 17.6992
6 0.0225167 0.0738301 0.992498 0.9801 21.2803
7 0.022077 0.0807188 0.992532 0.9801 25.1095
8 0.0194491 0.0746321 0.993948 0.9812 28.5453
9 0.0125162 0.083389 0.995782 0.9833 31.859
10 0.0157655 0.0925374 0.995082 0.9782 35.1737
11 0.0156083 0.0888666 0.995299 0.981 38.469
12 0.0131244 0.10147 0.995799 0.9801 41.7732
13 0.0105811 0.0843209 0.996365 0.983 45.0925
14 0.0128965 0.0911568 0.996099 0.9806 48.4146
15 0.00683104 0.105298 0.997882 0.9802 51.7209
16 0.010362 0.102377 0.996932 0.9834 55.0434
17 0.0131538 0.0922663 0.996032 0.9823 58.8243
18 0.00833331 0.107601 0.997382 0.9815 62.45
19 0.0120943 0.110463 0.996666 0.9822 66.1032
20 0.00927191 0.126229 0.997482 0.9805 69.7293

real 1m16.226s
user 1m13.981s
sys 0m18.811s


コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする