最適化問題に対する超高速&安定計算

クラスタ計算機やスーパーコンピュータ上での大規模最適化問題やグラフ探索などの研究のお話が中心

CUDA 6.0 ドロップインライブラリ その2

2014年07月31日 00時11分39秒 | Weblog
前回のドロップインライブラリの続き。GeForce GTC TITAN ならば使用した方が速いが、Tesla C1060 では使用しない方が速い。

○ mcp2000-10.dat-s
実行マシン1:19.31s (CPU)
実行マシン1:10.96s (CPU + GPU)
実行マシン2:29.96s (CPU)
実行マシン2:43.79s (CPU + GPU)

○ mcp5000-10.dat-s
実行マシン1:258.35s (CPU)
実行マシン1:101.43s (CPU + GPU)
実行マシン2:401.63s (CPU)
実行マシン2:699.53s (CPU + GPU)

○実行マシン1のスペック
Intel(R) Core(TM) i7-3930K CPU @ 3.20GHz + GeForce GTX TITAN x 2 + メモリ 12GB + CentOS 6 + CUDA 6 + Intel Compiler 14.0.3
○実行マシン2のスペック
Intel(R) Core(TM) i7-2600K CPU @ 3.40GHz + GeForce Tesla C1060 + メモリ 8GB + CentOS 6 + CUDA 6 * Intel Compiler 14.0.3
コメント
この記事をはてなブックマークに追加

QAPLIB : tai35b

2014年07月30日 00時58分37秒 | Weblog
QAPLIB の Tai35b の問題では、現在の上界値が 283315445 で下界値が 242172800 となっている。

Tai35b 35 283315445 (Ro-TS) 242172800 (SDRMS-SUM) 14.52 %

九州大学情報基盤研究開発センターのスパコン CX400 の 128 ノード (256CPU + 128GPU) 上で Tai35b に対する DNN 緩和問題(SDP) を SDPARA 7.6.0-G を用いて解いてみたところ、下界値は 269741042.72 (整数値にすると 269741043) となった。

Cholesky 分解の性能値は 128GPU (NVIDIA K20m)で約 87.9 TFlops となっている。
[gpdpotrf] ### END n=709275, nb=1024, 8x16 procs, ver 30: 1353.033721sec --> 87905.101987GFlops ###

コメント
この記事をはてなブックマークに追加

キーテクノロジーを牽引する数学博士養成プログラム

2014年07月29日 00時58分17秒 | Weblog
キーテクノロジーを牽引する数学博士養成プログラム

本プログラムは、数理学分野の九州大学リーディングプログラムとして、技術の未来を担うマス・フォア・インダストリの国際的研究人材である【数理ナビゲータ】を養成します。

数理ナビゲータとは、現代数学を知識基盤に研究開発部門でチームを率い、抽象化・普遍化力を武器に、実データの解析と数理モデルの構築を通じ、課題を抜本解決し、新しい視点を提供することで、未来テクノロジーを牽引する数学博士を言います。

私もプログラム担当者となっております。
プログラム担当者
コメント
この記事をはてなブックマークに追加

グローバルサイエンスキャンパス

2014年07月28日 22時41分21秒 | Weblog
高校生の募集と選抜だそうです。極めて優秀ならば、飛び級でそのまま大学に入れても良いと思います。

グローバルサイエンスキャンパス

「グローバルサイエンスキャンパス」は、将来グローバルに活躍しうる傑出した科学技術人材を育成することを目的とした事業です。具体的には、地域で卓越した意欲・能力を持つ高校生などを募集・選抜し、国際的な活動を含む高度で体系的な理数教育プログラムを開発・実施する大学の企画を支援します。実施にあたっては、都道府県教育委員会または政令指定都市教育委員会などと連携し、地域の才能育成拠点としてコンソーシアム(推進協議会)を組織し、地域ぐるみで生徒の才能育成に取り組みます。
コメント
この記事をはてなブックマークに追加

OpenBLAS 0.2.10

2014年07月27日 00時04分21秒 | Weblog
OpenBLAS の 0.2.10 が公開されています。

https://github.com/xianyi/OpenBLAS/wiki/download

Intel Haswell に対応しているようですが、Intel i7-4860EQ では make 出来ませんでした。
コメント
この記事をはてなブックマークに追加

SGI UV2000 と Graph500

2014年07月26日 03時43分13秒 | Weblog
データ同化スーパーコンピュータシステムがビッグデータ処理性能ベンチマーク「Graph 500」において、共有メモリ型並列コンピュータとして世界第一位の性能を達成。

大学共同利用機関法人 情報・システム研究機構 統計数理研究所(所在地:東京都立川市、所長:樋口知之)は、九州大学マス・フォア・インダストリ研究所(所在地:福岡県福岡市、所長:若山正人、以下IMI)、日本SGI株式会社(本社:東京都渋谷区、代表取締役社長:望月学)と協力して、本研究所で本年4月から稼働中の世界最大規模の共有メモリ領域を持つ「SGI UV 2000」で構成されるデータ同化スーパーコンピュータシステム(愛称「A」,*1)において、大規模データ処理性能を計測するベンチマークテスト「Graph 500 」ベンチマークテストを実施し、131.427 GTEPS (1秒間に約 1,314億枝のグラフ探索性能)という高スコアを記録しました。これはシングルノードのメモリ共有メモリ型並列コンピューティングシステムとして初の100GTEPS越えで、同種のシステムでは世界第一位の性能であることが示されました(*2)。

さらにグラフ探索時の省電力性能を計る「Green Graph 500 」 において 12.41881MTEPS / W (1ワットの電力で 1,241万枝のグラフ探索性能)という高性能を達成しました。統計数理研究所では、本年7月から「A」による国内の大学・研究機関のスパコンを共同利用できる革新的ハイパフォーマンス・コンピューティング・インフラ(HPCI )への計算資源の提供を開始しています。今回、「A」が示したビッグデータ解析における高い処理能力性能により、大規模データ時代の予測と意思決定のためのモデリング研究が一層推進されることが期待されます。

(*1) http://www.ism.ac.jp/ura/press/ISM2014-01.html
(*2) 2014年6月22日から26日までドイツ・ライプチヒにて開催された国際会議ISC ’14 (International Supercomputing Conference)で発表された最新のGraph 500リスト(2014年6月版 http://www.graph500.org/results_jun_2014)にて公表された結果。


コメント
この記事をはてなブックマークに追加

SHIELD Tablet

2014年07月25日 00時22分53秒 | Weblog
NVIDIAが「SHIELD Tablet」を発表、ワイヤレスパッドでどこでも遊べる新型ゲーミングタブレット

「NVIDIA SHIELD Tablet」は1920x1200解像度の8インチフルHDディスプレイを備えており、モバイルプロセッサ「Tegra K1」を搭載しているゲーミングタブレット。タッチパネルでの操作のほか、単体版「SHIELD」のパッド部分を応用した「NVIDIA SHIELD wireless controller」にも対応しています。Xbox 360やPCゲームに慣れ親しんだユーザーには馴染み深いデザインで、気軽に持ち運べながらも本格派なゲームデバイスとしての活用が期待されます。
コメント
この記事をはてなブックマークに追加

CUDA 6.0 ドロップインライブラリ

2014年07月24日 01時25分06秒 | Weblog
CUDA 6.0 ドロップインライブラリに関しては、こちらを参照のこと。

最初に nvblas.conf というファイルを作成する。SDPA 7.4.0 の場合では以下のように作成。結果は以下の通りでかなりの高速化が期待できる。

nvblas.conf
-----------------
NVBLAS_LOGFILE nvblas.log
NVBLAS_CPU_BLAS_LIB libmkl_intel_ilp64.so \
libmkl_core.so \
libmkl_intel_thread.so
NVBLAS_GPU_LIST 0 # ALL, ALL0 NVBLAS_TILE_DIM 2048
NVBLAS_TILE_DIM 2048
NVBLAS_AUTOPIN_MEM_ENABLED


1: SDPA 7.4.0 : CPU だけで実行
./sdpa ~/data/mcp2000-10.dat-s out1
○ mcp2000-10.dat-s : 19.31s
○ mcp5000-10.dat-s : 258.35s

2: SDPA 7.4.0 : CPU + GPU で実行
LD_PRELOAD=/usr/local/cuda-6.0/lib64/libnvblas.so ./sdpa ~/data/mcp1000-10.dat-s out2
○ mcp2000-10.dat-s : 10.96s
○ mcp5000-10.dat-s : 101.43s


○実行マシンのスペック
Intel(R) Core(TM) i7-3930K CPU @ 3.20GHz + GeForce GTX TITAN x 2 + メモリ 12GB + CentOS 6 + CUDA 6 + Intel Compiler 14.0.3
コメント
この記事をはてなブックマークに追加

GTC Japan 2014 : セッションスライド公開

2014年07月23日 01時02分58秒 | Weblog
イベント名   GTC Japan 2014
主   催   エヌビディア合同会社
共   催   東京工業大学 GPU コンピューティング研究会
日   時   2014年7月16日(水) 10:00 ~ 19:30
場   所   東京ミッドタウンホール & カンファレンス
         http://www.gputechconf.jp

近日中に発表スライドについて公開予定です。
http://www.gputechconf.jp/page/sessions.html
コメント
この記事をはてなブックマークに追加

tai31a に対する DNN 緩和問題

2014年07月22日 08時05分41秒 | Weblog
こちらのサイトに QAP の問題が多数収録されている。

tai31a に関して、現在の上界値は 1945072 となっている。以下は tai31a に対する DNN 緩和問題を SDPARA 7.6.0-G を用いて解いた結果である。使用した計算機は九州大学スパコン CX400 で、cx-g-middle キュー(128CPU + 64GPU)を用いた。

64GPU(NVIDIA Tesla K20m) による Cholesky 分解の性能は約 45.5TFlops となっている。
[gpdpotrf] ### END n=433411, nb=1024, 8x8 procs, ver 30: 596.469334sec --> 45497.801690GFlops ###

DNN 緩和問題の最適解による下界値は 1813271 となるので、上界(1945072)と下界(1813271)の gap は約 7.27% となる。
40 2.1e-11 5.8e-10 1.1e-12 +7.73e-01 +7.73e-01 2.1e-01 2.2e-01 1.00e-01

phase.value = pdOPT
Iteration = 40
mu = +2.0868344993717805e-11
relative gap = +9.2148511043887993e-15
gap = +9.2148511043887993e-15
digits = +1.3923840065993467e+01
objValPrimal = +7.7326506207176393e-01
objValDual = +7.7326506207175472e-01
p.feas.error = +5.8794496378042983e-08
d.feas.error = +1.0904347169332069e-10
total time = 47681.815763
main loop time = 47664.554858
total time = 47681.815763
file check time = 0.000000
file change time = 0.016259
file read time = 17.244646
SDPA end at [Mon Jul 21 04:43:46 2014]
ALL TIME = 48079.562744
コメント
この記事をはてなブックマークに追加

スタディ・グループ ワークショップ 2014

2014年07月21日 02時17分52秒 | Weblog
スタディ・グループ ワークショップ 2014

開催時期 2014-07-30 09:50~2014-08-01 17:00

場所 九州大学 伊都キャンパス(2013/07/30-8/1), 東京大学大学院数理科学研究科(2013/08/4-5)

スタディ・グループは、産業界における数学的問題を解決すること、あるいは数学を軸にした産業界との共同研究や連携活動の種を見出し、その芽を育てることを目的に、1968年にオックスフォード大学で始まりました。活動内容は、産業界などの異分野から、予め設定されたテーマ・領域などを中心に、個々が抱える未解決の数学的問題(数学を使えば解決に至ると期待できる課題など)を数学研究者に対して紹介・解説し、それに興味を持った聴衆のなかの研究者が、概ね一週間の会期中、当該問題の提出者と協力し、ときにはその正しい数学的定式化も含め、解決を目指すというものです。提起された問題は、会期中に解けてしまうこともあります。また、解決はできなかったもののその糸口が見つかり、その後、契約等を結び共同研究を推進して行くケースもしばしばです。もちろん、具体的な解決に結びつかないこともあります。が、それは失敗ではありません。事実その場合でも、数学研究に携わる者にとっては、産業や異分野の問題に接することができる貴重な体験となります。一方、問題を提起してくださる側にも、問題が数学的に明確にできるという点でメリットが あるとされています。 さらに、解決を目指すプロセスに身を置くことを通じて、参加した大学院生やポスドクを含む若い人たちの興味・関心も広がり、キャリアパスの多様化を生むなどさまざまな効果が期待できます。
コメント
この記事をはてなブックマークに追加

NVIDIA Jetson TK1 での SDPA

2014年07月20日 01時44分28秒 | Weblog
NVIDIA Jetson TK1 で SDPA が動作するようになりましたので、Intel Core i7 のサーバを性能比較してみました。

○ソフトウェア
SDPA 7.3.8
BLAS ライブラリ:OpenBLAS 0.2.8 と OpenBLAS 0.2.9 for ARMv7 を用いる。

○問題1:mcp500-1.dat-s
Core i7 : 0.71s
ARNv7 : 10.72s

○問題2:theta6.dat-s
Core i7 : 6.71s
ARMv7 : 136.69s

○問題3:LiH.1Sigma+.STO6G.pqgt1t2p.dat-s
Core i7 : 14.69s
ARMv7 : 124.74s


◯Core i7 サーバ
CPU : Intel(R) Core(TM) i7-3930K CPU @ 3.20GHz x 1
メモリ : 32GB

○ JetsonTK1
CPU : ARMv7 x 1
メモリ:2GB
コメント
この記事をはてなブックマークに追加

HPC ワークショップ in 九州(博多駅) 終了

2014年07月19日 12時25分32秒 | Weblog
以下のワークショップは昨日開催されまして、無事かつ盛況に終えることが出来ました。
次回は九州大学情報基盤研究開発センターとの共催で別の企画を考えたいと思います。

HPC Activities in Kyushu
http://imi.kyushu-u.ac.jp/lasm/hpc2014/

日程 平成 26 年 7 月 18 日 (金) 10:00-16:30

場所 JR 博多駅シティ会議室 10 階大会議室

目的 GPU 等のアクセラレータが登場したことによって、 この10年間でハイパフォーマンス・コンピューティング (HPC) 技術の適用範囲が飛躍的に広がりました。 これまでのものづくりや自然現象の予測などの分野に加えて、社会現象の解析と最適化への適応が始まっています。 特にヒト・モノ・カネの移動性や変動性 (いわゆるモビリティ) に関しては実データを用いた都市の中てでの社会実験と共に 大規模データの処理に適したスーパーコンピュータ上での計算による解析の重要性が注目されています。 今回のワークショップでは九州地区での HPC の取り組みを紹介すると共に、 国内外から講演者を招聘して次世代のエクサスケールスーパーコンピュータについての展望等についても紹介いただく予定です。
コメント
この記事をはてなブックマークに追加

九大スパコン CX400 での SDPARA

2014年07月18日 01時38分03秒 | Weblog
九大スパコン CX400 での SDPARAの結果です。16GPU(NVIDIA Tesla K20m)で 10.6TFLOPS, 64GPU で 24.4TFLOPSとなってます。

高性能演算サーバ( CX400 )の制限値
cx-g-small 16 16×16 113GB×16 2日間 Tesla K20m用; 16ノードまで利用可能
[gpdpotrf] ### END n=161989, nb=1024, 4x4 procs, ver 30: 133.118150sec --> 10643.832833GFlops ###

cx-g-middle 64 16×64 113GB×64 1日間 Tesla K20m用; 64ノードまで利用可能
[gpdpotrf] ### END n=161989, nb=1024, 8x8 procs, ver 30: 58.064900sec --> 24401.787268GFlops ###

コメント
この記事をはてなブックマークに追加

HP Apollo 8000

2014年07月17日 01時28分10秒 | Weblog
サーバ内の蓄積密度や冷却効率を考えるとなかなか優れた製品ではないかと予想


新しいテクノロジーはビジネスの成功要因だ - HP ジム・メリット氏


HP Apollo 8000は、行政機関や学術機関向けのハイパフォーマンスコンピューティング(HPC)システム「HP Apolloファミリ」に属する。

Apollo 8000では、高度な処理能力と水冷設計を組み合わせ、低消費電力を実現している。1ラックあたり最大144台のサーバを格納可能で、空冷式のデザインに比べて1ラックあたり4倍のテラフロップを提供する。また、高いエネルギー効率により、二酸化炭素排出量を年間最大3,800トン削減できるという。

水冷式の冷却は、パイプの中に少量の水がり、これが蒸発することによって、気化熱を奪う。サーバからの熱は、サーバのサイドにある熱交換器で取り除かれる。また、企業は、システムの冷却で発生した温水を施設の熱源として再利用することもできるという。
コメント
この記事をはてなブックマークに追加