最適化問題に対する超高速&安定計算

大規模最適化問題、グラフ探索、機械学習やデジタルツインなどの研究のお話が中心

CX400 での SDPARA その4

2014年12月22日 16時20分58秒 | Weblog
全実行用のキューなのであまり参考にならないかもしれませんが、以下のようなシェルスクリプトファイルで CX400 の 384 GPU の実行を行っています。

#!/bin/bash
#PJM -L "rscgrp=cx-g-all"
#PJM -L "vnode=384"
#PJM -L "vnode-core=16"
#PJM -P "vn-policy=abs-unpack"
#PJM -L "elapse=300:00"
#PJM -j
#PJM -X
#PJM -o gpu.sample_max_dual.384.1
#PJM -e gpu.err.sample_max_dual.384.1
#PJM --no-stging

source /home/etc/intelMPI.sh

NUM_NODES=$PJM_VNODES
NUM_CORES=16
NUM_PROCS=384
NUM_THREADS=16

export I_MPI_PERHOST=`expr $NUM_CORES / $NUM_THREADS`
export I_MPI_FABRICS=shm:ofa
export I_MPI_PIN_DOMAIN=omp
export I_MPI_PIN_CELL=core

export OMP_NUM_THREADS=$NUM_THREADS
export KMP_STACKSIZE=8m
export KMP_AFFINITY=compact
export LD_LIBRARY_PATH=.:/usr/local/cuda/lib64:/usr/local/cuda/lib:/usr/local/intel/composer_xe_2011_sp1.11.339/mkl/lib/intel64:/usr/local/intel/composer_xe_2011_sp1.11.339/compi
ler/lib/intel64:/home/usr2/i70322a/sdpa-src/sdpara.7.5.0.src-RC2G-new:/home/usr2/i70322a/cuda/lib64:$LD_LIBRARY_PATH


mpdboot -n $NUM_NODES -f ${PJM_O_NODEINF} -r /bin/pjrsh
mpiexec -n $NUM_PROCS /home/usr2/i70322a/sdpa-src/sdpara.sdpara.7.6.0.src-RC1G/sdpara -ds /home/usr2/i70322a/data/Fujitsu/sample_max_dual.dat-s -o /home/usr2/i70322a/sdpa-src/sdp
ara.sdpara.7.6.0.src-RC1G/out.sample_max_dual.dat-s.384.1 -p /home/usr2/i70322a/sdpa-src/sdpara.sdpara.7.6.0.src-RC1G/param.sdpa -id /home/usr2/i70322a/sdpa-src/sdpara.sdpara.7.6
.0.src-RC1G/sdpara.init > /home/usr2/i70322a/sdpa-src/sdpara.sdpara.7.6.0.src-RC1G/output.sample_max_dual.dat-s.384.1
mpdallexit



◯ Parallel Cholesky Factorization


高性能演算サーバシステム (Fujitsu PRIMERGY CX400)
演算ノード 理論演算性能 345.6GFLOPS
主記憶容量 128GB
メモリバンド幅 102.4GB/s
総ノード数 1476ノード
総プロセッサ (コア) 数 2952プロセッサ (23616コア)
理論演算性能(倍精度実数)の総和 966.2TFLOPS
(CPU: 510.1TF, GPGPU[K20m&K20Xm]: 456.1TF)
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする