というのも NUMA を考慮してメモリレイアウトを行っていないためである。単純なスレッド並列でもかなりの並列効率を示しているが、少しでも早い方がやはりうれしいので、改善を進めていこうと考えている。
実現方法として、
1. affinity を取得して pthreads で頑張る
2. MPI で別プロセスとして動かす
3. NUMACTL でできそう(?)
4. shellscript 等で単純プロセス分割 が考えられる。
ひとまず 4 が簡単なので試してみよう。
実現方法として、
1. affinity を取得して pthreads で頑張る
2. MPI で別プロセスとして動かす
3. NUMACTL でできそう(?)
4. shellscript 等で単純プロセス分割 が考えられる。
ひとまず 4 が簡単なので試してみよう。
※コメント投稿者のブログIDはブログ作成者のみに通知されます