最適化問題に対する超高速&安定計算

大規模最適化問題、グラフ探索、機械学習やデジタルツインなどの研究のお話が中心

SDPA(SDPARA)のボトルネック その2

2011年08月21日 00時10分06秒 | Weblog
昨日の続き。SCM (Schur Complement Matrix) が疎になる場合では以下のように様相が異なってくる。こちらの方は SCM が密な場合よりもさらに高速化は難しい。

○問題:mater-6.dat-s
11.19 6.41 6.41 1286181 0.00 0.00 dtrsm_ounucopy
10.25 12.28 5.87 325187 0.00 0.00 sdpa::Newton::compute_bMat_sparse_SDP_thread_func(void*)
9.52 17.73 5.45 25391137 0.00 0.00 sdpa::Newton::calF3_thread_2(double&, sdpa::DenseMatrix&, sdpa::DenseMatrix&, sdpa::SparseMatrix&, sdpa::SparseMatrix&
)
5.50 20.88 3.15 21126427 0.00 0.00 blas_lock
5.20 23.86 2.98 dgemm_kernel
5.09 26.78 2.92 10377180 0.00 0.00 sdpa::Lal::plus(sdpa::DenseMatrix&, sdpa::DenseMatrix&, sdpa::SparseMatrix&, double*)
4.54 29.38 2.60 550298 0.00 0.00 sdpa::DenseMatrix::initialize(int, int, sdpa::DenseMatrix::Type)
4.15 31.75 2.38 10377180 0.00 0.00 sdpa::Lal::getInnerProduct(double&, sdpa::SparseMatrix&, sdpa::DenseMatrix&)
2.86 33.39 1.64 10611994 0.00 0.00 exec_blas
2.79 34.99 1.60 dgemm_oncopy

○問題:BroydenTri1000.dat-s
26.58 2.31 2.31 41807 0.00 0.00 sdpa::Newton::compute_bMat_sparse_SDP_thread_func(void*)
5.75 2.81 0.50 22 0.02 0.03 dmumps_148_
5.06 3.25 0.44 3297360 0.00 0.00 blas_lock
4.95 3.68 0.43 537461 0.00 0.00 dtrsm_ounucopy
4.14 4.04 0.36 1358060 0.00 0.00 exec_blas
3.97 4.39 0.35 79485 0.00 0.00 sdpa::DenseMatrix::initialize(int, int, sdpa::DenseMatrix::Type)
2.99 4.65 0.26 7703891 0.00 0.00 sdpa::Newton::calF3_thread_2(double&, sdpa::DenseMatrix&, sdpa::DenseMatrix&, sdpa::SparseMatrix&, sdpa::SparseMatrix&
)
2.99 4.91 0.26 2374922 0.00 0.00 sdpa::Lal::getInnerProduct(double&, sdpa::SparseMatrix&, sdpa::DenseMatrix&)
2.88 5.16 0.25 2607985 0.00 0.00 sdpa::DenseMatrix::setZero()
コメント    この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« SDPA(SDPARA)のボトルネック | トップ | グラフ探索と応用 »
最新の画像もっと見る

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。

Weblog」カテゴリの最新記事