今回は FiberSCIP での結果。何故か AMD Opteron 系(Magny-Cours, Istanbul)では、途中で OS ごと暴走してしまうので、Intel Xeon 搭載のマシンで実験を行っている。
Time & Nodes & Nodes Left & Active Solvers & Best Integer & Best Node & Gap
446532 5008439181 29867530 8 237.0000 231.0000 2.60%
446537 5008487700 29865886 8 237.0000 231.0000 2.60%
446542 5008535036 29864202 8 237.0000 231.0000 2.60%
446547 5008581866 29862452 8 237.0000 231.0000 2.60%
446552 5008633371 29860795 8 237.0000 231.0000 2.60%
446557 5008681940 29859061 8 237.0000 231.0000 2.60%
446562 5008730913 29857541 8 237.0000 231.0000 2.60%
446568 5008780504 29855904 8 237.0000 231.0000 2.60%
446573 5008829304 29854215 8 237.0000 231.0000 2.60%
446578 5008877943 29852546 8 237.0000 231.0000 2.60%
446583 5008926936 29850892 8 237.0000 231.0000 2.60%
446588 5008976737 29849226 8 237.0000 231.0000 2.60%
左から三番目の Nodes Left の値が減少傾向に転じているので、良い意味で最後が近づいているのかもしれない。
○計算サーバ (2 CPU x 4 コア = 8 コア)
CPU : Intel Xeon 5550 (2.66GHz / 8MB L3) x 2
Memory : 72GB (18 x 4GB / 800MHz)
OS : Fedora 15 for x86_64
Time & Nodes & Nodes Left & Active Solvers & Best Integer & Best Node & Gap
446532 5008439181 29867530 8 237.0000 231.0000 2.60%
446537 5008487700 29865886 8 237.0000 231.0000 2.60%
446542 5008535036 29864202 8 237.0000 231.0000 2.60%
446547 5008581866 29862452 8 237.0000 231.0000 2.60%
446552 5008633371 29860795 8 237.0000 231.0000 2.60%
446557 5008681940 29859061 8 237.0000 231.0000 2.60%
446562 5008730913 29857541 8 237.0000 231.0000 2.60%
446568 5008780504 29855904 8 237.0000 231.0000 2.60%
446573 5008829304 29854215 8 237.0000 231.0000 2.60%
446578 5008877943 29852546 8 237.0000 231.0000 2.60%
446583 5008926936 29850892 8 237.0000 231.0000 2.60%
446588 5008976737 29849226 8 237.0000 231.0000 2.60%
左から三番目の Nodes Left の値が減少傾向に転じているので、良い意味で最後が近づいているのかもしれない。
○計算サーバ (2 CPU x 4 コア = 8 コア)
CPU : Intel Xeon 5550 (2.66GHz / 8MB L3) x 2
Memory : 72GB (18 x 4GB / 800MHz)
OS : Fedora 15 for x86_64
OSごと暴走とはひどいですね.この件,若干心当たりがあります.SCIPは基本的にはスレッドセーフな設計になっているのですが,ところどころまずい部分がありました.FiberSCIPの開発が,それらまずい部分を修正してきたのですが,どうしてもわからなくて諦めたバグがあります(レース状態で,どのスレッドが何時壊すのかわからないのですが,スレッド固有に使うはずのメモリ領域を他のスレッドが書き換えているとしか思えない状態でした.メモリリークは,当然チェックしているのですが,リークも捕まりませんでした.UndoDBを試用期間だけ使ってもみたのですが,メモリをかなり多く使ったときにだけ起こるため,デバッガ自体がabortしました(たとえ探索木が小さくても,SCIP内部で,Dynamic Programming によりKnapsackをExactに解いたりするので,計算途中に巨大なテーブルを作ったりします).
ところが,まさに今週,それを直した人がいます.バグそのものは捕まえられなかったそうなのですが,原因が想像できたようで,それを確認するために,怪しいと目星をつけた部分のコードを全部書き換えたようです(しかし,良く直せたものです.数ヶ月前に2人かかりで,ほぼ1週間苦しんだ結果,諦めました).少し落ち着いたら,そちらにインストールします.原因が,このバグによるものかどうかわかりませんが,可能性はあるので後日確認してみてください.
OSごと暴走するときに、ログには残らないのですが、画面にエラーメッセージが出ているので、今度報告します。でもこれが発生するのは現在のところ AMD Opteron 系に限定されています。