中田真秀(なかたまほ)のブログ

研究について、日常について、その他。

NVIDIA Trega TK1のホストCPU側でOpenBLAS benchmark:倍精度4.1GFlops, 単精度4.4GFlops

2016-04-03 11:22:05 | 日記
NVIDIA Jetson TK1のホストCPUでOpenBLASの測定を行った。
などがある。NVIDIA 4-Plus-1™ Quad-Core ARM® Cortex™-A15 CPU で、
アーキテクチャはARMv7の4コア構成、数値計算的にはvfpv4, neonなどが使える。
processor       : 0
model name      : ARMv7 Processor rev 3 (v7l)
Features        : swp half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt
CPU implementer : 0x41
CPU architecture: 7
CPU variant     : 0x3
CPU part        : 0xc0f
CPU revision    : 3


意外にも倍精度4.1GFlops、単精度4.4GFlopsとあまり変わらず。vfpv3を使ってるため
vfpv4, neonの恩恵は受けてない。

$ ./dgemm.goto 1000 2000 10
From : 1000 To : 2000 Step=10 : Trans=N
SIZE Flops Time
1000x1000 : 4124.96 MFlops 0.484853 sec
1010x1010 : 4113.67 MFlops 0.500916 sec
1020x1020 : 4121.21 MFlops 0.514998 sec
1030x1030 : 4093.05 MFlops 0.533943 sec
1040x1040 : 4139.15 MFlops 0.543524 sec
1050x1050 : 4112.77 MFlops 0.562942 sec
1060x1060 : 4131.91 MFlops 0.576496 sec
1070x1070 : 4122.23 MFlops 0.594360 sec
1080x1080 : 4137.41 MFlops 0.608938 sec
1090x1090 : 4106.71 MFlops 0.630690 sec
1100x1100 : 4121.77 MFlops 0.645839 sec
1110x1110 : 4113.29 MFlops 0.664982 se
$ ./sgemm.goto 1500 2000 10
From : 1500 To : 2000 Step=10 : Trans=N
SIZE Flops Time
1500x1500 : 4424.32 MFlops 1.525658 sec
1510x1510 : 4421.28 MFlops 1.557447 sec
1520x1520 : 4432.25 MFlops 1.584663 sec
1530x1530 : 4421.36 MFlops 1.620123 sec
1540x1540 : 4427.78 MFlops 1.649704 sec
1550x1550 : 4421.29 MFlops 1.684518 sec
1560x1560 : 4435.96 MFlops 1.711656 sec
1570x1570 : 4424.21 MFlops 1.749417 sec