原论坛位置:求助帖:Ruyistudio上仿真很慢是什么原因?
http://bbs.ebaina.com/forum.php?mod=viewthread&tid=80983&fromuid=29788
(出处: 易百纳论坛)
装的030版本的RuyiStudio,昨天跑了一个ssd的功能运行仿真,没有打印中间层结果,整个检测检测网络运行下来,花了156min。
我心想可能是没用GPU运行的原因,今天装了个CUDA,跑SSD检测网络的指令仿真,花了11min。虽然提速了不少,但依然不能接收。
图片中是指令仿真每一层运行的时间。可以看到前面30层中,花费了10min,后面30层却可以很快跑完。问了下之前用020版本RuyiStudio的师兄,他说他以前跑指令仿真、功能仿真都挺快的。
目前还在探索原因。。。实在不行,以后模型转换后就直接上板测试了。
用CUDA跑SSD例程的功能仿真花费181381ms,调试起来还是不方便。。。
下面是功能仿真时GPU运行的效率,有的卷积(尤其时前几层卷积)花费时间较多,8s、9s、17s、18s不等,然后中间的很多层几乎都是1s、2s、4s耗时,也有达到9s的,后续卷积几乎不耗时。
http://bbs.ebaina.com/forum.php?mod=viewthread&tid=80983&fromuid=29788
(出处: 易百纳论坛)
装的030版本的RuyiStudio,昨天跑了一个ssd的功能运行仿真,没有打印中间层结果,整个检测检测网络运行下来,花了156min。
我心想可能是没用GPU运行的原因,今天装了个CUDA,跑SSD检测网络的指令仿真,花了11min。虽然提速了不少,但依然不能接收。
图片中是指令仿真每一层运行的时间。可以看到前面30层中,花费了10min,后面30层却可以很快跑完。问了下之前用020版本RuyiStudio的师兄,他说他以前跑指令仿真、功能仿真都挺快的。
目前还在探索原因。。。实在不行,以后模型转换后就直接上板测试了。
用CUDA跑SSD例程的功能仿真花费181381ms,调试起来还是不方便。。。
下面是功能仿真时GPU运行的效率,有的卷积(尤其时前几层卷积)花费时间较多,8s、9s、17s、18s不等,然后中间的很多层几乎都是1s、2s、4s耗时,也有达到9s的,后续卷积几乎不耗时。