·全面的视觉平台集成了新的CEVA-XM6 DSP内核、硬件加速器、神经网络软件框架、软件库和广泛的算法支持
·推动实现面向大众市场智能视觉应用的嵌入式神经网络
·面向自主驾驶、感应和躲避式无人机、虚拟和增强现实、智能监控、智能手机、机器人等应用
专注于智能互联设备的全球领先信号处理IP授权公司CEVA宣布推出一款基于DSP的全新产品,为低功耗嵌入式系统带来深度学习和人工智能(AI)能力。这款全面的可扩展集成硬件和软件IP平台的核心是全新图像和视觉DSP CEVA-XM6 ,使得开发人员能够高效地利用神经网络和机器视觉能力,用于智能手机、无人驾驶车辆、监控、机器人、无人机和其它带有相机功能的智能器件。
与上一代CEVA-XM4智能视觉DSP相比,这个基于CEVA-XM6的新型视觉平台的神经网络性能提高至八倍,所有计算机视觉内核性能改善达到三倍。这个新型架构集成的关键增强功能包括新的矢量和标量处理单元,以及指令集、存储带宽和 DMA的大量增强功能。
这个新型视觉平台进一步扩展了CEVA产品在实施神经网络时与采用GPU的主流架构相比的性能优势。与用于计算机视觉和深度学习的领先GPU嵌入式系统相比,CEVA最新的图像和视觉平台的性能每瓦特效率(performance-per-watt efficiency)提升25倍以上,用于AlexNet和GoogLeNet等卷积神经网络(CNN)的处理速度加快四倍。
CEVA视觉业务部副总裁兼总经理Ilan Yona称:“随着计算机视觉和深度学习技术成为主流,我们需要在高功耗GPU引擎产生的深度神经网络和部署这些功率和性能受限的嵌入式应用之间架起桥梁,消除中间的鸿沟。我们的新型视觉平台在这方面非常出色,为开发人员提供最全面的技术集,能够快速应对这些嵌入式使用案例。”
这款视觉平台集成了大量软件和硬件IP,为在嵌入式系统中部署机器视觉和深度学习提供上市时间和功率优势。除CEVA-XM6 DSP本身之外,这平台还包括CNN特定功能加速器和图像去扭曲(针对所有类型的图像变换)、CEVA受到广泛赞誉的CDNN2神经网络软件框架、OpenCV、OpenCL和OpenVX API、CEVA-CV计算机视觉库,以及一组广泛应用的优化算法。
嵌入式视觉联盟创立者Jeff Bier道:“各种终端产品的设计人员都渴望在其设计中集成视觉智能。通常,这些开发人员使用的视觉和深度学习算法要求以低成本、低功耗,并且可编程的方法提供极高的处理性能。我非常赞赏CEVA长期致力于提供满足这些需求的处理器和软件工具。”
技术特点
CEVA-XM6以强大的CEVA-XM4和CEVA-MM3101处理器为基础,并已经有了超过25个设计项目。它具备了一系列提供突破性神经网络性能和高级计算机视觉处理能力的架构创新和增强功能,包括:
·创新矢量处理单元(VPU)架构:确保95%以上的MAC利用率,是现今业界中无人能及的卓越水平
·增强并行分散 – 集中存储负荷机制:进一步改善视觉算法性能,包括SLAM和深度映射。
·Sliding Window 2.0™ :这个专利机制利用图像处理的像素重叠,有助于在更广泛的神经网络中实现更高的利用率,以及适应这些网络日益增加的复杂性。
·选件32路SIMD矢量浮点单元,其中包括IEEE半精度标准(FP16)和重大的非线性运算增强。
·其它改进包括加速CNN性能的增强3D数据处理方案,与CEVA-XM4相比,控制代码性能改进了50%,并具有进一步缩小代码尺寸的新的可扩展单元及多核和系统集成支持。
除CEVA-XM6 DSP外,这种视觉平台的其它关键部件包括:
·CDNN加速器:16位CDNN加速器具有512 MACs/cycle,确保提供业界最佳性能以处理目前最复杂的神经网络。CDNN加速器还用于释放CEVA-XM6 DSP内的256 MAC单元,允许并行运行其它计算机视觉任务。这种灵活的方法使得CDNN加速器配合CEVA-XM6的架构成为了支持新的图像算法、网络结构和改变快速演变的深度学习空间中的层类型的最佳选择。
·图像去扭曲加速器 :对于宽角摄像头应用,比如360度摄像头来说,图像去扭曲加速器支持ARM帧缓冲压缩(AFBC)协议,提供最佳系统互操作性。
·加速器认知补充软件:在CEVA-XM6 DSP上运行,提供高效加速器利用率,使设计人员能够进一步差异化其产品设计。
·CDNN2软件框架:经优化及与CEVA-XM6和加速器协作,使得开发人员很容易利用此工具生成并将其专有神经网络移植到CEVA-XM6上,从而显着加速利用最新最先进的网络拓扑和层的性能,包括支持Caffe和Google的机器学习软件库TensorFlow。
·符合ISO 26262主动安全性的产品包:在汽车应用场合支持下一代ADAS和自主驾驶解决方案的需求。
CEVA的CDNN2软件框架同时针对CEVA-XM6和CDNN加速器优化,完全支持16位定点精度,确保运行在32位浮点环境中培训的网络时精度降低小于1%。这是神经网络从研发过渡到面向大批量汽车和消费者应用的高成本和功率效益解决方案的关键。