独家专访汪玉:不止是 DPU,深鉴要做 AI 解决方案提供商
副标题[/!--empirenews.page--]
对于在清华大学电子工程系担任副教授和党委副书记的汪玉来说,10 月 24 日是一个特别的日子。这一天,他以深鉴科技联合创始人的身份,参加了这家高科技创业公司成立以来的第一场公开发布会;而在这场发布会上,他的学生、也就是深鉴科技 CEO 姚颂,在介绍一些新产品之后,对外宣布了深鉴科技的新一轮融资。 右二为汪玉 这轮融资对于刚刚诞生不久却已经备受业界认可的深鉴科技来说,无疑是一个重要的发展时机;而在这一重要时间节点上,汪玉也接受了雷锋网的专访。 算法与硬件的协同优化 在这场发布会上,DPU 可能是从深鉴科技 CEO 姚颂口中出现次数最多的一个技术名词。 实际上 DPU(Deep Learning Processor Unit,深度学习处理器)是深鉴科技在投入于人工智能和深度学习大潮流之中时所选择的一个核心领域。之所以如此,是因为深鉴科技的几位联合创始人在创业之前就意识到,目前被深度学习算法训练广泛应用的 GPU,根本无法在应用层面同时满足高性能低功耗的需求。 “深度学习处理器一定要经过模型压缩、模型定点化、编译三大步骤,并且一定要拥有针对神经网络的专用结构”。在此情况下,汪玉决定带领团队从算法、软件、硬件协同的角度,来开发真正的深度学习处理器,也就是 DPU。 不过,对于深鉴科技 DPU 而言,一个核心的技术名词其实是深度压缩(Deep Compression)技术。 2016 年,在世界顶级的深度学习会议 ICLR 上,一篇以 Deep Compression:Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman coding 为标题的文章获得最佳论文奖。这篇论文的第一作者是斯坦福大学的博士生韩松,而韩松也正是深鉴科技的联合创始人之一。 韩松 在接受雷锋网的专访时,汪玉对深度压缩的技术原理进行了深入浅出的介绍:
通过深度压缩技术,不仅可以将神经网络压缩数十倍而不影响算法准确度,还可以使用“片上存储”来存储深度学习算法模型,减少内存读取,大幅度减少功耗。与此同时,基于优化的协同性,深度压缩技术对硬件本身也提出了新的要求。汪玉表示:
深度学习解决方案的提供者 汪玉这里所说的硬件架构,指的是深鉴科技此前已经推出的两个用于深度学习处理器的底层架构——亚里士多德架构和笛卡尔架构。 汪玉对雷锋网表示,亚里士多德架构是针对卷积神经网络(CNN),由于计算机视觉处理经常使用 CNN,所以亚里士多德架构一般用来处理图像相关的智能问题;后者针对的是全链接,由于语音相关的处理跟全链接的神经网络相关,这种神经网络主要就是用笛卡尔加购这样的结构来加速。 亚里士多德架构 笛卡尔架构 在发布会现场,深鉴科技也发布了数款基于上述两个硬件架构的 DPU 硬件产品。 首先在人脸识别方面,深鉴科技分别推出了 DP-1200-F01 人脸检测识别模组和 DP-2100-F16 人脸分析解决方案。前者的特点在于支持 18 帧的高帧率和 3 瓦的功耗,可以用在人脸识别相机等前端的产品上;后者主要应用于后端,单板卡可以支持 16 路 1080p 视频的实时识别,并且整体功耗是 30 瓦以下。 二者之外,深鉴科技又推出了视频结构化解决方案 DP-2100-O16,它可以做到 16 路 1080p 高清视频的实时视频结构化,可以做到人、车、非机动车的检测、跟踪和属性分析。 除了图像类应用,深鉴科技还推出了型号为 DP-S64 的语音识别加速方案。它支持全稀疏化的神经网络处理,单板卡最多可以支持 64 路用户同时的语音识别加速。在这种情况下基于稀疏的神经网络和模型压缩,可以让语音识别的延迟更短。 值得一提的是,这些集成了深鉴自己算法的 DPU 产品,都是基于世界第一大 FPGA 厂商赛灵思的 FPGA 芯片开发出来的。而深鉴科技在 FPGA 技术方面也有自己的开创之处;在 FPGA 2017 大会上,来自深鉴科技的《 ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA 》被评为唯一的最佳论文。 然而,在底层硬件上,深鉴科技并不把完全局限于 FPGA,它在 ASIC 方面也有一定的计划。对此,汪玉表示:
(编辑:广州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |