进入正文

关于三星Exynos,你想了解的都在这里(二)

  • 邮件
在上一篇文章中,我们了解了Exynos移动处理器中,可以提升相机性能的图像信号处理器(ISP)。今天,三星电子的项目负责人将向大家介绍CPU[1](中央处理单元)在移动设备中的作用。
CPU通常被比作人类的大脑,如同大脑一样可以处理许多任务。存储、解码、执行和控制是计算机四大主要功能,而CPU是决定电脑整体性能的主要因素。 同样的,移动CPU在操作系统(OS)上运行软件,并控制其他硬件外部设备,能够让使智能手机发挥其最佳性能。 CPU的性能由多种因素决定,包括时钟[2]速度、IPC(每周期指令)[3]和内核数[4]。以前的手机的CPU都是单核结构,并且流水线结构也比较简单。因此,它的并行处理能力有限并且工作频率只能达到几百兆赫兹。 如今,智能手机的CPU具有超标量[5](superscalar)结构,能对各种命令和指令并行处理。此外,它能以约3GHz(千兆赫兹)的速度运行,即每秒30亿次循环,具有8个或以上的多核结构。移动CPU当前采用的微架构有助于将性能提升到桌面级的水平。 为了达成小尺寸和低功耗,三星Exynos的CPU发展先后经历了大核、大-小(big-little)及大-中-小(big-mid-little)三种结构。 大-小(Big-little)是一种处理架构概念,可根据任务类型在两种内核(大和小)之间动态切换,以尽可能发挥性能或控制功耗。 比如,发送信息和玩3D游戏所需的CPU性能是不同的,实际使用时,发送信息任务将会使用高能效的小核,而不是高性能的大核,以达到功耗控制的效果。
项目负责人Wookyeong Jeong,加入三星后,在CPU领域工作了20余年。
项目负责人Wookyeong Jeong,加入三星后,在CPU领域工作了20余年。
▲ 项目负责人Wookyeong Jeong,加入三星后,在CPU领域工作了20余年。
Wookyeong Jeong是负责与Exynos CPU相关的所有任务的SoC设计第2组项目负责人,他在加入三星后,在CPU领域已经工作了20余年。 Wookyeong Jeong说道: “CPU决定了系统的竞争力,包括SoC(system-on-chip,系统级芯片)。这是一个有影响力的领域,也是开发先进半导体技术的重中之重。” Jeong说道:“关键在于如何以有限的功耗实现高性能。系统设计中会使用不同种类的CPU,包括大、中、小核,以及其它种类的内核。实际应用时,可以根据不同应用场景进行组合优化从而达到更高的效率。” 比如在玩游戏或使用相机这类高性能要求场景时,Exynos 的CPU 通过激活优化后的CPU组合来给用户提供最佳的使用体验。
Exynos 2200的CPU内核结构
Exynos 2200的CPU内核结构
▲ Exynos 2200的CPU内核结构
Jeong是这么解释他以及他的团队的具体工作责任的。 他解释道:“在确定产品中CPU部分的性能目标规格后,我们将会采购CPU IP,评估并检查它的性能,并在量产前进行验证和调试[6]。CPU的性能优化工作覆盖整个开发过程。” 他还说道:“系统LSI事业部承担的工作不仅仅是优化并应用从ARM[7]引入CPU的RTL[8]设计,还负责设计和构建CPU的外设模块,比如内存子系统等,以将CPU全部性能发挥出来,打造出更好的芯片。他们还负责设计和构建CPU外围电路,比如合适的内存子系统,以尽可能发挥CPU性能。” 当被问及公司未来发展方向时,Jeong表示:“随着Arm CPU被采用,我们的愿景是成为移动行业最好的CPU制造商。而且不仅仅是芯片供应商,也是整机级别优化的软件供应商。而我们的目标,是成为端对端(E2E)整体解决方案的供应商。” Jeong又解释道:“为实现这一目标,从早期开发阶段,三星CPU开发人员便一直与Arm、设备制造商、三星代工厂和其他公司展开密切合作。此外,他们持续寻求各种提升性能的方法,比如能进一步增强性能的先进封装技术。”
图片翻译: “随着Arm CPU被采用,我们的愿景是通过优化软件,在设备层面也成为移动行业最好的CPU制造商,而不仅仅是在芯片层面。我们的目标是成为端对端(E2E)整体解决方案的供应商。” Jeong补充道:“随着AR和元宇宙的出现,利用CPU、GPU[9]和NPU[10]等多种处理器,在SoC层面运行全面的机器学习算法,是一个非常重要的,而且充满竞争的科技前沿技术。未来,我们将聚焦于增强CPU在机器学习处理中的性能,以此提升竞争力。” 在下一篇文章中,我们将向大家介绍针对深度学习算法进行优化的处理器——NPU。 NPU技术的发展:将“想象”变为现实
NPU(Neural-network Processing Unit,嵌入式神经网络处理器)是针对深度学习[11]算法进行优化的处理器。它能像人类神经网络一样快速、高效地处理大量数据,因此它主要用于AI算法。尽管可能看上去很复杂,但已普遍应用于各种智能设备。比如,借助NPU,智能手机的摄像头可根据取景框中的环境自动识别物体和人物并进行对焦。在拍摄食物时自动开启食物滤镜,甚至可以去除画面中不需要的对象。
随着NPU的发展,新智能手机中的AI去除功能得以增强。
随着NPU的发展,新智能手机中的AI去除功能得以增强。
▲ 随着NPU的发展,
新智能手机中的AI去除功能得以增强。
在过去没有NPU的时候,由GPU(Graphics Processing Unit,U图形处理器)执行AI计算。但由于硬件结构差异,导致计算效率[12]较低。如今,AI计算主要由NPU负责,在移动设备上也能更高效地处理数据。NPU针对并行数据计算进行了优化,可让基于AI算法的应用程序在低功耗下更快运行。
项目负责人Suknam Kwon,从第2代NPU开始就一直致力于NPU的开发,现任NPU团队负责人
项目负责人Suknam Kwon,从第2代NPU开始就一直致力于NPU的开发,现任NPU团队负责人
▲ 项目负责人Suknam Kwon,从第2代NPU开始就一直致力于NPU的开发,现任NPU团队负责人
Exynos的NPU开发始于2016年,第一款搭载NPU的SoC(System on Chip,系统级芯片)是Exynos 9820,它被应用于2019年发布的Galaxy S10中。 项目负责人Suknam Kwon说道:“6年前,第一个工作组成立时,我们只有大约20人。但如今,算上海外研究机构的成员,我们的团队已经是之前的10倍了。”Kwon曾设计过SoC的硬件,从第2代开始就一直致力于NPU的开发。“如今,NPU是一个备受关注的领域,但在过去,它是陌生而新鲜的,我们只有从海外的视频和大学讲座中才能学习到相关的知识。” 在过去,只有在像图像检测这样的领域才有NPU的应用。然而,在人工智能时代,具有强计算能力的高性能IP的市场需求不断增加,NPU可强化图像成像质量、提升语音服务能力等。此外,随着IP性能的增强,尺寸和功耗随之增加,构建高效的逻辑架构成为了关键因素。
比较使用云服务的AI和设备上AI
比较使用云服务的AI和设备上AI
▲ 比较使用云服务的AI和设备上AI
随着 NPU 越来越强大,它在对象识别速度和改善图片质量方面有了进一步提升。与上一代相比,内置于新一代Exynos处理器的NPU,性能提升了两倍。SoC设计团队已独立开发了六代NPU产品,拥有丰富的专业知识和实践经验。 Kwon表示:“凭借ML Perf、能效、尺寸等基准优势,Exynos的NPU是一个很有竞争力的IP解决方案。”
在未来,与NPU相关的技术应用有望进一步发展。 Kwon说道:“设备上AI是一种无需经过服务器,即可直接在智能手机中执行AI计算的技术。这种技术在未来会得到更广泛的应用,可以降低个人信息泄露的风险。正因如此,移动NPU的性能需进一步提升。现如今,一个NPU可以用于很多计算,但根据我的预测,未来每个应用程序都会有特定的AI算法需求,开发针对特定领域的NPU也很重要。” 当被问及自动驾驶相关的问题时,Kwon谈到了未来NPU在行业中将要扮演的角色。他表示:“在不远的将来,高级辅助驾驶系统(ADAS)会成为现实,这就需要底层硬件具备操作海量数据以实时执行自动驾驶算法的能力。想要实现这一目标,就需要更高性能的NPU,三星正在为自动驾驶设备开发具有强大功能的NPU,以满足市场需求。” 采访的最后,Kwon分享了开发过程中富有里程碑意义的瞬间。他说道:“每年,Exynos系列产品都会配备更高性能的NPU,这是十分有意义的。NPU将持续成为未来市场的关键IP。开发NPU促进了公司和我的共同成长,我深感自豪。这是一个能让‘想象’变为‘现实’的领域。” * 本文的产品图片以及型号、数据、功能、性能、规格参数等仅供参考,三星有可能对上述内容进行改进,具体信息请参照产品实物、产品说明书或者三星半导体官网(https://semiconductor.samsung.com/cn/)。除非经特殊说明,本广告中所涉及的数据均为三星内部测试结果,本广告中涉及的对比均为与三星产品相比较。
[1] CPU:Central Processing Unit,中央处理单元 [2] 时钟:用于计算的连续产生0或1的电振荡。以赫兹(Hz)为单位,更高的时钟数字意味着更快的处理速度。 [3] IPC(每周期指令):每个时钟处理的指令。它测量处理一个命令或指令所需的时钟。IPC是评估CPU运行效率的单位。 [4] 内核:CPU内部物理处理电路中的关键部分。内核越多,同时执行多个操作就越容易。单核意味着有1个核心,双核意味着有2个,四核意味着有4个,等等。 [5] 超标量:一种结合了通道和并行处理优点的架构,可并行处理来自多个通道的指令。因为可同时执行多条指令,而不必经过“等待”状态,所以处理速度快。 [6] 调试:检查设计的程序是否准确,识别程序错误并进行修复。 [7] Arm:一家专门从事基于RISC技术芯片设计开发的公司,作为知识产权供应商,本身不直接从事芯片生产,而是转让设计许可,由合作公司生产各具特色的芯片。 [8] RTL:Register Transfer Level, 寄存器转换级电路 [9] GPU:graphics processing unit,图形处理器 [10] NPU:Neural-network Processing Unit,嵌入式神经网络处理器 [11] 深度学习:使机器能像人类一样利用数据进行学习、推断和推理的技术。 [12] 在移动SoC中,效率意味着消耗更少电能或拥有更快速度。