意大利炮(面)来了?深度解析Intel初代10nmCannonLake处理器|沙龙会

本文摘要:服务器和高端桌面平台处理器拥有的AVX-512指令集可以像企业级硬件一样处理向量运算。

服务器和高端桌面平台处理器拥有的AVX-512指令集可以像企业级硬件一样处理向量运算。i38121U的频率不会逆转,对Intel、10nm技术的实际性能感到担心。从外国媒体SemiAccurate的研究文章可以看出,目前(指i3tion8121U上市时)Intel的10nm技术还没有很多问题和困难,其收益仅为10%,超过预期的60%,其中SAQP、COAG、Cobalt和调整等环节领先于计划和预期。在接下来的几个月里,据说互联网10nm的技术受到了相当大的阻碍,即使退出10nm的研究开发工作,互联网也被称为降低标准构筑这个制程的谣言。

幸运的是,在今年的CES中,Intel展示了10nm技术的新SunnyCove架构Icelake处理器,但是关注新工艺的人们没有吃定心丸。IceLake还没有落地,但是外国媒体Anadtech通过各种途径,接触了用于CannonLake处理器的党和国家笔记本电脑,进行了详细的测试。10nm的技术在哪里?2017年9月,Intel在技术和生产日展示了10nmCannonLake芯片的原始300mm晶片,外媒Techinsights测定该芯片的芯片面积约为70.5mm,即i3U8121U是Intel迄今为止大于的双核处理器,但与当时的Skylake处理器(六代酷)相比,i38121U使用了CPU和GPU分离的设计,集成度更低。

业内取决于半导体技术的优劣常用标准之一,与芯片中每平方毫米的集成度晶体管的数量有关。CPU不是运算晶体管,而是SRAM单元和设计在区域间热缓冲区的杀死硅。晶体管的计数也有不同的方法,2输出的NAND逻辑单元比简单的瞄准触发逻辑单元大得多。

Intel将单位面积上的晶体管数分为2输出NAND单元和瞄准触发单元,其中2输出NAND单元的晶体管密度为90.78MTr/mm3(百万晶体管每平方毫米),瞄准触发单元的密度为115.74为MTr/mm,表现60/40的权重后,计算出10nm工艺的晶体管密度为100.8MTr/mm,是14nm工艺37.5MTr/mm的2.7倍。Intel还在国际电子设备会议上明确了各自需要的功能,10nm技术的逻辑库有10种类型,包括短库(高密度库)、中高库(高性能库)和高库(超高性能库)等。库越高,电路功耗越低,晶体管密度越高,但峰值性能越低。因此,Intel的10nm技术只有各种密度,实质上只有密度最低的短库才能超过100.8MTr/mm。

在实际芯片生产中,一般不会混合在多个库中使用,短库限于I/O和非核心区等对性能不脆弱的部位,节约成本,高库通过低密度和高驱动电流,一般用于性能脆弱的核心区域。为了更好地解读Intel10nm技术,首先要讨论Fin(鳍)、Gate(栅极)、单元机制、定义与晶体管和FinFET相关的术语。晶体管的来源-泄漏由鳍(灰色)获得,该鳍通过栅极(绿色)反射氧化物,这里的重要指标是鳍的高度、宽度和栅长,半导体技术的目标是尽量小,单元性能尽量低。

Intel在其22nm工艺中,用于减少总驱动电流,以获得更好的性能,包括多个鳍片。这引进了鳍间距,即鳍间距。

如果一个鳍穿过多个格栅,格栅之间的距离称为格栅距离。鳍和栅的认识越少,鳍的间隔越小,泄漏越低,性能也越少,可以减少驱动电流,控制寄生电容器和栅极电容器。

在之后的14nm技术中,鳍的高度、宽度、栅栏的长度更短,各鳍穿过的栅栏也更多,取得了更好的性能。到了10nm技术,Intel也大力设计了鳍结构,鳍间隔从42nm缩小到34nm,鳍宽度从8nm缩小到7nm,防止寄生电容器。变更看起来不多,但这个尺度每nm最重要。Intel通过添加共形钛层来提高源和泄漏的扩散区域,鳍和槽之间的认识区域(栅下的灰尖)也必须最小化认识电阻。

在10nm技术中,互联网将其从钨认识转化为钴认识,使认识线电阻减少了60%。各种改进使技术极具挑战性。

鳍是与格栅人组合的基本电路单元,从22nm工艺的瞄准电子显微镜图像来看,单元有6片鳍和2片鳍(当然也有其他规格),格栅长度不同,各单元内有活跃的鳍传输电流和非活跃的鳍。在10nm工艺上,高密度库使用的机组共有8个鳍,其中5个是活动鳍,这些机组可以作为I/O等不需要高性能或成本脆弱的电路部分使用。高性能库和超高性能库分别有10个和12个鳍,各比前者多出1个额外的p鳍和n鳍,有助于获得额外的驱动电流,以必要的效率壮烈牺牲交换条件峰值性能的提高。在单元之间,一般不会有很多假格栅作为间隔物。

在Intel14nm工艺中,每个单元的两端都有一个假格栅,这意味着两个单元之间不会有两个假格栅。在10nm工艺中,两个相邻单元可以共享一个假格栅,这将带来更大的密度优势,互联网回应至少可以节省20%的芯片面积。

在晶体管内部,格栅一般以两个长度稍远超过单元尺寸的触点给源极和溢极加电,这是不可避免的。在10nm技术中,至少在现在的CannonLake处理器使用的版本中,Intel通过被称为有源栅极认识(COAG)的设计,将栅极接点横向放置在单元上。

该设计在生产过程中减少了几个步骤(一次转印、一次沉积、一次研磨),但可以为芯片获得约10%的面积图形。以前,外国媒体SemiAccurate的研究文章回答说,COAG是风险高的实施方案,Intel实际上工作了很长时间,但并不像预想的那样可靠。作为CannonLake核心的COAG,在低性能、低功率、高性能、高功率的情况下,未来的Intel希望下一代10nmIcellake处理器月份发售时详细说明COAG的改良情况。返回晶体管密度取决于晶体管密度的另一种方法是CPP*MMP,将要求栅的间隔(了解多晶硅间隔ContactPitch)除以鳍间隔(大于金属间隔)。

加上各种各样的改良,Intel的CPP*MMP尺寸只有54nm*44nm,与台积电和三星的7nm相比有一点点胜利,Intel还强调前两者只是商业命名的原因。暴露结构的秘密i38121UCannonLake的核心还在NDA中,但经过科学技术界许多同事一年来的努力研究,另一个基本上暴露了其结构的面纱。总的来说,CannonLake核心的设计看起来像PC终端Skylake核心和服务终端Skylake-SP核心的混合体。用于PC终端标准的4、1解码单元、8个继续执行单元、L1L2、L3内存结构,但从服务器终端引进AVX-512单元,L1数据内存的读取速度分别超过每周2*512Byte和1*512Byte。

进一步来看,CannonLake核心也反映了第二代10nmSunnyCove架构的设计,Skylake和Skylake-SP核心没有的指令,CannonLake和SunnyCove都不存在。此外,目前Cannon的核心结构前端设计发生了变化,但轻排序缓冲区的大小与Skylake核心完全相同的224条微命令,SunnyCove结构的大部分特性改良(存储比特率加倍,继续执行端口多,继续执行端口功能改良)在Cannonlake核心中不常见。

CannonLake反对的新命令包括IFMA、VBMI、VBMI、VectorByterationinstructions、矢量字节操作者命令等。其中,IFMA为52位整数融合乘法(FMA),不道德与AVX512浮点FMA完全相同,延迟为4小时周期,每小时周期的吞吐量为2(xmm/ymm/zmm为4和1)。该指令一般用作辅助加密功能,但也意味着可以继续实施给定精度的算术运算。

VBMI指令集获得VPERMB、VPERMI2B、VPERMT2B和VPMULTISHIFTQB四项指令,在字节混洗方案中非常简单。硬件加速SHA只是为了加密算法的加速而设计的,但是根据测试,CannonLake的核心比Goldmont(下一代Atom处理器的核心)和AMD的Zen快,至少基于硬件的SHA在i38121U并不简单。

除了减少新命令外,互联网通常不会在新的核心上改进现有命令,用于减少吞吐量或延迟增加(或两者兼有)。CannonLake的核心反对Vector-AES的特性,允许AES指令一次性用于更好的AVX-512单元,大幅度提高吞吐量。在CannonLake的核心中,仅次于的变化是硬件可以反对64位整数乘法,还需要分成几个命令,18小时内可以完成64小时的IDIV。

相比之下,Zen继续在一定程度上运行需要45个时间周期,Skylake核心需要97个时间周期。对于字符串的块存储,所有REPSTOS*系列指令都可以用于512bit继续输入端口,吞吐量为每钟周期61bit,Skylake-SP为43bit,Skylake为31bit,Zen为14bit。

对于全字整数矢量,AVX512BW命令VPERMW的等待时间从6小时周期增加到4小时,每小时的吞吐量增加了一倍。类似于向量,用于VMOVSS和VMOVSD命令移动或分割单/双精度标准量的向量他MOV命令的不道德完全相同。指令集的其他有益调整还包括使ZMM区分和平方根更慢的时钟,将GATHER函数的吞吐量从每4个时钟减少到每3个时钟1个,回来后以原来的x87指令的形式频繁出现,其中x87号DIV、SQRT、REP手CMPS、LFENCE、MFENCE都减慢了1个时钟,其他指令更快更好CannonLake核心严重不足的地方是VPCONFLICT*命令具有3小时周期的延迟,吞吐量为每小时周期一条,速度仍然非常快的DWORDZMM表的延迟为26小时,吞吐量为每20小时一条Skylake-SP核心的内存写作功能CLWB处理器规格的比较是i38121U的测试,用于i38130U移动处理器的比较,是KabyLake核心的双核四线程处理器,用于14nm的技术生产,TDP在一定程度上为15W,基础频率与i38121U完全相同,与常见的亲属率相反略低。

对于这种15WTDP的移动处理器,不容易碰到温度墙而降低频率。测试中i38121U的下降频率非常频繁,AVX2应用于中索性是2.2GHz的基准频率状态,AVX-512应用于中,连基准线以下的1.8GHz都不下降。相比之下,14nm成熟期使用的i38130U在AVX2中也能保持2.8GHz的频率。

例如,在POV-Ray测试项目中,i38130U可以更慢地完成测试,性能比i38121U高26%。但是,i38121U在运营AVX-512的频率很低,但是先进设备的命令集依然具有优异的性能,在3DPM测试中,打开AVX-512命令集的i38121U在1.8GHz下成绩为3846分,6倍是2.8GHz存储器性能和功耗测试在存储器/存储器延迟测试中,i38121U和i38130U处理器停止使用睿频,以完全相同的2.2AGHz频率运营,展开奇偶性和必要的结构。Cannonlake核。

内存/内存子系统与Skylake的核心完全相同,没有其他改良,理论上表现的性能也基本相同。在这个测试中,两个处理器的内存采访完全相同,但CannonLake核心的i38121U的内存采访延迟达到KabyLake核心的i38130U达到50%,一上来就愤怒了4个座位。许为i38121U设施的DDR400存储器时序17-17-17,输给i3门8130U的16-16,但这个投掷时序的差异几乎有这么大的影响,想起的唯一原因是CannonLake的核心采访器有10分的存储器控制器在消耗电力方面ntel在处理器硬件中设置了两个重要的功耗容许-PL1和PL2,前者控制了稳定的功耗,后者控制了短时间和频率的功耗。

大多数情况下,处理器的稳定功耗与TDP完全相同,例如i3.8130U,处理器的稳定功耗为15W,但同样为15WTDP的i3.8121U的稳定功耗只有12.6W。PL2控制的峰值功耗也在一定程度上,i38130U的峰值功耗可以超过24.2W,i38121U最低不能超过18.7W,和频的持续时间也比i38130U短得多。糟心的是,i38121U的功耗墙更低,但其频率更低,性能更差,实际继续运行运算所消耗的能量反而更多。

在POV-Ray测试项目中,KabyLake核心的i38130U总耗电量仅为768毫米,而CannonLake核心的i38121U总耗电量为867毫米,整体下降了12.9%。2.2GHz同频测试:SPEC2006除了消耗电力外,CannonLake核心的另一个问题是是否是高效的框架设计。

为了展开必要的IPC,我们将两个处理器同频运营SPEC2006。SPEC2006是最重要的标准测试软件,与其他测试软件的区别在于处理的数据集更大更简单。作为标准测试更具代表性,可以充分展示结构的更好细节。

从测试结果来看,两种核心处理器的性能几乎没有差异,KabyLake核心的i3胜8130U与SIMD有关的462.libquantum和470.lbm测试项目可能比Cannon胜Lake核心的i3胜8121U更有利2.2GHz同频测试:系统综合性能系统测试部分关注实际用户体验,应用于阅读时间、图像处理、非常简单的科学物理、建模、神经建模、优化计算、3D模型开发等测试项目。GIMP应用于阅读时间系统的响应速度是最涉及用户体验的指标,良好的测试用例是阅读需要多长时间。在这个测试中,Cannon、Lake核心的i3、3、3、8、121U显示得特别好。

FCAT图片处理FCAT软件使用录制的视频,并将颜色数据处理出框架时间数据,以便系统能够绘制可视的框架率。该测试为单线程,在标准频率下,CannonLake核心的i38121U与KabyLake核心的i38130U耗时差距在半秒以内,i38121U稍微领先。3DPM颗粒运动计算的3DPM测试是定制的基准测试,目的是模拟3D空间中6点的颗粒运动算法。

算法的重要部分之一是用于相对缓慢的随机数分解,最后在代码中构筑依赖链。在这个测试中,我们在六种算法上运营一个原子颗粒集,每次20秒,停止10秒,报告颗粒移动的总速度,每秒以数百万次运动为单位。不启动AVX,CannonLake核心i38121U输给KabyLake核心i38130U。

但是,各自启动AVX后,i38121U跑出了4519的超高分,甚至打败了415分的18核Corei97980XE处理器,非常可怕。Dolphin5.0模拟器Dolphin5.0是GameCube/Wii主机模拟器,可以在PC上玩这些老游戏主机的独占作品。但是,模拟这两台Power结构处理器的主机一般需要弱处理器。

在这个测试中,两个处理器的同频性能大致相同。DigiCortex蜗牛大脑模拟DigiCortex标准测试最初设计为神经元和神经元活动的模拟和可视化,该软件具有多种标准模式,本次用于小标准测试,模拟32000个神经元和18亿个神经元,规模相当于蜗牛大脑。模拟类型分为非唤起和唤起两种模式,前者不受内存影响,后者依赖纯处理器的性能。

测试用于后者,两种处理器的同频性能大致相同。y-Cruncher科学计算y-Cruncher是协助计算各种数学常数的工具,软件反对以二进制、单线程、多线程等优化方式运营,包括AVX-512优化的二进制文件。本次测试基于单线程和多线程方式,计算了2亿5千万位的圆周率。测试结果出乎意料的是,Cannon,Lake核心的i38121U获胜,到目前为止,所有可以使用AVX-512指令集的软件都是i38121U获胜。

AgisoftPhotoscan2D图片并转3D模型PhotoScan能够将许多2D图片切换成3D模型,这是模型开发和文档中最重要的工具,依赖于许多单线程和多线程算法。测试用于PhotoScanv1.3.3版本,包括84x和1800万像素的大数据集,通过非常慢的算法变体,最后比较切换过程的总时间。

在这个测试中,两个处理器的同频性能大致相同。2.2GHz同频测试:图形性能图形性能一般是处理器在专业环境下的重要指标,从3D图形到光栅化,包括网格、纹理、冲击、锯齿、物理等。大部分RenderMan反对CPU图形,少部分可反对GPU或FPGA或ASIC等专用芯片。

对于大型工作室来说,CPU仍然是硬件。Corona1.3图形Corona是一款高端性能RenderMan,如3DSMax和Cinemaid等软件,标准测试的GUI可以显示正在建设中的场景,并将图形时间交给系统。本次测试用于需要输入结果的命令行版本,输入的结果也不是报告时间,而是报告6次运营中每秒的平均光数,因为单位时间内的性能比例一般更容易解读。

Corona只反对AVX2指令集,无法充分发挥CannonLake的核心特性。在这次测试中,i38121U的同频性能领先于i38130U的约10%。Blender3D创作软件Blender是开源的高级图形工具,反对大量可配备的项目,被世界着名的动画工作室使用。

该软件的研发团队最近发表了基准测试包。本次测试通过命令运营该套件的bmw27场景子测试,测量完成图形的时间。

Blender在某种程度上只反对AVX2指令集,在这个测试中,两个处理器的同频性能大致相同,而安卓Laker的在AVX2指令集具有暗淡优势。LuxMark发动机用于LuxRender发动机研发的标准测试获得了一些不同的场景和API,本次测试可以自由选择在Coooker首选和OpenCL代码路径上运营非常简单的Ball场景,以粗略的图形开始,在2分钟内逐渐提高质量,最终以每秒图形的光线数量展示。

POV-Ray光线追踪Persistenceof、Vision光线追踪引擎是另一个众所周知的标准测试工具,在AMD发布Ryzen处理器之前仍然默默无闻,Intel和AMD开始向开源项目的主要分支提交代码。本次测试用于从命令行调用所有核心的内置标准。2.2GHz同频测试:办公性能Office测试套件的目的专注于更好的行业标准,如办公过程和系统会议等,但我们也将编译器的性能绑定在本节。对于需要对硬件进行整体评估的用户来说,这些一般都是最需要考虑的标准测试。

3DMark物理计算游戏测试软件3DMark的每个测试场景都包括物理测试子项目。按照复杂程度排的顺序是Ice,Storm,CloudGate,SkyDiver,FireStrike,TimeSpy。在所有测试场景中,两个处理器的同频性能大致相同。

GeekBench4GeekBench是常用的跨平台测试工具,重点是寻求高峰吞吐量的一系列算法,包括加密、传输、慢速傅里叶转换、内存操作者、N体物理、矩阵运算、直方图处理和HTML分析等,常用于移动设备测试。考虑到它的通用性和受欢迎程度,这次也重新加入了该软件的单线程和多线程测试。2.2GHz同频测试:代码性能随着流媒体和短视频内容的蓬勃发展,更多的家庭用户和游戏玩家必须切换视频文件,处理器的代码和转换性能更为重要,本次代码测试也主要围绕这些最重要的场景进行Handbrake视频转换Handbrake是受欢迎的开源视频转换软件,最近的版本可以利用AVX-512和OpenCL加快一定类型的转换和算法。本次测试中使用的CPU转码。

7-Zip传输可执行文件在传输/可执行文件中应用,开源7-Zip是最受欢迎的工具之一。本次猜测是用于最近的v18.05版本,内置有标准测试,从命令运行标准测试中报告传输、解压和综合分数。WinRAR传输可执行文件在大多数人的系统中一般都有WinRAR,是20多年前第一个传输可执行文件的工具之一。没有内置标准测试,这次用于30个60秒以上的视频文件和2000个复杂文件的文件夹,以长时间的压缩率运行传输。

WinRAR虽然是星形线程,但因为容易受到内存的影响,所以测试必须运营10次,取得最后5次的平均值,结果显示CPU纯粹的完全计算性能。AES加密许多移动设备配置文件用于的文件系统为了维护内容获得了加密功能,PC上也有Windows,一般由BitLocker或第三方软件应用。此次用于生产的TrueCrypt作为其内置标准测试,需要在内存中测试各种加密算法,反对AES指令集,但不反对AVX-512。

测试使用的数据是AES加密/解密组,以每秒千兆字节为单位。(公共编号:)总结Intel在10nm技术上明显展开了很多改良,如果每一步都能完美运营,10nm应该在去年出来。然而,问题是,在半导体设计中,有数百个不同的特点。

任何改变都可能导致其他几个甚至几十个不同的特点。这正是英特尔在10纳米过程中遇到的问题。

忘记了2018年的CES,Intel对10nm技术相关的问题保持沉默。从暂时的Cannonlake核心来看,唯一明亮的表现只有AVX-512的性能,明显的第一代10nm还没有准备进入黄金时间段,Intel试图冷却这个代理处理器,也同意月公开发售。在Intel得到的这张图中,右侧表示10nm技术及其变革可依赖于低动态电容器具有较低的功率,但数轴的左侧表示10nm和10nm技术的单晶体管性能比现在的14nm执行技术高,以前下一代的10nm执行技术确实构筑了全面的领先,从i38121U的表现来看,相当大的概率意味着在第三代的10nm执行技术之前,业界很可能看不到确实突破性的10nm处理器(从1竿支撑到3000年)。

预计今年下半年出现的IceLake处理器不会用于第二代10nm的技术,电气性能与14nm的开始技术非常相似,当时Intel可能会在10nm的技术中敲响确实的第一炮。版权文章允许禁止发布。

下一篇文章发表了注意事项。

本文关键词:沙龙会

本文来源:沙龙会-www.apis-mellifera-carnica.com

相关文章