最近因为需要,我是对的x86的CPU对架构发展历史进行了研究和研究。目前主流的x86架构,其先进的技术代表制造商是Intel与AMD,它们相爱相杀的故事广流于家家户户。但是我整理Intel的相关CPU发展花了2、3周(期间还有其他事情),写了我1W5字,累屎我,AMD相关产品还没有时间整理和写入。关于Intel事实上,芯片开发过程中有很多相关的整理网站,但大部分都停留在2011年(因为也是当时写的),也就是截止日期Intel Core在架构之前,后续的介绍文章非常稀缺。
在搜索数据学习期间,我还发现了一个CSDN博主,他的博客内容主要是更详细地分析特定的结构,这样我就可以得到宝藏。如果你看到每个芯片的架构图,并想深入研究每个架构,你也可以看到他的文章:
一凡stkeke_CSDN , 8086架构/流水线及其优化
后续,我会抽出时间把它拿走。AMD部分补上~别忘了赞哦亲~( ̄▽ ̄)"
与分析
0 前言
PC世界上有几个优秀的架构代代相传,迭代至今,分别是IBM的Power架构,Intel与AMD相爱相杀的X86架构,移动终端领先ARM高性能科学计算架构MIPS架构等。要实现国内具有独立知识产权的芯片架构技术,就必须博取众长,学习他人架构的特点,打通各种经络。
经过一学期的学习,对计算机系统结构的基础知识也算是有所了解。通过对网上资料和博文的学习,我根据个人对系统结构的粗浅理解和章节要点Intel的X86重要的CPU学习版本,总结记录其发展过程和演变道路。由于时间和长度的关系,AMD各种型号的微处理器都没有记录下来。另外,同一个微处理器有不同的主频版本,本文仅以其最低主频为参考。
1 Intel X86 CPU的历史发展
1.1 X86架构前的铺垫
1.1.1 4004-4
图1 Intel第一个4位微处理器4004
1971年,年轻人Intel接到日本Busicom该公司的订单生产了世界上第一个4位CPU,代号4004。作为Intel 基于P沟的第一代微处理器MOS采用10种硅栅技术μm有2250个晶体管,主频740KHz,处理速度达到0.06 MIPS,前端总线为0.74MHz(4位),socket为DIP16。
图2 4004微系统架构图
4004处理器可执行4位操作,支持8位指令集和12位寻址,
4004性能及第一台电子计算机ENIAC相似,但体积较大ENIAC需要占用一个小很多的房间。当时只有3岁Intel主营业务是DRAM,缺少CPU但4004代表技术背景Intel处理器序章的开始。
1.1.2 8008-第一个8位处理器
图3 Intel第一个8位微处理器8008
1972年,Intel发布世界首块
图4 8008微系统架构图
8008处理器可执行8位操作,支持14位搜索站点,可访问16位KB内存。虽然其单位时间执行指令数略慢于4004,但由于其8位操作的优势,它在大多数应用程序中具有更好的性能。
1.1.3 8080——新工艺
图5 Intel微处理器8080
1972年,Intel8080芯片仍然是8位处理器
图6 8080微系统架构图
8080是早期8008处理器的增强和扩展:地址总线为16位,可访问64位KB内存是8008的四倍;NMOS取代PMOS升级;8008指令集进一步增强。8080的成功直接影响到后续工作x86架构处理器。
1.2 x86架构开始/stron>
1.2.1 8086
图7 Intel首个16位x86架构微处理器8086
1978年,Intel推出微处理器8086,也是第一款
其带来的主要新特色有:
-
在8086中含有
:总线BU负责指令的读取与数据传输,执行EU负责执行指令。2个单元部件 的内存访问模型。其外部地址总线为20位,可以寻址1MB内存;但是内部地址总线为16位,可以寻址64KB空间。因此内部设立了段寄存器,系统基于“段内偏移”的概念进行内存寻址:由16位段寄存器左移4位作为段基址,加上16位段偏移地址形成20位的物理地址,从而达到最大寻址空间1MB,最大分段64KB。这个模式在后续的80286与80386中被称为“地址分段 ”。实模式
图8 实模式下的内存访问模型
图9 8086的微体系架构图
之后,Intel公司发布了8088处理器,采用x86指令集,实际上是外部数据总线削减为8位的8086;以及同样采用x86指令集,为辅助8086起到数学算术运算的协处理器8087,它能完成专门用于对数、指数和三角函数等的数学计算指令,提升科学运算的效率。8086是最成功的X86架构的鼻祖,其使用的X86指令集不断被使用、拓展至今。一年后,IBM公司于其PC中采用8088芯片,在当时RISC为主流的时代环境中,Intel得以初现锋芒。
1.2.2 80286
图10 Intel微处理器80286
1982年,Intel发布了16位处理器80286。其兼容8086的所有功能,采用1.5μm工艺与
图11 80286的微体系架构图
其带来的主要新特色有:
- 在80286中含有
:指令IU负责指令译码,地址AU负责逻辑地址与物理地址的转换,执行EU,以及总线BU,四个部件并行工作提高处理速度与支持新增加的保护模式的运行。4个功能部件 - 从80286开始,CPU的工作方式也演变成两种:
。实模式和保护模式
图12 80286保护模式下的内存寻址关系
1.2.3 80386
图13 Intel首个32位微处理器80386
1985年,Intel发布了第一款
图14 80386的微体系架构图
其带来的主要新特色有:
- 在80386中,引入了新的处理器工作模式——
:当处理器进入保护模式后,基于实模式的应用就不能直接运行了,而PC在刚刚启动进入DOS时是实模式,当操作系统(主流OS如如Linux、Windows)运行后就工作在保护模式,而保护模式不能切换回实模式。虚拟8086模式实际上就是运行在保护模式中的实模式,其指利用硬件级虚拟化技术,模拟出多个8086芯片,达到实模式的应用(8086程序)能以任务的形式工作在基于保护模式的操作系统上,真正实现各色程序的多任务处理功能。于是80386共具有三种工作模式:实模式,保护模式和虚拟模式,同时能兼容之前的老机型程序。虚拟8086模式 - 首次引入了
(片外),极大的提高了CPU访问内存的效率。从此,cache在CPU中的地位便不可或缺。L1 Cache - 添加了
(MMU),从而使得处理器能够有内存管理单元 ,内存保护 等功能。存储器分页管理机制 - 指令集扩充增加了一些内容等。
80386位处理器,配合80387协处理器在当时已经可以完成AutoCAD的FLOPS计算。而80386作为首款32位微处理器以及其新增加的各色功能,不仅使Intel成为PC界的领头羊,更是具有划时代的重要意义。
1.2.4 80486
图15 Intel微处理器80486
1989年,Intel发布了32位处理器80486,采用1μm工艺,
图16 80486的微体系架构图
其带来的主要新特色有:
- 在整数处理单元中首次引入了
的概念,采用了RISC的技术,建立了流水线(pipeline) (取指,译码,转址,执行,写回),使得每一级流水线在同一时刻都运行着不同的指令而不是同一时刻仅有一条指令于CPU中,实现五级流水线 。虽然当时80486依然是采取一个时钟周期内完成一条指令 ,但此设计依然使80486的提升为同频率的80386处理器的顺序执行 。同时,引入F2倍性能 技术解决data hazard问题;并通过“orwarding ”的方式Pre-fetch 。加快指令分支操作 ,同时支持外部L2 Cache。片内集成了指令数据统一的8KB L1 Cache ,其浮点性能甚至明显快于80387。片内集成了增强型FPU单元 - 提出了
:由于CPU主频的快速提升,而总线外频速度没有跟上,因此Intel在80486中应用了倍频技术,使得CPU的主频通过倍频器等于外频乘上一个倍数(时钟倍频技术 或2倍 ),进而保持增长。3倍 - 改进了MMU的性能,同时对指令集进行了一定扩充,如XADD,BSWAP,CMPXCHG,INVD,WBINVD,INVLPG。
- 采用的新的内部总线传送技术上:
,大大提高了与内存的数据交换速度。突发传送方式
1.3 P5架构——Pentium与Pentium MMX
1.3.1 Pentium
图17 Intel微处理器Pentium
1993年,Intel发布了32位处理器Pentium,又被号为80586,使用的
图18 Pentium(80586)的微体系架构图
其带来的主要新特色有:
- 是第一个采用
Intel微处理器,拥有超标量技术 并行的整型pipeline:pipeline U处理2条 ,pipeline V吸收了RISC的特色而负责处理任意指令 指令,从而提升系统的运行效率。简单通用 - 由于超标量结构需对数据和指令进行同时读写,因此引入
:各单独的8K数据L1 Cache和8K指令L1 Cache,减少了指令、数据以及读/写hazard。对L1 Cache进行数据指令分离 拥有单个但L2 Cache依然是片外的。 ,整个系列的CPU浮点性能都很不错。最显著的是FMUL功能,吞吐量比80486 FPU高出15倍。但可惜此浮点单元爆出存在Bug,使得极少数情况下导致除法运算的精度降低,饱受批评。更快的浮点数单元 - 引入了
协议,实现更高效的cache写回。MESI的Cache coherence - 实施了
来提前预取指令,避免不必要的闲置等待,分支预测算法(Branch Prediction) .引入了Branch Target Buffer(BTB)结构以及Instruction Prefetch Buffer - Pentium的制造工艺优良,可
,使得“超频”概念在市场中流行起来。超频性能很好 - 从Pentium开始,CPU封装出现
的设计,已解决突显的CPU的发热问题。扇热盖
虽然Intel在Pentium实现了超标量、cache分离、分支预测等新技术,但要注意的是,此时Pentium依然采取
1.3.2 Pentium MMX
1996年,Intel推出了基于P5架构的微处理器Pentium MMX,
图19 Pentium MMX的微架构图
其带来的主要新特色有:
- 添加了Intel的
,目的是增强提升CPU在2D音像、图形和通信等多媒体应用对诸如编码与解码等工作的效率(只局限于整数的运算)。在架构中,Intel定义了八个64位SIMD寄存器与负责相关快速执行的硬件,由这些硬件需要而对指令集进行相应补充拓展。为CPU增加了57条MMX指令,MMX (Multi-Media Extension)指令集 :将CPU芯片内的L1 Cache由8KB指令+8KB数据增加为L1 Cache升级为双倍大小 Cache,在Pentium MMX中没有集成当时卖力不讨好的L2 Cache,而是独辟蹊径采用MMX技术去增强性能(如上所述)。16 KB指令+16 KB数据
而有了上述两种改进方式,MMX CPU比普通CPU在运行含有MMX指令的程序时,
1.4 P6架构——Pentium Pro/Ⅱ/Ⅲ
1.4.1 Pentium Pro
图20 Intel微处理器Pentium Pro
1996年,Intel发布了32位处理器Pentium Pro,此为
其带来的主要新特色有:
- 首次实现CPU的
,采用了L2 Cache的片内集成 。Intel将CPU与L2 Cache两个芯片之间用高频宽的内部通讯总线互连,使得16KB片内L1 Cache(合计)与256KB L2 Cache ,运行在更高的频率上。L2 Cache与CPU同速 - 实现了
(之前是Pentium中引入的2路超标量)。3路超标量 - 实现了指令流水线的
,乱序执行(OoO-E) 。Pentium Pro采取的是这是在Pentium超标量结构后的又一次飞跃 ,其策略是Tomasulo动态执行算法 ,使用了顺序发射,乱序执行,按需提交 ,以及Reorder buffer与Register renaming (也有文献说11级或14级)。12级pipeline
图21 Pentium Pro的微架构图
Pentium Pro的P6架构标志着Intel x86处理器的架构已经基本成型,之后的Pentium Ⅱ直到Pentium 4,都没有脱离这个体系,学好Pentium Pro的微架构更是后续学习Core架构的重要基础!
不过当时Cache技术还没有完全成熟,且Cache非常昂贵,因此尽管Pentium Pro性能不错,却远没有达到甩开对手的程度。而其高昂的价格,使得
1.4.2 Pentium Ⅱ
图22 Intel微处理器Pentium Ⅱ
1997年,Intel发布了基于Pentium Pro的
其带来的主要新特色有:
,考虑到Pentium Pro的失败,以此降低成本。L2缓存不再与CPU核心保持同速 - 采用了
,一条总线连通L2 Cache,另一条负责DRAM。双重独立总线结构 - 首次采用了最新的solt1接口标准,不再用陶瓷封装,而采用了一块带金属外壳的印刷电路板。
图23 Pentium Ⅱ的微架构图
Pentium Ⅱ基本上是面向消费者的奔腾Pro,整体上与Pentium Pro很相似,只是缓存方面有些不同,而之后随着Pentium Ⅲ的发布被快速取代。但Pentium Ⅱ时期,Intel发布了在PC的商业领域做了很多改进,例如用SDRAM内存取代了老式的EDO DRAM;PC开始引入AGP显卡;发布了面向入门级市场的Celeron(赛扬)系列(即削减了L2 Cache的Pentium Ⅱ,以超频与低价为特点),以及面向服务器市场的高端处理器Xeon系列(即增强了Cache的版本,以高频与大cache为特点);开始发布移动版本(面向低能耗)的Pentium Ⅱ等等。
1.4.3 Pentium Ⅲ
图24 Pentium Ⅲ的微架构图
1999年,Intel发布了32位处理器Pentium Ⅲ,
Katmai除了
八个月后,Intel发布了
其主要特点有(并非新元素):
- 集成了
(之前Pentium Pro中首次实现,这里L1变大了);32KB片内L1 Cache以及256KB片内L2 Cache(两个都是片内) ,与后面推出的Pentium Ⅳ架构比短小精悍了,且耗电量低;12级流水线设计 (之前Pentium Pro中首次实现);3 路超标量架构 - 插槽也更改为Socket 370。
一般认为,Coppermine才是真正意义上的Pentium,其拥有新架构、新制造工艺、新接口对性能的提升相当巨大,对日后Intel的架构影响深远,后来Intel的Pentium-M以及今天的Core微架构都是脱胎于Coppermine。题外话,在PentiumⅢ的移动版(即Pentium-M架构)中Intel还第一次引入了SpeedStep技能技术,是Intel全新的节约能源技术。
1.5 NetBurst架构——Pentium Ⅳ
图25 Pentium Ⅳ的微架构图
1.5.1 第一代Pentium Ⅳ内核——Willametle.
2000年,Intel发布了第一款32位Pentium Ⅳ处理器,并没有沿用Pentium Ⅲ的P6架构,而是重新设计了
其主要特点有:
,并用各种技术来代偿pipeline停顿产生的性能损失,诸如并行执行,缓冲技术,和投机执行技术。20级超标量pipeline - 采用了奇贵的
来满足Pentium 4的带宽需求。RDRAM - 在
:在总线的通信信令角度,于DDR的基础上,增加为独立的写接口和读接口,以此达到4倍速率。前端总线引入QDR技术 。SSE2指令一共144条(SSE包括70条指令),引入新的数据格式,如:128位SIMD整数运算和64位双精度浮点运算等。第一次引入SSE2指令集
尽管有着更高的时钟频率,但Willametle同频率的性能表现比AMD的Athlon差了不少,甚至是自家的Pentium Ⅲ在相同的频率下都运行的比它快。同时Willametle不仅发热量大,又采用了价格昂贵的RDRAM,最终成为公认的失败之作,甚至成为高噪音低性能的代名词。
1.5.2 第二代Pentium Ⅳ内核——Northwood.
一年后,Intel发布了第二款Pentium Ⅳ,内核代号
其主要特点有:
- 内存改用便宜的DDR SDRAM。
,也即是课程中学的第一次引入超线程技术(Hyper-Threading) (学术叫法),其实就是以CPU/pipeline的利用率为最大优先,按照“优先将不同线程之间没有hazard的指令装入超标量pipeline”的动态执行的思想来实现系统更高的综合吞吐量。Simultaneous Multithreading(SMT)
1.5.3 第三代Pentium Ⅳ内核——Prescott.
2004年,Intel发布了32位处理器,内核代号为
其带来的主要新特色有:
- 超深流水线:
.31级pipeline 。于SSE2的基础上又新增加了13条新指令,一条用于视频解码,两条用于线程同步,其余用于复杂的数学运算、浮点到整数转换和SIMD浮点运算。第一次引入SSE3指令集 ,与OS相配合后可以硬件防病毒技术EDB 。防范大部分缓冲区溢出攻击 - 加入了
,即Pentium-M架构中的SpeedStep技术的改良版,最早在Pentium-M架构中使用。其作用是节能省电技术EIST ,在CPU使用率低时动态降低CPU的倍率与工作频率,从而实现能耗的降低。由OS控制 ,作用是让一个CPU工作起来像多个CPU在并行运行,使一部电脑内同时运行多个OS成为可能。虚拟化技术Intel VT
Intel将Prescott接口类型的从Socket 478到LGA775,原本是希望能将发热降低,却实际上产生了反作用——功率消耗增加了大约10%,再加之90nm的工艺在当时还不够完满,最终Prescott每个时钟周期比Northwood多
1.5.4 第一款双核微处理器Pentium D.
2005年,Intel发布了“双核”微处理器,Pentium D ,采用与Prescott相同的90nm工艺与socket接口,实际上就是把俩Prescott集成到一个芯片上:一
总结一下
1.6 移动端架构Pentium-M
2000年后,便携式PC的需求开始爆发增长,而Intel的相关产品仅有P3与P4架构系列。而P4架构的高能耗高热量难以承载此应用场景——Pentium 4-M功耗35w太高,这使得Intel急需专门研发新的架构来满足移动便携市场的低功耗需求(在此前用Pentium 3-M凑活用)。于是,Intel在基于P6架构(Pentium Pro/Ⅱ/Ⅲ)上研发出了Pentium-M架构,此架构的处理器拥有超越P4的高性能,而且功耗超低,在移动平台留下了深深的烙印。
1.6.1 第一代Pentium-M内核——Banias.
2003年,Intel发布了第一代Pentium-M架构,
其带来的主要新特色有:
- Banias的
,再配合其他节能措施,能够使得笔记本电脑的电池时间提升到3小时以上(TDP(最大散热功耗)只有24.5w )。比以往架构多了1小时的续航能力 。远远小于NetBurst的流水线长度,既保证了性能也不至于功耗的过高。12级流水线 - 64KB 的片上L1 Cache;
4部分 合计 总 大小为 1MB的 片上 L2 ,可支持单独访问,实现省电降功耗低的目的。Cache 改 进的分支预测和预取机制,预测比 Pentium (presccot的核心成果);Ⅲ高20% 第一款x86支持Micro -ops (微操作融合):在指令解码后的多个微操作作为一个bundle,待它们所需的处理单元都在pipeline中空闲时共同输入pipeline中,以提升pipeline的吞吐量。Fusion
同时,Intel
1.6.2 第二代Pentium-M内核——Dothan.
2004年,Intel推出了二代Pentium-M架构,内核代号为
其带来的主要新特色有:
到21瓦(TDP功耗降低 )比Banias低3.5w - 64KB 的片上L1 Cache;
(2MB的片上L2 Cache ,与Banias同技术)两倍于Banias - 基于Dothan的二代迅驰平台推出了54Mb/s的
,带动了整个无线设备市场的更新换代。802.11g无线网络
最终可以得到,Dothan的综合性能大多数情况比Banias高出10-20%。
1.6.3 第三代Pentium-M内核——Yonah.
图26 Yonah微架构图
2006年,Intel发布了第三代Pentium-M架构,内核代号为
其带来的主要新特色有:
新加入 :两个Core可以共享缓存设计 ,而不是独享,显著提升了双核处理器的任务配合能力。共享2MB二级缓存 加入了SSE3指令集、英特尔虚拟化技术( Intel VT )与英特尔病毒防护技术(Intel EDB ,) 。加入了之前在Pentium Ⅳ首次实施的技术
Yonah是
在此阶段,P5与P6架构的荣光也就此落幕,而Pentium 4系列更是无地自容,使Pentium 4开发团队引咎辞职。
1.7 Core 2系列(Core架构)
图27 Core微架构图
Intel发布了基于Core品牌的内核Yonah,但Yonah的架构是采用Pentium-M,而
2006年7月,Intel发布了第一款Core架构的内核Merom(
其带来的主要新特色有:
M ,可同时解码四道指令。相比RISC增加并行指令发射数目简单,CISC乱增加发射数目会导致频率上不去,因此之前的x86处理器只能做到三发射(此时的AMD K8架构也只能实现三发射),这说明在Merom中实现了指令解码效率提升了33%。erom实现了指令四发射:Merom将指令分为20%热指令与80%冷指令 ;其竞争度对手AMD的K10架构、新一代(当时)“推土机”架构统统都没有实现四发射,直到Zen 架构中才实现这项技术。这项成就是Core微架构的最大变化之一,一直是当时英特尔的技术壁垒 M ——如CMP指令和JMP指令融合,可实现在指令解码阶段,对多条常用指令组合进行宏代替,实现解码效率提升与加速并降低功耗,此技术比Micro Fusion(微操作融合)用的更广泛。acro-Ops Fusion(宏操作融合) 。说起64位指令集,同样的64位拓展指令集却有好几个名字,千奇百怪容易乱,我细细整理后是这样的过程:第一个采用Intel-64(EM64T)架构的Intel移动处理器
因为Core微架构是Intel在Yonah微架构基础上改进而来,其
后来Intel在
在
1.8 Core i系列——挤牙膏到今天的Intel
图28 Intel的Tick-Tock发展战略
而
在2015年,Intel就卡在14nm到10nm工艺之间,后来进入10nm——仅仅相当于20个硅原子宽度——制程后,其制造难度让原本的芯片研发周期更是无法适应,这使得Intel不得不延长原制成的使用周期。更何况Intel是“自产自销”模式,靠自家晶圆厂而不像AMD找台积电代工生产芯片,有报道称其10nm晶体管密度与台积电7nm晶体管密度相当,从而7nm制程良品率限制更多。
1.8.1 Nehalem架构
2008年11月,Intel推出了
图29 Nehalem架构图
其带来的主要特色有:
,即使得CPU会根据当前的任务量自动调整主频甚至自动超频,实现性能与省电策略的最大化。首次引入了睿频加速技术(Intel Turbo Boost 1.0) (在Pentium Ⅳ中首次引入)。重新引入了超线程技术 :其单核L1 Cache为64KB ,单核L2 Cache 256KB,共享L3 Cache 4MB~24MB;减少了L2/L3 Cache Line大小(自Netburst的128KB改为64KB,与Pentium-M架构相同),扩大了共享的L3 Cache大小。三级Cache 。内存控制器决定了计算机系统的内存参数与性能,CPU与内存的通信原本要经过北桥,其带宽受到前端总线FSB的限制难以提升。Intel在Nehalem采用了新的直连架构,使CPU到内存的路径更短,同时采用将内存控制器集成于片内(Integrated Memory Controller,IMC),直接取消了北桥芯片组 (支持多处理器以及允许core间内部互通),来大幅度提高CPU与内存的I/O性能,并支持三通道DDR3。片内全新的QPI(Quick Path Interconnect)总线技术 predictor:Branch Target Buffer(BTB), Loop Detector, Indirect Branch Target Array和Return Stack Buffer (RSB)。支持四种分支预测 。20-24级pipeline - 采用64位宏操作融合(MOF)技术。
- 指令与数据共存的
。二级4路TLB(sTLB) ,从而实现更高的性能。比Penryn(Merom内核的后续精工艺版)降低了30%的功耗,平均提高了15%-20%的单周期性能(单线程/多线程都有不错的提高)。增大了Core的大小 ,例如加锁操作的Compare-and-Swap(CAS) 指令。降低了架构中原子操作的50%时延
1年后的2010年1月,Intel推出了采用
1.8.2 Sandy Bridge架构
2011年1月,Intel推出了
图30 Sandy Bridge其内Die示意图
其带来的主要特色有:
- 对集成的GPU架构进行修改,
,使核显的性能增强,直逼低端的独显,同时真正实现将GPU与CPU融合的核显(Integrated Graphics Processor,IGP) 。核显可以访问共享的L3 Cache - 采用了
来链接各个core以及其L1/L2 Cache,从而以简介、高效又灵活的方式使多核之间的通信与交互变得简单。环形总线(Ring Bus) ,支持了AVX 256-bit指令集是Sandy Bridge最重要的改进 。AVX指令集是X86指令集的SSE延伸架构,其全新的命令格式系统同时也为AVX指令集的大幅度后续扩充做好了准备。实现浮点性能、矩阵计算快90% ,目的是支持Intel Quick Sync Video技术 。加速硬件视频解码 - 使用了
(Intel Turbo Boost 2.0,上一个版本用在了Nehalem上),增强了CPU自动提速的弹性,新一代智能动态加速技术(睿频2.0) ,并随着系统负载的不同协调二者的频率升降,表现得更加智能化。除CPU外还可对GFX(核显)进行加速 - 支持双通道DDR3-1600;
- 采用14到19级的pipeline(取决于微操作cache是否命中)。
图31 Sandy Bridge的Ring Bus结构
这一时期AMD大力鼓吹
1.8.2.2 Tick——Ivy Bridge
2012年4月,Intel推出了
图32 Ivy Bridge其内Die示意图
Ivy Bridge是Sandy Bridge的工艺改良版,并
,是今后Intel半导体工艺的重要基础;首次采用了22nm 3D晶体管工艺 - CPU内部PCI-E控制器也
,带宽提升了一倍,分配方式也更灵活;升级到PCI-E 3.0标准 (类似CPU中的ALU,EU是GPU的基本运算单元)集成GPU得到一定增强,其EU ,API支持从DX10.1升级到了DX11。数从12个提升到16个
1.8.3 Haswell架构
图33 Haswell其内Die示意图
2013年6月,Intel推出了
图34 Haswell架构图
其带来的主要特色有:
Haswell最引人注目的地方就在于各种节能设计 : 主板上 的 电压调节 ,称为FIVR模块(全集成式电压调节模块),是Haswell节能设计的一个重大基础,能够实现模块(VRM)集成到了CPU内部 。对CPU内部电压更精准的把控与功耗管理、主板的供电效率的提升以及简化主板设计 :针对增加了两个指令集 ,以及AVX指令的进阶版多线程应用的TSX扩展指令 。AVX2指令集 - 从Haswell架构开始,
,方便走后续暴力堆砌核显规格的道路——核显开始模块化、可扩展的设计并使用Gen7.5架构 ,还有大容量eDRAM作为L4 Cache,可同时提升CPU与GPU性能。最高级的核显拥有40个EU
2014年1月,Intel推出了采用
Broadwell主要用在移动与服务器平台上,且国内没有正式上市所以没啥存在感。实际上,
另一方面,Broadwell也不过是Haswell的工艺增强版:Intel表示14nm工艺的
1.8.4 Skylake架构
2015年8月,Intel推出了
- 内存
,实现DDR3、DDR4 的无缝接轨。同时支持DDR3与DDR4 (Broadwel太菜啥也不是),使用了更先进的14nm工艺 ,缩小了晶体管的体积,提升了其密度,优化了漏电问题,使Skylake在第二代FinFET晶体管技术 (四核处理器的TDP从Haswell)。提升了频率与性能又明显降低了TDP功耗 ,使电压控制功能重新回归主板上。因为实现片内集成FIVR电压控制模块增加了处理器的复杂性,虽然FIVR能更易于处理器进行功耗管理,但却也会增加TDP功耗。取消了Haswell中引入的FIVR电压控制模块 - 使用网状总线架构(mesh bus)代替原来的ring Bus(环形总线架构)。这是因为
,当核心数较多时ring bus的是延迟就会比较明显。在Skylake架构的Intel Xeon E7 v4处理器中,内核数量已经达到24个。ring bus的特点是随着核数的增加延迟时间也会增加 - 解放了一定的外频,从而
强化了 ,令Skylake的超频性能很好。可超频性
在
2016年8月,Intel推出了
其增加的细微优化内容例如:
- Intel在Kaby Lake上
,采用了更高的鳍片与更宽的栅极间距(晶体管上的),从而降低晶体管密度、减少漏电概率,如此一来可以实现更高的频率但功耗能没什么变化。升级为14nm+工艺 - 在GPU方面
,采用全新的图形架构——使用Gen9.5架构 ,可大幅降低3D图形和4K视频播放时的功耗。增加了H.265 Main.10、VP9 8/10-bit等格式的硬件解码与编码 - 支持DMI 3.0(Direct Media Interface,直接媒体接口)以及Thunderbolt 3。
2017年10月,Intel推出了