最近因为需要，我是对的x86的CPU对架构发展历史进行了研究和研究。目前主流的x86架构，其先进的技术代表制造商是Intel与AMD，它们相爱相杀的故事广流于家家户户。但是我整理Intel的相关CPU发展花了2、3周(期间还有其他事情)，写了我1W5字，累屎我，AMD相关产品还没有时间整理和写入。关于Intel事实上，芯片开发过程中有很多相关的整理网站，但大部分都停留在2011年(因为也是当时写的)，也就是截止日期Intel Core在架构之前，后续的介绍文章非常稀缺。我学到了很多这样的文章和维基百科全书，主要参考网站放在文章的末尾，但没有时间看看是否有相关的文献内容，然后删除Intel、AMD、IBM等待公司的发展决策和心理之旅，只是整理处理器部分的内容，形成这篇文章，希望对自己，以及其他想对ntel x多年来，86处理器的一般发展过程得到了一些研究CPU芯片小白有一点帮助！

在内容叙述架构方面，由于我去年学习了计算机结构系统的内容，本文主要遵循时间顺序Intl发布的主要芯片和新架构被选择并简要介绍。前期主要记录芯片/架构添加的新技术(如超标量和超线程)SMT等）以及架构图，也可以从晶体管和主频的快速增长来感受一下摩尔定律；后期比如Core架构，架构图找不到任何东西，我不熟悉引入的一些新技术和指令集。整理的内容可能没有写关键或关键特征。我更关注多代产品之间的关系（因为我在网上写的东西很混乱，比如：Core品牌、Core架构、Core i系列处理器)只能供您参考，尤其是Intel Core挤牙膏系列，我写的很傻，有一种两代产品差别不大的感觉...

在搜索数据学习期间，我还发现了一个CSDN博主，他的博客内容主要是更详细地分析特定的结构，这样我就可以得到宝藏。如果你看到每个芯片的架构图，并想深入研究每个架构，你也可以看到他的文章：

一凡stkeke_CSDN , 8086架构/流水线及其优化

后续，我会抽出时间把它拿走。AMD部分补上~别忘了赞哦亲~(￣▽￣)"

X86 CPU 发展历史与分析

本文作者：SIST——Yippee

0 前言

PC世界上有几个优秀的架构代代相传，迭代至今，分别是IBM的Power架构，Intel与AMD相爱相杀的X86架构，移动终端领先ARM高性能科学计算架构MIPS架构等。要实现国内具有独立知识产权的芯片架构技术，就必须博取众长，学习他人架构的特点，打通各种经络。

经过一学期的学习，对计算机系统结构的基础知识也算是有所了解。通过对网上资料和博文的学习，我根据个人对系统结构的粗浅理解和章节要点Intel的X86重要的CPU学习版本，总结记录其发展过程和演变道路。由于时间和长度的关系，AMD各种型号的微处理器都没有记录下来。另外，同一个微处理器有不同的主频版本，本文仅以其最低主频为参考。

1 Intel X86 CPU的历史发展

1.1 X86架构前的铺垫

1.1.1 4004-4

图1 Intel第一个4位微处理器4004

1971年，年轻人Intel接到日本Busicom该公司的订单生产了世界上第一个4位CPU，代号4004。作为Intel 基于P沟的第一代微处理器MOS采用10种硅栅技术μm有2250个晶体管，主频740KHz，处理速度达到0.06 MIPS，前端总线为0.74MHz（4位），socket为DIP16。

图2 4004微系统架构图

4004处理器可执行4位操作，支持8位指令集和12位寻址，指令集为4位BCD编码。

4004性能及第一台电子计算机ENIAC相似，但体积较大ENIAC需要占用一个小很多的房间。当时只有3岁Intel主营业务是DRAM，缺少CPU但4004代表技术背景Intel处理器序章的开始。

1.1.2 8008-第一个8位处理器

图3 Intel第一个8位微处理器8008

1972年，Intel发布世界首块8位CPU 8008也是首款PC上面使用的处理器仍然基于8位运算P沟道MOS硅栅技术与10μm有3500个晶体管，主频0.5 MHz，处理速度为0.05 MIPS(略慢于4004)，socket位DIP18。

图4 8008微系统架构图

8008处理器可执行8位操作，支持14位搜索站点，可访问16位KB内存。虽然其单位时间执行指令数略慢于4004，但由于其8位操作的优势，它在大多数应用程序中具有更好的性能。

1.1.3 8080——新工艺

图5 Intel微处理器8080

1972年，Intel8080芯片仍然是8位处理器N沟道MOS取而代之的是P沟MOS，使用6μm工艺，晶体管6000个，主频2 MHz，处理速度为0.64 MIPS，运算速度比8008提高了10倍，socket为DIP40。

图6 8080微系统架构图

8080是早期8008处理器的增强和扩展：地址总线为16位，可访问64位KB内存是8008的四倍；NMOS取代PMOS升级；8008指令集进一步增强。8080的成功直接影响到后续工作x86架构处理器。

1.2 x86架构开始/stron>

1.2.1 8086

图7 Intel首个16位x86架构微处理器8086

1978年，Intel推出微处理器8086，也是第一款16位处理器，采用3μm工艺与特色的x86-16指令集，拥有2.9W个晶体管，主频4.77 MHz，处理速度达到0.33 MIPS，socket还是DIP40不变。在8086中，对单一指令仅仅采用2级步骤完成（取指，执行）同时CPU内只能执行一条指令，非流水线操作。8086所有的内部寄存器、内外数据总线都是16位，因此是完全的16位微处理器。

其带来的主要新特色有：

在8086中含有2个单元部件：总线BU负责指令的读取与数据传输，执行EU负责执行指令。
地址分段的内存访问模型。其外部地址总线为20位，可以寻址1MB内存；但是内部地址总线为16位，可以寻址64KB空间。因此内部设立了段寄存器，系统基于“段内偏移”的概念进行内存寻址：由16位段寄存器左移4位作为段基址，加上16位段偏移地址形成20位的物理地址，从而达到最大寻址空间1MB，最大分段64KB。这个模式在后续的80286与80386中被称为“实模式”。

图8 实模式下的内存访问模型

但它也有明显的安全与功能缺陷：在实模式下用户程序和操作系统拥有同等权利，对访问的地址即为物理地址，而同时程序可以随意修改自己的段基址，因此可以随意修改任意物理地址甚至操作系统的内容；同时，因为各程序使用的逻辑地址即物理地址——“所见即所得”——故微处理器无法支持”多任务“功能。

图9 8086的微体系架构图

之后，Intel公司发布了8088处理器，采用x86指令集，实际上是外部数据总线削减为8位的8086；以及同样采用x86指令集，为辅助8086起到数学算术运算的协处理器8087，它能完成专门用于对数、指数和三角函数等的数学计算指令，提升科学运算的效率。8086是最成功的X86架构的鼻祖，其使用的X86指令集不断被使用、拓展至今。一年后，IBM公司于其PC中采用8088芯片，在当时RISC为主流的时代环境中，Intel得以初现锋芒。

1.2.2 80286

图10 Intel微处理器80286

1982年，Intel发布了16位处理器80286。其兼容8086的所有功能，采用1.5μm工艺与相同的x86-16指令集，拥有13.4W个晶体管，主频6 MHz与外频相同，处理速度达到0.9 MIPS，socket为正方形包装的PGA68。在80286中，对单一指令采用3级步骤完成（取指，译码，执行）但是CPU内只能执行一条指令，非流水线操作。其内、外部数据总线皆为16位，地址总线24位，可寻址16MB内存。

图11 80286的微体系架构图

其带来的主要新特色有：

在80286中含有4个功能部件：指令IU负责指令译码,地址AU负责逻辑地址与物理地址的转换,执行EU,以及总线BU，四个部件并行工作提高处理速度与支持新增加的保护模式的运行。
从80286开始，CPU的工作方式也演变成两种：实模式和保护模式。

实模式：即原8086微处理器的内存访问方式。因CPU内寄存器数据为16位，只能寻址1MB的内存空间，因此在实模式下CPU基于段内偏移的物理地址形式进行内存寻址，这会带来系统的不安全性与功能限制。

图12 80286保护模式下的内存寻址关系

保护模式：80286中新增的保护模式。是为了改进实模式下内存访问的不安全性，它将内存的管理模式分为纯段模式或段页式，给内存段添加了段属性（如段基址、段界限、类型、DPL等）来限制用户程序对内存的操作权限，让用户程序对内存的访问不再“为所欲为”，从而更好的保护系统。在保护模式下，系统即可使用虚存、页面调度、多任务处理（此时还需要相关部件配合）等功能。

1.2.3 80386

图13 Intel首个32位微处理器80386

1985年，Intel发布了第一款32位处理器80386，采用相同的1.5μm工艺与扩充后的x86-32指令集，拥有27.5W个晶体管，主频12.5 MHz与外频相同，处理速度达到6 MIPS，性能比80286提升约10倍，socket为PGA132。在80386中，对单一指令依然采用3级步骤完成（取指，译码，执行），非流水线操作。其数据总线以及地址总线皆为32位，因此能够寻址4GB的内存空间，因此为保护模式的优化创立条件——虚拟8086模式。

图14 80386的微体系架构图

其带来的主要新特色有：

在80386中，引入了新的处理器工作模式——虚拟8086模式：当处理器进入保护模式后，基于实模式的应用就不能直接运行了，而PC在刚刚启动进入DOS时是实模式，当操作系统（主流OS如如Linux、Windows）运行后就工作在保护模式，而保护模式不能切换回实模式。虚拟8086模式实际上就是运行在保护模式中的实模式，其指利用硬件级虚拟化技术，模拟出多个8086芯片，达到实模式的应用（8086程序）能以任务的形式工作在基于保护模式的操作系统上，真正实现各色程序的多任务处理功能。于是80386共具有三种工作模式：实模式，保护模式和虚拟模式，同时能兼容之前的老机型程序。
首次引入了L1 Cache(片外)，极大的提高了CPU访问内存的效率。从此，cache在CPU中的地位便不可或缺。
添加了内存管理单元（MMU），从而使得处理器能够有内存保护，存储器分页管理机制等功能。
指令集扩充增加了一些内容等。

80386位处理器，配合80387协处理器在当时已经可以完成AutoCAD的FLOPS计算。而80386作为首款32位微处理器以及其新增加的各色功能，不仅使Intel成为PC界的领头羊，更是具有划时代的重要意义。

1.2.4 80486

图15 Intel微处理器80486

1989年，Intel发布了32位处理器80486，采用1μm工艺，指令集为x86与x87的集合（增加了浮点运算部件），拥有120W个晶体管（突破百万晶体管的界限），主频25 MHz，处理速度达到20 MIPS，socket为PGA。

图16 80486的微体系架构图

其带来的主要新特色有：

在整数处理单元中首次引入了流水线(pipeline)的概念，采用了RISC的技术，建立了五级流水线（取指，译码，转址，执行，写回），使得每一级流水线在同一时刻都运行着不同的指令而不是同一时刻仅有一条指令于CPU中，实现一个时钟周期内完成一条指令。虽然当时80486依然是采取顺序执行，但此设计依然使80486的提升为同频率的80386处理器的2倍性能。同时，引入Forwarding技术解决data hazard问题；并通过“Pre-fetch”的方式加快指令分支操作。
片内集成了指令数据统一的8KB L1 Cache，同时支持外部L2 Cache。
片内集成了增强型FPU单元，其浮点性能甚至明显快于80387。
提出了时钟倍频技术：由于CPU主频的快速提升，而总线外频速度没有跟上，因此Intel在80486中应用了倍频技术，使得CPU的主频通过倍频器等于外频乘上一个倍数（2倍或3倍），进而保持增长。
改进了MMU的性能，同时对指令集进行了一定扩充，如XADD，BSWAP，CMPXCHG，INVD，WBINVD，INVLPG。
采用的新的内部总线传送技术上：突发传送方式，大大提高了与内存的数据交换速度。

1.3 P5架构——Pentium与Pentium MMX

1.3.1 Pentium

图17 Intel微处理器Pentium

1993年，Intel发布了32位处理器Pentium，又被号为80586，使用的超标量 x86微体系架构（称为P5架构），是8086兼容处理器系列中的第五代主要产品，指令集非常接近80486与80386，仅仅做了简单的指令内容增加。其采用0.8μm工艺，拥有310W个晶体管，主频60MHz，处理速度达到100 MIPS（80486的四倍性能），插槽采用Socket4/5/6.

图18 Pentium(80586)的微体系架构图

其带来的主要新特色有：

是第一个采用超标量技术Intel微处理器，拥有2条并行的整型pipeline：pipeline U处理任意指令，pipeline V吸收了RISC的特色而负责处理简单通用指令，从而提升系统的运行效率。
由于超标量结构需对数据和指令进行同时读写，因此引入对L1 Cache进行数据指令分离：各单独的8K数据L1 Cache和8K指令L1 Cache，减少了指令、数据以及读/写hazard。但L2 Cache依然是片外的。拥有单个更快的浮点数单元，整个系列的CPU浮点性能都很不错。最显著的是FMUL功能，吞吐量比80486 FPU高出15倍。但可惜此浮点单元爆出存在Bug，使得极少数情况下导致除法运算的精度降低，饱受批评。
引入了MESI的Cache coherence协议，实现更高效的cache写回。
实施了分支预测算法（Branch Prediction）来提前预取指令，避免不必要的闲置等待，引入了Branch Target Buffer(BTB)结构以及Instruction Prefetch Buffer.
Pentium的制造工艺优良，可超频性能很好，使得“超频”概念在市场中流行起来。
从Pentium开始，CPU封装出现扇热盖的设计，已解决突显的CPU的发热问题。

虽然Intel在Pentium实现了超标量、cache分离、分支预测等新技术，但要注意的是，此时Pentium依然采取in-order执行（指令）；同时CPU面对data hazard时pipeline中依然会出现stall。

1.3.2 Pentium MMX

1996年，Intel推出了基于P5架构的微处理器Pentium MMX，添加了MMX指令集，是对P5架构的一次关键升级。采用0.35μm工艺，拥有450W个晶体管，主频166MHz，插槽采用Socket7.

图19 Pentium MMX的微架构图

其带来的主要新特色有：

添加了Intel的MMX (Multi-Media Extension)指令集，目的是增强提升CPU在2D音像、图形和通信等多媒体应用对诸如编码与解码等工作的效率（只局限于整数的运算）。在架构中，Intel定义了八个64位SIMD寄存器与负责相关快速执行的硬件，由这些硬件需要而对指令集进行相应补充拓展。为CPU增加了57条MMX指令，
L1 Cache升级为双倍大小：将CPU芯片内的L1 Cache由8KB指令+8KB数据增加为16 KB指令+16 KB数据Cache，在Pentium MMX中没有集成当时卖力不讨好的L2 Cache，而是独辟蹊径采用MMX技术去增强性能（如上所述）。

而有了上述两种改进方式，MMX CPU比普通CPU在运行含有MMX指令的程序时，处理多媒体的能力上提高了约60％。由于应用程序都支持MMX指令，这一步操作也增强了英特尔在该领域的垄断地位。MMX技术不但是一个创新，而且还开创了CPU开发的新纪元，后来的SSE，3D NOW！等指令集也是从MMX发展演变过来的，而这种附加指令集机制也成为后来所有x86处理器的基准。

1.4 P6架构——Pentium Pro/Ⅱ/Ⅲ

1.4.1 Pentium Pro

图20 Intel微处理器Pentium Pro

1996年，Intel发布了32位处理器Pentium Pro，此为新的P6架构。其采用相同的0.35μm工艺与x86指令集(没有支持MMX指令集），拥有550W个晶体管，主频150MHz，处理速度达到440 MIPS（是Pentium的2~3倍性能)，插槽采用Socket8.

其带来的主要新特色有：

首次实现CPU的L2 Cache的片内集成，采用了16KB片内L1 Cache（合计）与256KB L2 Cache。Intel将CPU与L2 Cache两个芯片之间用高频宽的内部通讯总线互连，使得L2 Cache与CPU同速，运行在更高的频率上。
实现了3路超标量（之前是Pentium中引入的2路超标量）。
实现了指令流水线的乱序执行（OoO-E）,这是在Pentium超标量结构后的又一次飞跃。Pentium Pro采取的是Tomasulo动态执行算法，其策略是顺序发射，乱序执行，按需提交，使用了Reorder buffer与Register renaming，以及12级pipeline(也有文献说11级或14级）。

图21 Pentium Pro的微架构图

Pentium Pro的P6架构标志着Intel x86处理器的架构已经基本成型，之后的Pentium Ⅱ直到Pentium 4，都没有脱离这个体系，学好Pentium Pro的微架构更是后续学习Core架构的重要基础！

不过当时Cache技术还没有完全成熟，且Cache非常昂贵，因此尽管Pentium Pro性能不错，却远没有达到甩开对手的程度。而其高昂的价格，使得Pentium Pro成为Intel第一个失败的产品，成为了典型的“叫好不叫座”的产品。但Pentium Pro的设计思想和总体架构却对Intel此后的处理器设计造成了深远的影响，其中L2内嵌的模式一直沿用至今。

1.4.2 Pentium Ⅱ

图22 Intel微处理器Pentium Ⅱ

1997年，Intel发布了基于Pentium Pro的P6架构（此乃Pentum Pro的优点）的32位处理器Pentium Ⅱ，是对Pentium（P5）与Pentium Pro（P6）的改进版，其内核代号Klamath，采用0.35μm工艺并支持x86指令集、MMX指令集（此乃集合Pentium的优点，Pro中没有支持MMX），拥有750W个晶体管，主频233MHz，集成了32KB片内L1 Cache（合计）与512KB 片外L2 Cache（合计），socket为Slot1。

其带来的主要新特色有：

L2缓存不再与CPU核心保持同速，考虑到Pentium Pro的失败，以此降低成本。
采用了双重独立总线结构，一条总线连通L2 Cache，另一条负责DRAM。
首次采用了最新的solt1接口标准，不再用陶瓷封装，而采用了一块带金属外壳的印刷电路板。

图23 Pentium Ⅱ的微架构图

Pentium Ⅱ基本上是面向消费者的奔腾Pro，整体上与Pentium Pro很相似，只是缓存方面有些不同，而之后随着Pentium Ⅲ的发布被快速取代。但Pentium Ⅱ时期，Intel发布了在PC的商业领域做了很多改进，例如用SDRAM内存取代了老式的EDO DRAM；PC开始引入AGP显卡；发布了面向入门级市场的Celeron（赛扬）系列（即削减了L2 Cache的Pentium Ⅱ，以超频与低价为特点），以及面向服务器市场的高端处理器Xeon系列（即增强了Cache的版本，以高频与大cache为特点）；开始发布移动版本（面向低能耗）的Pentium Ⅱ等等。

1.4.3 Pentium Ⅲ

图24 Pentium Ⅲ的微架构图

1.4.3.1 第一代Pentium Ⅲ内核——Katmai.

1999年，Intel发布了32位处理器Pentium Ⅲ，第一代内核代号Katmai，其实就是PentiumⅡ的简单改进版。采用0.25μm工艺，指令集为IA-32（即x86）、MMX、SSE，拥有950W个晶体管，主频500MHz，处理速度达到，socket与Pentium Ⅱ相同为Slot 1。

Katmai除了支持SSE指令外其他方面与Pentium II是几乎一样的：

SSE(Streaming SIMD Extensions)指令集，共包含70条指令，其中50条SIMD浮点指令，12条全新MMX指令和8条系统内存数据流传送优化指令，目的是对3D游戏性能的显著提升（MMX指令集的不足），兼容MMX指令集。由于MMX指令集会借用原浮点寄存器而影响浮点运算的性能，于是Intel为SSE指令集新增了8个全新独立的的128位单精度寄存器，能同时处理4个单精度浮点变量，使得SSE指令集能与其他浮点运算并行。

1.4.3.2 第二代Pentium Ⅲ内核——Coppermine.

八个月后，Intel发布了第二代的Pentium Ⅲ，其内核版本为Coppermine，采用新的0.18μm工艺，主频733MHz，是Intel历史上首款达到1Ghz的X86处理器。

其主要特点有（并非新元素）：

集成了32KB片内L1 Cache以及256KB片内L2 Cache（两个都是片内）（之前Pentium Pro中首次实现，这里L1变大了）;
12级流水线设计,与后面推出的Pentium Ⅳ架构比短小精悍了，且耗电量低;
3 路超标量架构（之前Pentium Pro中首次实现）；
插槽也更改为Socket 370。

一般认为，Coppermine才是真正意义上的Pentium，其拥有新架构、新制造工艺、新接口对性能的提升相当巨大，对日后Intel的架构影响深远，后来Intel的Pentium-M以及今天的Core微架构都是脱胎于Coppermine。题外话，在PentiumⅢ的移动版（即Pentium-M架构）中Intel还第一次引入了SpeedStep技能技术，是Intel全新的节约能源技术。

1.5 NetBurst架构——Pentium Ⅳ

图25 Pentium Ⅳ的微架构图

1.5.1 第一代Pentium Ⅳ内核——Willametle.

2000年，Intel发布了第一款32位Pentium Ⅳ处理器，并没有沿用Pentium Ⅲ的P6架构，而是重新设计了新微架构NetBurst。第一款Pentium Ⅳ的内核为Willametle。采用0.18μm工艺，拥有4200W个晶体管，主频1.4GHz（轻松过GHz），采用QPB型FSB，外频达到了400MHz，接口方式为Socket423。

其主要特点有：

20级超标量pipeline，并用各种技术来代偿pipeline停顿产生的性能损失，诸如并行执行，缓冲技术，和投机执行技术。
采用了奇贵的RDRAM来满足Pentium 4的带宽需求。
在前端总线引入QDR技术：在总线的通信信令角度，于DDR的基础上，增加为独立的写接口和读接口，以此达到4倍速率。
第一次引入SSE2指令集。SSE2指令一共144条（SSE包括70条指令），引入新的数据格式，如：128位SIMD整数运算和64位双精度浮点运算等。

尽管有着更高的时钟频率，但Willametle同频率的性能表现比AMD的Athlon差了不少，甚至是自家的Pentium Ⅲ在相同的频率下都运行的比它快。同时Willametle不仅发热量大，又采用了价格昂贵的RDRAM，最终成为公认的失败之作，甚至成为高噪音低性能的代名词。

1.5.2 第二代Pentium Ⅳ内核——Northwood.

一年后，Intel发布了第二款Pentium Ⅳ，内核代号Northwood。采用精进的0.13μm工艺，拥有5500W个晶体管，主频2GHz，集成了片内512KB L2 Cache，socket为Socket478，

其主要特点有：

内存改用便宜的DDR SDRAM。
第一次引入超线程技术(Hyper-Threading),也即是课程中学的Simultaneous Multithreading(SMT)（学术叫法），其实就是以CPU/pipeline的利用率为最大优先，按照“优先将不同线程之间没有hazard的指令装入超标量pipeline”的动态执行的思想来实现系统更高的综合吞吐量。

1.5.3 第三代Pentium Ⅳ内核——Prescott.

2004年，Intel发布了32位处理器，内核代号为Prescott的Pentium Ⅳ的重要修订版。采用90nm工艺，拥有1.25亿个晶体管，最高的版本主频达到了3.8 GHz，socket为LGA775。

其带来的主要新特色有：

超深流水线：31级pipeline.
第一次引入SSE3指令集。于SSE2的基础上又新增加了13条新指令，一条用于视频解码，两条用于线程同步，其余用于复杂的数学运算、浮点到整数转换和SIMD浮点运算。
硬件防病毒技术EDB，与OS相配合后可以防范大部分缓冲区溢出攻击。
加入了节能省电技术EIST，即Pentium-M架构中的SpeedStep技术的改良版，最早在Pentium-M架构中使用。其作用是由OS控制，在CPU使用率低时动态降低CPU的倍率与工作频率，从而实现能耗的降低。
虚拟化技术Intel VT，作用是让一个CPU工作起来像多个CPU在并行运行，使一部电脑内同时运行多个OS成为可能。

Intel将Prescott接口类型的从Socket 478到LGA775，原本是希望能将发热降低，却实际上产生了反作用——功率消耗增加了大约10%，再加之90nm的工艺在当时还不够完满，最终Prescott每个时钟周期比Northwood多产生大约60%的热量。Prescott的整体功耗轻松超过百瓦大关，基本上属于火炉级别。

1.5.4 第一款双核微处理器Pentium D.

2005年，Intel发布了“双核”微处理器，Pentium D ，采用与Prescott相同的90nm工艺与socket接口，实际上就是把俩Prescott集成到一个芯片上：一共有两个die，一个die一个core，而两个core之间的通信不能走内部总线而是走北桥，被AMD嘲讽为“伪双核”。而其巨大的功耗150w，更不是开玩笑的。

总结一下Pentium Ⅳ或NetBurst微架构的核心理念，四个字概括：频率至上。Intel为了与AMD的产品有所区别，而决策开发更高的时钟频率，是经典的市场驱动技术案例。为了实现更高的频率，把流水线的级数越拉越大，但pipeline的各级效率也因此降低！而更高的频率，带来的日益严重的高耗能、高发热以及平庸的性能，使得Pentium Ⅳ被最终放弃并转入Pentium-M架构，而Intel宣传的Pentium Ⅳ能达到10 GHz的目标也因为散热问题化为泡影。这告诉我们，处理器的设计过于被市场需求而不是被架构本身所控制，势必或导致产品本身慢慢地走向歧途。

1.6 移动端架构Pentium-M

2000年后，便携式PC的需求开始爆发增长，而Intel的相关产品仅有P3与P4架构系列。而P4架构的高能耗高热量难以承载此应用场景——Pentium 4-M功耗35w太高，这使得Intel急需专门研发新的架构来满足移动便携市场的低功耗需求（在此前用Pentium 3-M凑活用)。于是，Intel在基于P6架构（Pentium Pro/Ⅱ/Ⅲ）上研发出了Pentium-M架构，此架构的处理器拥有超越P4的高性能，而且功耗超低，在移动平台留下了深深的烙印。

1.6.1 第一代Pentium-M内核——Banias.

2003年，Intel发布了第一代Pentium-M架构，内核代号为Banias，是对Pentium Ⅲ（即P6架构）的重大修改（Pentium Ⅲ又是在Pentium Pro基础上改的），采用130nm工艺，拥有7700W个晶体管，主频为1.3GHz~1.6GHz（性能堪比Pentium Ⅳ的2.8GHz），插槽使用了Socket 479（实际上仅478个针脚，且各针脚的定义与桌面款的Socket 478不一样）。

其带来的主要新特色有：

Banias的TDP（最大散热功耗）只有24.5w，再配合其他节能措施，能够使得笔记本电脑的电池时间提升到3小时以上（比以往架构多了1小时的续航能力）。
12级流水线。远远小于NetBurst的流水线长度，既保证了性能也不至于功耗的过高。
64KB 的片上L1 Cache；4部分合计总大小为1MB的片上L2 Cache，可支持单独访问，实现省电降功耗低的目的。
改进的分支预测和预取机制，预测比Pentium Ⅲ高20%（presccot的核心成果）；
第一款x86支持Micro-ops Fusion（微操作融合）：在指令解码后的多个微操作作为一个bundle，待它们所需的处理单元都在pipeline中空闲时共同输入pipeline中，以提升pipeline的吞吐量。

同时，Intel推出了Centrino（迅驰）平台——将Pentium-M CPU、i855系列芯片组和802.11b无线网卡捆绑销售——大获成功，也推动了802.11b无线网络的普及。

1.6.2 第二代Pentium-M内核——Dothan.

2004年，Intel推出了二代Pentium-M架构，内核代号为Dothan，采用更精进的90nm工艺，拥有1.4亿个晶体管，主频为1.7GHz~～2.0GHz。

其带来的主要新特色有：

TDP功耗降低到21瓦（比Banias低3.5w）
64KB 的片上L1 Cache；2MB的片上L2 Cache（两倍于Banias，与Banias同技术）
基于Dothan的二代迅驰平台推出了54Mb/s的802.11g无线网络，带动了整个无线设备市场的更新换代。

最终可以得到，Dothan的综合性能大多数情况比Banias高出10-20％。

1.6.3 第三代Pentium-M内核——Yonah.

图26 Yonah微架构图

2006年,Intel发布了第三代Pentium-M架构，内核代号为Yonah，以Core（酷睿)品牌发行，是英特尔史上第一种原生双核心x86处理器，其本质是两个Dothan的整合，具体的处理器产品系列号为Core Duo。Yonah采用65nm工艺，主频自1.06 GHz到2.33GHz，采用12级流水线（3.8GHz的Pentium 4完全没法和Yonah相比），接口为Socket M。

其带来的主要新特色有：

新加入共享缓存设计：两个Core可以共享2MB二级缓存，而不是独享，显著提升了双核处理器的任务配合能力。
加入了SSE3指令集、英特尔虚拟化技术(Intel VT)与英特尔病毒防护技术(Intel EDB)，加入了之前在Pentium Ⅳ首次实施的技术。

Yonah是第一款面向便携式电脑设计的真双核X86处理器，拥有极佳的性能（比Pentium 4快多了），保有24瓦的超低功耗水平，TDP功耗提升到31瓦，在市场上取得了巨大的成功；其唯一的缺点就是依然是32位处理器。之前的Pentium D双核是一个外壳内封装两个处理器，两个die两个core；而Yonah是一个die两个core。作为Core品牌的第一款处理器，Yonah实际上却没有使用Core 2的架构，而是Pentium-M架构。

在此阶段，P5与P6架构的荣光也就此落幕，而Pentium 4系列更是无地自容，使Pentium 4开发团队引咎辞职。

1.7 Core 2系列（Core架构）

图27 Core微架构图

Intel发布了基于Core品牌的内核Yonah，但Yonah的架构是采用Pentium-M，而真正意义上的Core架构却是从Merom内核开始（同时Intel称之为Core 2系列），其具体的产品系列代号为Core 2 Duo。

2006年7月，Intel发布了第一款Core架构的内核Merom（移动端），是建立在Pentium-M架构（Yonah）基础上，融合了Pentium Ⅳ的经验与教训的产物。采用65nm工艺，使用x86_64指令集，接口采用Socket M。

其带来的主要新特色有：

Merom实现了指令四发射：Merom将指令分为20%热指令与80%冷指令，可同时解码四道指令。相比RISC增加并行指令发射数目简单，CISC乱增加发射数目会导致频率上不去，因此之前的x86处理器只能做到三发射（此时的AMD K8架构也只能实现三发射），这说明在Merom中实现了指令解码效率提升了33%。这项成就是Core微架构的最大变化之一，一直是当时英特尔的技术壁垒；其竞争度对手AMD的K10架构、新一代（当时）“推土机”架构统统都没有实现四发射，直到Zen 架构中才实现这项技术。
Macro-Ops Fusion（宏操作融合）——如CMP指令和JMP指令融合，可实现在指令解码阶段，对多条常用指令组合进行宏代替，实现解码效率提升与加速并降低功耗，此技术比Micro Fusion（微操作融合）用的更广泛。
第一个采用Intel-64（EM64T）架构的Intel移动处理器。说起64位指令集，同样的64位拓展指令集却有好几个名字，千奇百怪容易乱，我细细整理后是这样的过程：

以前Intel的32位x86指令集被称为IA-32；后来Intel开发出独立的64位、与x86架构完全不同又不兼容的IA-64架构；IA-64不兼容IA-32使得AMD开发出的64位指令集AMD-64（兼容IA-32）在市场上认可度很高，Intel也有模有样的开发出自己版本的“AMD-64”，命名为Intel-64，又称IA-32e或EM64T。而市场上统称IA-64与AMD-64为x86-64指令集。

因为Core微架构是Intel在Yonah微架构基础上改进而来，其架构与Yonah架构的内部结构是几乎相同的。它们具有相同的解码流程、乱序执行流程、简单解码单元与复杂解码单元相配合的设计、共享式二级缓存的设计，只是在解码单元与执行单元的数量、内部总线的宽度以及各个缓冲区的容量上的差异。

后来Intel在台式机市场也推出Core 2系列，内核为Conroe（扣肉）的双核处理器，在内部架构上同Merom没有任何区别，功能上也完全一致，只是作为台式机可以具有更高的频率（虽然不如Pentium Ⅳ高，但性能是能虐虐它的）。上述这些技术使Core架构极大幅度提高了性能也显著降低了功耗（移动端Merom提升幅度没桌面端大，因为Yonah本身性能很不错）——与Pentium D相比，Conroe的性能提高了40％，功耗却降低了40％。最终摧枯拉朽地击败了当时的AMD的Athlon X2系列，其只能依靠性价比优势进行突击。

在服务器市场，Intel推出了内核Penryn，即采用45nm工艺的Merom，四核处理器，新增了一些功能：①加入了SSE4指令集——又增加了50条新的增加性能的指令，这些指令有助于编译、媒体、字符/文本处理和程序指向的加速；②增强型动态加速技术(Enhanced Dynamic Acceleration Technology)——可以让一个内核睡眠而令一个内核加速。

1.8 Core i系列——挤牙膏到今天的Intel

自2007年始，Intel实施了Tick-Tock的发展模式（2年周期），从而使芯片设计制造业务更有效率：Intel将在奇数年（Tick）推出新制成工艺；偶数年(Tock)推出新架构的微处理器。而Tick-Tock战略也被很多用户戏称为“挤牙膏策略”——每一代处理器之间的性能差距将会很小。

图28 Intel的Tick-Tock发展战略

而在2016年，Intel宣布Tick-Tock将放缓至三年一周期，从2年的Tick-Tock（工艺-架构）模式更改为2年周期的PAO（Process-Architecture-Optimization，工艺-架构-优化，又称Tick-Tock-Refresh）模式，原因就是制造工艺的瓶颈！

10nm工艺被认为是硅基半导体的转折点；再往后的7nm工艺则已经进入量子学范畴，使得半导体特性都有变化了，所以研发难度更大，量产良品率也低，需要更多黑科技材料以及新一代EUV光刻设备。如果不对材料进行改进，随着晶体管越来越小、晶体管密度越来越大，随之出现的日益严重的漏电和发热问题。Intel的7nm芯片按照PAQ模式应于2020年发布，结果也延期至2022年了，真的是连“牙膏”都难挤出来了呀。而“摩尔定律将死”的呼声也开始流传开来。

在2015年，Intel就卡在14nm到10nm工艺之间，后来进入10nm——仅仅相当于20个硅原子宽度——制程后，其制造难度让原本的芯片研发周期更是无法适应，这使得Intel不得不延长原制成的使用周期。更何况Intel是“自产自销”模式，靠自家晶圆厂而不像AMD找台积电代工生产芯片，有报道称其10nm晶体管密度与台积电7nm晶体管密度相当，从而7nm制程良品率限制更多。

1.8.1 Nehalem架构

1.8.1.1 Tock——Nehalem

2008年11月，Intel推出了升级架构Nehalem，内核代号也是Nehalem，采用45nm工艺不变，是第一代Core i系列处理器。Nehalem是在Core架构上进行改进的，主频为1.06GHz~3.33GHz，核心支持2-8核，接口采用LGA1366。Intel按照i7、i5、i3的顺序发布i系列处理器，来分别对应高级、中级与入门级市场，采用相同的内核架构。

图29 Nehalem架构图

其带来的主要特色有：

首次引入了睿频加速技术（Intel Turbo Boost 1.0）,即使得CPU会根据当前的任务量自动调整主频甚至自动超频，实现性能与省电策略的最大化。
重新引入了超线程技术（在Pentium Ⅳ中首次引入）。
三级Cache：其单核L1 Cache为64KB ,单核L2 Cache 256KB，共享L3 Cache 4MB~24MB；减少了L2/L3 Cache Line大小（自Netburst的128KB改为64KB，与Pentium-M架构相同），扩大了共享的L3 Cache大小。
将内存控制器集成于片内(Integrated Memory Controller，IMC)，直接取消了北桥芯片组。内存控制器决定了计算机系统的内存参数与性能，CPU与内存的通信原本要经过北桥，其带宽受到前端总线FSB的限制难以提升。Intel在Nehalem采用了新的直连架构，使CPU到内存的路径更短，同时采用片内全新的QPI(Quick Path Interconnect)总线技术（支持多处理器以及允许core间内部互通），来大幅度提高CPU与内存的I/O性能，并支持三通道DDR3。
支持四种分支预测predictor：Branch Target Buffer(BTB), Loop Detector, Indirect Branch Target Array和Return Stack Buffer (RSB)。
20-24级pipeline。
采用64位宏操作融合（MOF）技术。
指令与数据共存的二级4路TLB(sTLB)。
增大了Core的大小，从而实现更高的性能。比Penryn（Merom内核的后续精工艺版）降低了30%的功耗，平均提高了15%-20%的单周期性能（单线程/多线程都有不错的提高）。
降低了架构中原子操作的50%时延，例如加锁操作的Compare-and-Swap(CAS) 指令。

1.8.1.2 Tick——Westmere

1年后的2010年1月，Intel推出了采用升级工艺32nm的Westmere内核，架构依然是Nehalem，接口采用LGA1156。Westmere最大的变化就是片内集成了GPU（核显），虽然性能不行但抢占了AMD宣传好久APU核显的先机，间接影响了Navida放弃芯片组市场。

1.8.2 Sandy Bridge架构

1.8.2.1 Tock——Sandy Bridge

2011年1月，Intel推出了升级架构Sandy Bridge，内核代号也是Sandy Bridge，采用32nm工艺不变，是第二代Core i系列处理器，其架构是Nehalem的后继者。其主频为1.6GHz~3.6GHz，接口采用LGA1155，依然是64KB-256KB-2MB（per core L1, per core L2, shared L3）的Cache模式。

图30 Sandy Bridge其内Die示意图

其带来的主要特色有：

对集成的GPU架构进行修改，真正实现将GPU与CPU融合的核显(Integrated Graphics Processor，IGP)，使核显的性能增强，直逼低端的独显，同时核显可以访问共享的L3 Cache。
采用了环形总线(Ring Bus)来链接各个core以及其L1/L2 Cache，从而以简介、高效又灵活的方式使多核之间的通信与交互变得简单。
支持了AVX 256-bit指令集是Sandy Bridge最重要的改进，实现浮点性能、矩阵计算快90%。AVX指令集是X86指令集的SSE延伸架构，其全新的命令格式系统同时也为AVX指令集的大幅度后续扩充做好了准备。
支持Intel Quick Sync Video技术，目的是加速硬件视频解码。
使用了新一代智能动态加速技术（睿频2.0）（Intel Turbo Boost 2.0，上一个版本用在了Nehalem上），增强了CPU自动提速的弹性，除CPU外还可对GFX（核显）进行加速，并随着系统负载的不同协调二者的频率升降，表现得更加智能化。
支持双通道DDR3-1600；
采用14到19级的pipeline（取决于微操作cache是否命中）。

图31 Sandy Bridge的Ring Bus结构

这一时期AMD大力鼓吹异构计算，其Fusion APU概念让Intel压力山大。

1.8.2.2 Tick——Ivy Bridge

2012年4月，Intel推出了采用升级工艺22nm的Ivy Bridge内核，架构依然是Sandy Bridge，是第三代Core i系列处理器。其主频为1.4GHz~4.1GHz，接口采用LGA1155不变，依然是64KB-256KB-2MB（per core L1, per core L2, shared L3）的Cache模式。

图32 Ivy Bridge其内Die示意图

Ivy Bridge是Sandy Bridge的工艺改良版，并没有对架构做出太大修改，其带来的主要特色有：

首次采用了22nm 3D晶体管工艺，是今后Intel半导体工艺的重要基础；
CPU内部PCI-E控制器也升级到PCI-E 3.0标准，带宽提升了一倍，分配方式也更灵活；
集成GPU得到一定增强，其EU（类似CPU中的ALU，EU是GPU的基本运算单元）数从12个提升到16个，API支持从DX10.1升级到了DX11。

1.8.3 Haswell架构

1.8.3.1 Tock——Haswell

图33 Haswell其内Die示意图

2013年6月，Intel推出了升级架构Haswell，内核代号也是Haswell，采用22nm工艺不变（更成熟，大幅改善因量子穿隧效应而导致的漏电率），是第四代Core i系列处理器。其Cache依然是64KB-256KB-2MB（per core L1, per core L2, shared L3）模式，接口采用LGA1150。

图34 Haswell架构图

其带来的主要特色有：

Haswell最引人注目的地方就在于各种节能设计：主板上的电压调节模块（VRM）集成到了CPU内部，称为FIVR模块（全集成式电压调节模块），是Haswell节能设计的一个重大基础，能够实现对CPU内部电压更精准的把控与功耗管理、主板的供电效率的提升以及简化主板设计。
增加了两个指令集：针对多线程应用的TSX扩展指令，以及AVX指令的进阶版AVX2指令集。
从Haswell架构开始，核显开始模块化、可扩展的设计并使用Gen7.5架构，方便走后续暴力堆砌核显规格的道路——最高级的核显拥有40个EU，还有大容量eDRAM作为L4 Cache，可同时提升CPU与GPU性能。

1.8.3.2 Tick (Process)——Broadwell

2014年1月，Intel推出了采用升级工艺14nm的Broadwell内核，架构依然是Haswell，是第五代Core i系列处理器。

Broadwell主要用在移动与服务器平台上，且国内没有正式上市所以没啥存在感。实际上，Intel自己也在2014年承认在生产14nm工艺的Broadwell就卡了很久（良品率不够），以至于砍掉了Broadwell的桌面版，而直接在Tock年推出了后续的Skylake新架构。

另一方面，Broadwell也不过是Haswell的工艺增强版：Intel表示14nm工艺的每瓦性能比是22nm工艺的2倍；在诸如sTLB的大小、某些指令的延迟、指令调度队列大小等参数上进行了优化改动；实现了IPC提升约5％；同时对核显也进行了一定的优化，使用Gen8架构；微处理器接口也采用LGA1150不变。Broadwell几乎没有对架构进行太多改动。

1.8.4 Skylake架构

1.8.4.1 Tock (Architecture)——Skylake

2015年8月，Intel推出了升级架构Skylake，内核代号也是Skylake，采用14nm工艺不变（但比Broadwell更成熟），是第六代Core i系列处理器。其最高主频高达4.5 GHz，接口采用LGA1151。

Skylake同时升级了架构、工艺及核显等，四核称为标配，其带来的CPU主要特色与改进有：

内存同时支持DDR3与DDR4，实现DDR3、DDR4 的无缝接轨。
更先进的14nm工艺（Broadwel太菜啥也不是），使用了第二代FinFET晶体管技术，缩小了晶体管的体积，提升了其密度，优化了漏电问题，使Skylake在提升了频率与性能又明显降低了TDP功耗（四核处理器的TDP从Haswell）。
取消了Haswell中引入的FIVR电压控制模块，使电压控制功能重新回归主板上。因为实现片内集成FIVR电压控制模块增加了处理器的复杂性，虽然FIVR能更易于处理器进行功耗管理，但却也会增加TDP功耗。
使用网状总线架构(mesh bus)代替原来的ring Bus（环形总线架构）。这是因为ring bus的特点是随着核数的增加延迟时间也会增加，当核心数较多时ring bus的是延迟就会比较明显。在Skylake架构的Intel Xeon E7 v4处理器中，内核数量已经达到24个。
解放了一定的外频，从而强化了可超频性，令Skylake的超频性能很好。

在GPU方面，Skylake核显与Broadwell相似，但使用Gen9架构，每组Subslice（GPU中多个EU加上一些附属部件组合而成）单元依旧是24个EU，但整体规模变得更大了（暴增到72个EU）。

1.8.4.2 Optimization——一堆细灰级更新

2016年8月，Intel推出了采用工艺14nm的Kaby Lake内核，架构依然是Skylake，是Skylake的第一个优化版本，主要改善能耗比，是第七代Core i系列处理器，接口也采用LGA1151不变。

其增加的细微优化内容例如：

Intel在Kaby Lake上升级为14nm+工艺，采用了更高的鳍片与更宽的栅极间距（晶体管上的），从而降低晶体管密度、减少漏电概率，如此一来可以实现更高的频率但功耗能没什么变化。
在GPU方面采用全新的图形架构——使用Gen9.5架构，增加了H.265 Main.10、VP9 8/10-bit等格式的硬件解码与编码，可大幅降低3D图形和4K视频播放时的功耗。
支持DMI 3.0（Direct Media Interface,直接媒体接口）以及Thunderbolt 3。

2017年10月，Intel推出了更精进的14nm工艺的Coffee Lake内核，架构依然是Skylake，是Skylake的第二个优化版本，也是第八代Core i系列处理器，接口采用LGA1151-2

标签： bu289晶体管 3151dp智能型差压变送器 bu920晶体管

锐单商城拥有海量元器件数据手册、 IC替代型号，打造电子元器件IC百科大全！

资讯详情

【芯片学习】X86 CPU 发展历史与分析——1971~2020——明白Intel架构的变迁

X86 CPU 发展历史与分析

0 前言

1 Intel X86 CPU的历史发展

1.1 X86架构前的铺垫

1.1.1 4004-4

1.1.2 8008-第一个8位处理器

1.1.3 8080——新工艺

1.2 x86架构开始/stron>

1.2.1 8086

1.2.2 80286

1.2.3 80386

1.2.4 80486

1.3 P5架构——Pentium与Pentium MMX

1.3.1 Pentium

1.3.2 Pentium MMX

1.4 P6架构——Pentium Pro/Ⅱ/Ⅲ

1.4.1 Pentium Pro

1.4.2 Pentium Ⅱ

1.4.3 Pentium Ⅲ

1.5 NetBurst架构——Pentium Ⅳ

1.5.1 第一代Pentium Ⅳ内核——Willametle.

1.5.2 第二代Pentium Ⅳ内核——Northwood.

1.5.3 第三代Pentium Ⅳ内核——Prescott.

1.5.4 第一款双核微处理器Pentium D.

1.6 移动端架构Pentium-M

1.6.1 第一代Pentium-M内核——Banias.

1.6.2 第二代Pentium-M内核——Dothan.

1.6.3 第三代Pentium-M内核——Yonah.

1.7 Core 2系列（Core架构）

1.8 Core i系列——挤牙膏到今天的Intel

1.8.1 Nehalem架构

1.8.2 Sandy Bridge架构

1.8.2.2 Tick——Ivy Bridge

1.8.3 Haswell架构

1.8.4 Skylake架构

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

【芯片学习】X86 CPU 发展历史与分析——1971~2020——明白Intel架构的变迁

X86 CPU 发展历史与分析

0 前言

1 Intel X86 CPU的历史发展

1.1 X86架构前的铺垫

1.1.1 4004-4

1.1.2 8008-第一个8位处理器

1.1.3 8080——新工艺

1.2 x86架构开始/stron>

1.2.1 8086

1.2.2 80286

1.2.3 80386

1.2.4 80486

1.3 P5架构——Pentium与Pentium MMX

1.3.1 Pentium

1.3.2 Pentium MMX

1.4 P6架构——Pentium Pro/Ⅱ/Ⅲ

1.4.1 Pentium Pro

1.4.2 Pentium Ⅱ

1.4.3 Pentium Ⅲ

1.5 NetBurst架构——Pentium Ⅳ

1.5.1 第一代Pentium Ⅳ内核——Willametle.

1.5.2 第二代Pentium Ⅳ内核——Northwood.

1.5.3 第三代Pentium Ⅳ内核——Prescott.

1.5.4 第一款双核微处理器Pentium D.

1.6 移动端架构Pentium-M

1.6.1 第一代Pentium-M内核——Banias.

1.6.2 第二代Pentium-M内核——Dothan.

1.6.3 第三代Pentium-M内核——Yonah.

1.7 Core 2系列（Core架构）

1.8 Core i系列——挤牙膏到今天的Intel

1.8.1 Nehalem架构

1.8.2 Sandy Bridge架构

1.8.2.2 Tick——Ivy Bridge

1.8.3 Haswell架构

1.8.4 Skylake架构

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录