科普：CPU指令流水线和多发射【loongarch吧】

loongarch吧关注：135贴子：994

1回复贴，共1页

科普：CPU指令流水线和多发射

　　对大多数的计算机爱好者而言，“流水线级数”和“发射数”是两个既熟悉又陌生的词语。因为我们经常看到“某款CPU的流水线有多少级、某款CPU是几发射”这种的说法，但并不是很清楚到底什么是流水线，什么是多发射，也不是很明白流水线和发射数如何影响频率和IPC。
---------------------------------------------------------------------
从单周期到流水线
　　最先出现的是单周期处理器，然后是多周期处理器，最后指令流水线才成为现代CPU的标配。
　　单周期处理器每条指令基本在一个时钟周期内完成，每个时钟周期必须完成取指、译码、读寄存器、执行、访存等一系列的组合逻辑。为了保证在下一个时钟到来之前完成所有处理，就需要把时钟间隔拉长，也就是必须降低处理器的频率。
　　处理器执行的功能可以划分成几个阶段，例如划分成三个阶段就可以是：取指、译码、执行。如果每个时钟周期只完成三个阶段其中之一的工作，那么就可以缩小时钟间隔，提高时钟频率。因为执行阶段耗时一般比取指和译码更长，而时钟周期必须以耗时最长的阶段为准，所以可以把执行阶段的任务继续拆解，划分成五个阶段：
　　取指：从指令存储器读出指令，同时确定下一条指令地址；
　　译码：对指令进行译码，识别指令，确定将要使用的执行单元和寄存器，并从寄存器中读出要使用的值；
　　执行：按照译码器给出的操作数和运算类型，使用对应的执行单元进行运算，给出运算结果；
　　访存：如果执行的是访存功能的指令，就会访问数据存储器，否则只将执行阶段的结果传递到写回阶段；
　　写回：将运算结果保存到目标寄存器。
　　如下图所示，如果五个阶段的时间非常平均，都是完成全部任务的五分之一，那么频率就可以提高5倍。但由于每条指令需要5个时钟周期，因此与单周期处理器相比，实际性能并没有提升。

　　我们可以看到，多周期处理器要完成一条指令之后才处理下一指令，每个时钟周期都只有一个阶段的电路在有效工作，其它电路都处于闲置状态。很容易想到，只要把闲置的部分也利用起来，处理器的运行效率就能提高数倍。
　　像下图中示意的这样，在第1条指令的第一个阶段完成后，就立即启动第2条指令。在第6个时钟周期时启动第6条指令，此时第1条指令运行完成，还有4条指令在流水线中次第前进。以此类推，n个时钟周期启动n条指令，所有阶段的电路都被充分利用，这就是指令流水线。与多周期处理器相比，分成五个阶段的流水线，就有5倍的指令吞吐量。与单周期处理器相比呢，又保留了多周期处理器能达到更高频率的优点。

------------------------------------------------------------------------
流水线处理器指令时空图流水线级数不是越多越好
　　既然多级流水线有这么多优点，那么把指令功能继续细分，比如分成一万个阶段，也就是10000级的流水线深度，是否就能把CPU频率提高到10000倍，指令吞吐量也达到10000倍呢？没有哪款CPU是这种做法，就说明这样的推论无法成立。不说10000级深度的流水线，Intel已经通过Pentium 4证明了：31级流水线深度就已经是得不偿失的设计。
　　超长流水线物极必反的原因，主要有以下几点：
　　1. 指令功能可以细分的程度有限。Pentium 4最后型号的流水线达到了31级，但大多数指令功能无法细化到31个步骤，在运行这些指令时，流水线中大多数级别只有把上一级的结果传递给下一级的用途，等于这些电路大部分情况下是空闲的、浪费的。
　　2. 功耗不易降低。首先，在运行大多数指令时，31个阶段的大部分电路只是在浪费电能。然后，芯片的功率与频率成正比，与电压的平方成正比，通过多级流水得到的高频率也同时造成了高功耗。总之，Pentium 4没能通过高功耗获得对应的高性能。
　　3. 分支预测失败的损失大。Pentium 4是4发射的处理器，流水线分为31级，等于同时有124条指令处于流水线的不同阶段，一旦分支预测失败就必须清空流水线，会导致浪费掉124条指令的执行时间。
　　动态调度效率低下。任何两条指令之间如果存在依赖关系，它们就不能在流水线中并行执行。Pentium 4的流水线可以容纳124条指令并行，但在指令流中很难找到那么多临近的且没有依赖关系的指令。如果ALU等单元已被占用，后面的指令就必须被阻塞，超长流水线会因阻塞浪费掉更多的时钟周期。因为这些原因，流水线经常处于饥饿状态，无法如预想的那样达到极高的吞吐率。
　　4. 当前大多数高性能CPU流水线是分为10~20级，嵌入式CPU流水线大多在5级左右。CPU必须面向产品用途和工艺水平，对频率、效率、功耗进行取舍，并据此设计流水线。各类CPU常见的流水线深度，都是通过无数次的实践得到的宝贵经验。
------------------------------------------------------------------------
多发射就是超标量
　　从单周期处理器到指令流水线，通过指令级的并行，已经实现了CPU性能的巨大跨越。在此基础之上，还能进一步扩展出多发射的数据通路，使并行的指令数量为流水线级数乘以发射数。
　　前面讨论的是单发射的指令流水线，流水线的每一级在每一个时钟周期，只能处理一条指令的一个功能阶段。多发射就是实现多条流水线，多条流水线能同时处理多条指令的同一个功能阶段。
　　像下图中这样，取指级在同一个时钟周期从指令存储器取出两条指令，译码级同时给两条指令译码，后续的各级也是一样同时运行两条指令的功能。这种每一级都同时处理两条指令的流水线技术就是双发射。还可以继续扩展以增加并行的指令数量，目前主流性能的CPU产品一般是6到8发射。

　　单发射流水线中的指令，严格地说只是重叠了执行时间，但仍然是顺序的，每个周期只能发射一条指令。多发射流水线中的指令是真正地在并行处理，这种并行的模式称为超标量，多发射流水线也就叫做超标量流水线。
　　超标量结构需要数量更多的处理器资源，否则无法实现高效的多条流水线。取指需要一次取出多条指令，译码器的数量则一般不低于发射数。ALU（算术逻辑单元）、FPU（浮点运算单元）、VPU（向量运算单元）等可以少于发射数，因为在指令被提交之前，会通过指令重排序、阻塞执行等方式，以避免出现资源冲突的情况。但各种功能单元如果数量充足，就可以并行处理多个同类型计算，使效率得到提升。
　　因为流水线中正在处理的指令数量等于发射数乘以流水线级数，所以在4发射以上的处理器上，曾经困扰Pentium 4的动态调度、分支预测等问题也同样突出。只能通过更大的重排序缓冲区、更复杂的调度算法、更巧妙的分支预测方法等来减少影响。这些方面，以及多发射的运行控制和资源调度，都是特别考验CPU设计水平的地方。
　　不同团队，或者同一个团队在不同时期设计的CPU，即使是同样的发射数，效率也天差地别。例如龙芯在2006年就产品化了第一代4发射CPU核，但直到2020年仍在迭代4发射的设计，虽然都是4发射，但相同频率下的性能却提高到了4倍。在迭代4发射CPU核的同时，龙芯也陆续设计了6发射、8发射的CPU核心，现今龙芯CPU在相同频率下的性能已经跻身世界最先进的行列。
　　流水线级数、发射数，只是CPU结构框图和参考手册中能看到的部分，但这些参数并不能直接体现CPU企业的技术积累和设计水平。能说明一切的，只有CPU的性能。在相同的核心数量下，在相同的工艺水平下，性能最高的CPU，其设计团队就一定具有最强的实力。

送TA礼物

IP属地:重庆