指令的执行过程MIPS

IF(Instruction fetch，取指令)

ID(Instruction decode/register fetch cycle，指令解码)

如果该指令只有一个跳转指令，则在此阶段需要根据跳转指令的意义进行比较。如果比较结果是true如果比较结果是false不执行跳转，继续执行下一个指令；

EX（Execution/effective address cycle，执行）

计算所需寄存器的值EX这些寄存器的值需要根据指令的意义来计算。根据因指令而异。主要有三种类型ALU计算：1. ALU根据ID计算有效地址单元，最终获得所需的内存地址；2. 根据指令的意义，操作从寄存器中获得的值，如添加两个寄存器的值；3. 立即数的结果根据寄存器的值和补充值计算。

MEM(Memory access，内存访问)

若当前指令为Load然后，指令，依据EX计算出的内存地址，从内存中获取对应的值；若当前指令为store，那么，根据EX计算的内存地址和寄存器值将寄存器值存储在内存地址中。其他指令通常不设计内存访问。

WB(Write-back cycle，写回)。

汇编

MIPS指令

https://www.cnblogs.com/jiading/p/12189871.html

R3=R2 396

这个次历访问数组元素加一操作每个元素

等价于下列

int[] array = new int[0]; for (int i = 0; i < 98; i ) { 
             array[i] = array   1; }

396/4 = 99 数组下标0—98

Lw   R1，0 (R2)   读取地址R2的数据到R1寄存器 DADDIU  R1，R1，#1  R1寄存器数据  1 sw   R1，0 (R2)   将R1写回地址R2 上面做的是 1操作 DADDIU   R2，R2，#4  地址R2 4  做地址右移操作 DSUB   R4，R3，R2   BNEZ     R4，LOOP 以上两个判断i<98（R3-R2）

MIPS的指令序列

延迟等待

没有延迟表

例题：

DADDIU等待LW的值R1

1.寄存器文件可以在一个时钟周期内定向读写同一个寄存器。

非save指令

LOAD的MEM操作结束后，写回寄存器，DADDIU即可正常ID解码

因为没有定向技术，所以ID需要等待才能等待Load已经读取完（MEM），然后ID同时，顺便取操作数到寄存器

即下一个指令ID在前一个M之后

save指令

无冲突

2.假设流水线在1条件下有正常的定向路径

非save指令
- load指令:有定向技术，可以先ID，然后等待Load已经读取完（MEM）定向发送到DADDIU的EX段

下一个指令EX在前一个M之后

- add等待指令：等待ALU操作（EX结果定向发送至段)DADDIU的EX段

下一条指令的EX在前一条的EX之后

save指令

无冲突

第一章

计算机系统结构的定义及研究对象

定义：程序员所看到的计算机系统的属性，即概念性结构和功能特性
计算机系统结构主要研究软硬件的功能分配和软硬件界面的确定
趋势：硬件比例越来越高

计算机系统的层次结构

----硬件----

1. 1. 1. 硬件
    2. 微程序

----以下虚拟机----

1. 1. 1. 机器语言 (软硬件分界)
    2. 操作系统
    3. 汇编语言
    4. 高级语言
    5. 应用语言

评价计算机系统的常用方法

性能和成本

CPU性能公式

CPI 每条指令所花的时钟周期

IC 指令条数

t 时钟周期长

CPU时间 = 时钟周期数 * t = CPI * IC * t

MIPS

IPC 每个时钟周期平均执行的指令条数

Fz是主频

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nDnTM0ld-1656418432333)(https://myblogimgbed.oss-cn-shenzhen.aliyuncs.com/img/1948cf9409137fc9c33dfcc72558486f.svg)]

冯·诺依曼结构及其发展

存储程序运算器为中心集中控制指令和数据一样可以参与计算
改进：以存储器为中心总线结构分散控制

透明性、系列机、兼容性、模拟与仿真等概念

兼容性

向后兼容（最重要）：在某一时刻生产的机器上运行的目标软件能够直接运行于更晚生产的机器上。

系列机

计算机组成是系统结构的逻辑实现，计算机实现是计算机组成的物理实现

有相同的系统结构，但是采用不同的组成和实现的一系列计算机系统

模拟与仿真

在一台现有的计算机上实现另一台计算机的指令系统

模拟

纯软件
解释/编译方法
A：宿主机 B：虚拟机

仿真

有硬件
微程序
A：宿主机 B：目标机

系统结构差别大的难以完全用仿真

了解计算机系统的分类方法

按处理机个数和种类划分

SMP 对称多处理机

MPP 大规模并行处理机

Cluster 机群

按器件

电子管晶体管集成电路（LSI）大规模集成（VLSI）智能计算机

按并行度

CU控制器 PU运算器 MM存储器 IS指令流 DS数据流

佛林Flunn分类法
- 指令流数据流
- SISD SIMD MISD（实际不存在） MISD
库克分类法
- 指令流执行流
- SISE SIME MISE MIME
冯泽云分类法
- 最大并行度：Pm = n * m （字宽 * 位宽）
- WSBS WSBP WPBS WPBP
汉德勒ESC分类法
- 程序级k 操作级d 逻辑级w
- t = （k，d，w）

第三章

存储系统的定义及主要性能

定义：各种信息储存和交换的中心

速度 T

命中率H 不命中率F

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zCHQejv2-1656418432334)(https://myblogimgbed.oss-cn-shenzhen.aliyuncs.com/img/af4af141a43859868eb760dda05fe202.svg)]

N1：对M1的访问次数

N2：对M2的访问次数

访问周期[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dWy9xsnv-1656418432334)(https://myblogimgbed.oss-cn-shenzhen.aliyuncs.com/img/02ff3f43bd9337ce6f88fdc9d49ac1e8.svg)]
访问效率[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-89L7OlUh-1656418432335)(https://myblogimgbed.oss-cn-shenzhen.aliyuncs.com/img/6d55e4e1093d37461c74d14cfb4bf45c.svg)]

预取技术提高命中率：不命中时，把M2存储器中相邻几个单元组成的一个数据块都取出来放入M1。

n：数据块大小与数据重复次数的乘积

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LmhEorvB-1656418432335)(https://myblogimgbed.oss-cn-shenzhen.aliyuncs.com/img/6477f075d7840eb5556c510b5f577773.svg)]

容量 S

整个系统容量等于M2

方法：（1）只对M2编址 M1不编址或只在内部编址

（2）设计一个大容量逻辑空间 M1 M2都映射到逻辑地址空间

价格C

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GK6eqbjw-1656418432336)(https://myblogimgbed.oss-cn-shenzhen.aliyuncs.com/img/feec89f2517f305147ebb0c3b84a0f95.svg)]

S2>>S1 时 C≈C2

【.】两种存储系统

Cache存储系统：Cache + 主存【提高速度】速度≈Cache 容量和价格≈主存

虚拟存储系统：主存 + 磁盘存储器【扩大容量】速度≈主存容量和价格≈磁盘

RAM：随机访问存储器断电丢数据

SRAM：静态不需要刷新电路
DRAM：需要刷新电路

SSD和HDD 硬盘

SSD：固态硬盘快贵
HDD：机械硬盘慢便宜

并行存储器和无冲突访问存储器的工作原理

主存两大指标：延迟（cache解决）和带宽并行以及无冲突解决的是带宽低的问题

并行存储器

= 单体多字存储器同时拿出n个字

缺点:访存效率不高容易发生冲突

取指令冲突：如果一次读取的m个指令字中有分支指令，而且分支成功，那么该分支指令之后的指令是无用的
一次取出的m个数据不一定都是有用的。另一方面，当前执行指令所需要的多个操作数也不一定正好都存放在同一个长存储字中
写数据冲突：写入有可能变得复杂
读写冲突：当要读出的数据字和要写入的数据字处于同一个长存储字内时读和写的操作就无法在同一个存储周期内完成

【.】多体交叉访问存储器

高位交叉访问（竖式）

用于扩容

高位交叉编址指的是对存储单元按体内地址顺序存放，(故又称顺序存储)

作用于多用户多任务或者指令和数据分开，每一列都互不相干，扩容很方便

低位交叉访问（横式）

和并行存储器目的一样，都是为了提高速度（带宽）

流水线式，在一个时间段内拿出一整串，不容易发生冲突

低位交叉编址:对存储单元矩阵按行优先进行编址

一维数组

向量子集(一维数组)的元素逐次按2的整数次幂相间访问

先间隔2^0=1访问
再间隔2^1=2访问
间隔2^2=4访问

存储体个数为质数，保证不冲突

二维数组

要求：nxn二维数组要求按行、列、对角线、反对角线访问，且在不同变址位移量都能实现无冲突访问

列冲突

对角线冲突

解决方案1

通用，但是会浪费一个存储体的资源

在上述第2个的基础上，解决列冲突即可，解决方案如下

存储体个数m>=n,且取质数
同一列相邻元素在存储体中错开d1个存储体
同一行相邻元素在存储体中错开d2个存储体
m=22p+1, d1=2p,d2=1

计算公式：

虚拟存储系统的工作原理

在没有虚拟存储器之前，按照冯诺依曼计算机工作原理：存储程序、程序控制 cpu是无法运行比主存空间更大的程序的。【提高容量】

分类：页式虚拟存储器、段式虚拟存储器、段页式虚拟存储器

虚拟存储的实现：本质是没有对主存空间扩大的，只是增加一个页表，cpu给的是逻辑地址（页号 + 页内偏移地址），根据MMU找到页表，根据页号到页表中查看对应有效位，有效位为1则该页存在于主存，将页号转化为物理地址（这个页在主存中的地址）然后与页内偏移地址进行拼接，就可以找到要的数据。如果为0，则从外存（磁盘）中调入主存（如果主存满了，则发生页面置换）。

MMU（页表寄存器）：指出页表的基址，用于在主存中找出页表
cpu地址：逻辑地址（页号 + 页内偏移地址）
MMU找到页表，页号定位到具体的页表项，查看有效位
页式虚拟存储，所有的外存分为一页页，页表项里存放对应全部外存的所有页号，因此cpu可根据这个页表访问到外存的所有数据，从而实现运行内存扩大，但是实际内存不变

虚拟存储器中加快地址变换的方法

引入TLB前未命中

访问主存三次

在主存查找页表一次
从外存将所需要的页调入主存一次
缺页异常处理之后再次进行虚实地址转换访问主存拿到目标页

TLB

根据局部性原理，增加一个小容量、高速存储部件存放当前访问页表地址变换条目，该存储部件称为TLB(Translation Lookaside Buffer:地址转换后备缓冲器)。按照功能可以称为快表。

使用快表之后，可以加快访问速度，一般可以不去查找页表，直接查快表，节省一次访问主存

虚拟存储系统的页面替换算法

LFU最久未使用算法

需要为每个页面设置移位寄存器，访问则将高位置1，定时右移动，硬件实现与LRU完全相同，但是移动时间更久

改进Clock置换算法

考虑访问位A + 修改位M

优先级方面：

A= 0 M= 0 最佳
A= 0 M= 1 没访问过但修改过
A= 1 M= 0 没修改过访问过
A= 1 M= 1 修改+访问过

执行流程：

先找A= 0 M= 0进行淘汰
1类找不到，则寻找A= 0 M= 1进行淘汰，遍历过程中将A= 1 的都置为A= 0
1、2类都找不到，此时只剩下3、4类，且A=1的在第二轮循环都被置为0 再次重复1操作，寻找A= 0 M= 0（实际上寻找的是A= 1 M= 0）
1、2、3类都找不到寻找A= 0 M= 1进行淘汰（实际上寻找的是A= 1 M= 1）

Cache存储系统的地址映象及变换方法

CPU工作时给出的是主存的地址，要从Cache存储器中读写信息，就要将主存地址转换为Cache存储器的地址，这种地址转换称之为地址映像。

Cache的数据结构：有效位 + 标志位 + 偏移量（块内地址）

一个cache地址对应一个字的数据

相联存储器

快速判断主存对应的地址是否在cache中

步骤如下：

把拿到的主存地址通过不同的映射方式拿到标志key
使用多路并发比较线路进行在cache中查找符合的
1. 在有效位为1的块中进行查找（提高效率）
2. 并发比较标记字
3. 找到则使用块内地址找到精准的唯一地址
4. 拿到该地址的数据
找到就放进符合寄存器取出命中行的数据

全相联映射

案例理解

假设cpu需要的访问序列如下，

1F对应000011111 在cache中找不到，去主存中取整个块，在cache中随机找一个空的块放入，不仅放块数据，还有放标志位，有效位变为1 ，然后在cache中取出对应块内地址的数据（11对应1C）
找20 24 （同1F）
找到1E000011110 cache命中直接拿出1D数据

特点

主存地址 = 主存块号 + 块内地址
cache利用率高
块冲突率低
淘汰算法复杂（要一一检索所有cache块）
适用于小容量cache

直接映射

案例理解

1F 0000 111 10 从主存中拿到后放到第7cache块
20 24 miss 同1F
1E 0000 11110 hit 直接拿到1D数据
44 0010 001 00 先找到第1个cache块比较标志tag 不一致 miss 从主存中取出覆盖

特点（与全相联完全相反）

主存地址 = 主存区号 + 区内块号 +块内地址
cache利用率低
块冲突率高
淘汰算法简单（只比较一个）
适用于大容量cache

组相联映射

案例理解

1F 00001 11 11 11对应第三组 miss 从主存取出随机放入组内块
20 24都miss 同上
1E 00001 11 10 11对应第三组存在标志00001 hit 直接取出块内10对应的1D数据
48 54 都miss
107时 10000 01 11 对应第一组没有对应标志块，进行替换

特点（折中）

主存地址 = 主存组号 + 组内块号 +块内地址
折中
k路组相联的k表示一组内多少行所以8路就是全相连 1路就是直接映射

例题1 直接映射

\1) 直接映射主存地址 = 区号 + 区内块号 + 块内偏移量

块内偏移量 cache块大小 16B 所以4位表示
区内块号就是cache行数 64KB/16B 2^12bit 12位
区号： 32-4-12 = 16位

2）数据字长32位 16B 可以知道有4个字因此块内偏移量的4位：2位字偏移 2位字节偏移

3)容量 = cache行数 * 每行的位数 = 2^12行 * (1+16+128)

例题2 组相联映射

\1) 组相联映射主存地址 = 组号 + 组内块号 + 块内偏移量

块内偏移量 cache块大小 8*32bit=32B 所以5位表示
组内块号就是cache组数 cache行数16KB/32B 2^9bit 所以组数2^9bit/4 = 2^7bit 7位
组号：总位数（16MB = 2^24位）组号24-7-5 =12位

2)100个字在主存中占100%8 = 13块<2^7组所以都在主存的第0组

不命中的字是0 8 16…

3)加速比由第二问得出

Cache存储系统的块替换算法

LFU 最不经常使用

计数器记录的是使用次数累积量使用到就加一
淘汰计数器值最小的当有多个相同的时，可以配合FIFO或其他使用

cache命中

当CPU 访存读一个字时，首先 Cache 控制逻辑根据地址判断这个字是否在 Cache 中，若在，就立即送给 CPU，称为 Cache “读命中”；否则，称为 Cache “读不命中”

通常有两种方法解决 Cache 的“读不命中”情况：其一，将主存中该字所在的数据块复制到 Cache 中，然后再把这个字传送给 CPU；其二，启动常规的主存读周期，把此字从主存读出送到 CPU，与此同时，把包含这个字的数据块从主存中读出送到 Cache 中。在以上这两种方法中，都有可能发生 Cache 中行数据的替换，即当 Cache 已没有空闲的位置容纳即将装入的新行时，只能按照某种替换算法选择某一旧行被新行替换掉。

当 CPU 访存写一个字时，Cache 控制逻辑根据地址判断这个字是否在 Cache 中，若不在，称为 Cache“写不命中”，此时，直接将该字写入主存中，且不再调入 Cache；否则，称为 Cache“写命中”

对于 Cache 的“写命中”通常也有两种方法进行处理：其一，CPU 的写操作既对Cache 也对主存进行，保证主存总是有效的，称为“写贯穿策略”；其二，CPU 的写操作只对Cache 进行，仅当此 Cache 行被替换时，相应的主存内容才被修改，称为“写回策略

虚拟地址cache

第五章

【.】先行控制技术

重叠方式

顺序执行
- T=3nt
一次重叠
- T = (1+2n)t
二次重叠
- T=(2+n)t
- 优秀，但是需要使用先行控制方式

要解决的问题

有独立的取指令部件、指令分析部件和指令执行部件，一个集中的指令控制器要分解成三个相对独立的控制器，【存储控制器、指令控制器、运算控制器】
解决冲突问题
1. 取指令、分析指令、执行指令都可能要访问存储器

技术

缓冲技术：在工作速度不固定的两个功能部件之间设置缓冲栈，用以平滑它们的工作
预处理技术：把进入运算器的指令都处理成RR型指令

三个独立的控制器

存储控制器、指令控制器、运算控制器

四个缓冲栈

先行指令缓冲栈、先行操作栈、先行读数缓冲栈、后行写数栈

时间并行性

- 装入时间 = k-1 全空–>全满, 指第一个任务进入流水线到填满流水线的时间
- 排空时间 = k-1 全满–>全空, 指第n个(最后一个)任务进入流水线到输出流水线的时间

分类

线性流水线&非线性流水线

线性（无反馈电路）非线性（有）

处理机级流水线（指令）& 部件级流水线（操作）& 处理机流水线（宏流水线 —— 多个处理机处理一个数据流）
单功能流水线 & 多功能流水线
- 多功能又可分为静态流水线 & 动态流水线
- 静态流水线：同一时间段只可以实现一种功能

- 动态流水线：同一时间段可以实现不同功能

标量流水线 & 向量流水线（数据表示不同）
同步流水线 & 异步流水线（控制方式）
顺序流水线 & 乱序流水线（输入输出顺序）

最大吞吐率

解决执行时间不等

细分流水线

把原来3t细分为3个t

瓶颈段重复设置

把瓶颈段“分成多个部件”重复设置

加速比

时间相等

不设置流水线时 T0 = nt

加速比：

最大：k

纵坐标是流水段

预约表不唯一多图可以对应同一个表一个图也可以对应多个表

启动距离：（全集）连续两个任务的间隔

- 将预约表移位即可得到
- 启动循环：不发生冲突的循环数列（启动距离剔除禁止启动距离剩下的集合的所有子集）加入{1,5,7}为剩下的则{1,5} {1,7}都是启动循环

禁止启动距离：（启动距离的子集 – 要剔除的、会发生冲突的）

- 现象：出现同一个格子多个x
- 所有禁止启动距离的集合（数列）叫做禁止向量

任务：

禁止向量冲突向量（从右往左看）：

用初始冲突向量生成所有可能的情况，构建状态转移图

例题

计算过程

转移图

简单循环遍历找回路

一个预约表对应一个状态图

少了（5,3）

最小启动循环：所有情况中的最小

平均启动距离最小额的恒定循环：循环括号里只有一个，即循环间隔不变

优化调度

插入非计算延迟单元增加流过时间增加，但平均启动距离最小

插入后的最小平均启动距离变为预约表中“X”最多的一行的X的个数

改变预约表

计算最大吞吐率

直接就是用最小启动距离算

计算插入实际任务的实际吞吐率

对最小启动循环为（1,7）这种不是恒定循环的

用最大吞吐率算

对于恒定循环（5）：直接用公式计算

TP = 任务数/(段数 * t + (任务数-1)*最小启动距离 *t)

数据写入到通用寄存器，不写入主存
对访问主存请求，写操作优先读操作
设置有先行操作栈的处理机，先行操作栈从主存中读入操作数之前，先将主存地址与后行写数栈的所有主存地址比较，发现有正在写的，则先不读，等到写完，再开始读

通用寄存器相关

解决：

D 触发器
缓冲寄存器/锁存器推后分析指令k+1到执行执行k之后

变址相关

解决方法：推后分析法、设置专用路径法

控制相关

条件分支指令、转子程序指令、中断等引起的相关

条件分支的解决措施：

1）延迟转移技术

遇到转移指令，依靠编译器把无关的指令调度到转移指令后，当被调度的指令执行完，转移指令的有效目标地址也就计算完毕

2）指令取消技术

分支预测技术

静态预测技术

预测方向固定

软件猜测法通过编译器编译执行
硬件猜测法在先行指令缓冲栈的入口处增加一个指令分析器，当指令分析器检测到转移指令，按照猜测提前预期指令，保留原来的PC地址，如果正确则不影响，错误则需要清空缓冲栈，恢复PC
设置两个指令缓冲栈执行到转移指令时，把转移成功方向的预取指令放在指令缓冲栈 A，把转移失败方向的预取指令放在指令缓冲栈 B，看情况分析哪一个