如果登记册太快了，为什么我们没有更多呢？

在32位，我们有8个“通用”寄存器。与64位，金额翻倍，但它似乎独立于64位变化本身。
现在，如果寄存器速度如此之快（没有内存访问），为什么自然不会有更多？ CPU制造商不应该将尽可能多的寄存器工作到CPU中吗？为什么我们只有我们拥有的金额有什么逻辑限制？

有很多原因你不只是拥有大量的寄存器：

他们与大多数pipe道阶段高度相关。对于初学者，你需要跟踪他们的生命周期，并将结果转回到之前的阶段。复杂性非常迅速地变得难以处理，并且涉及的线（数字）的数量以相同的速率增长。面积很大，最终意味着在一定的时间点之后，在功率，价格和性能方面都是昂贵的。
它占用指令编码空间。 16个寄存器占用4位的源和目标，另外4个如果你有3个操作数的指令（如ARM）。这是一个很大的指令集编码空间，只是为了指定寄存器。这最终会影响解码，代码大小和复杂性。
有更好的方法来达到相同的结果…

这些天我们确实有很多寄存器 – 它们只是没有明确的编程。我们有“注册重命名”。虽然你只能访问一个小的集合（8-32寄存器），但实际上它们是由一个更大的集合（例如64-256）支持的。 CPU然后跟踪每个寄存器的可见性，并将它们分配给重命名的集合。例如，您可以加载，修改，然后连续多次存储到某个寄存器，并根据caching未命中情况，实际上独立执行这些操作。在ARM中：

ldr r0, [r4] add r0, r0, #1 str r0, [r4] ldr r0, [r5] add r0, r0, #1 str r0, [r5]

Cortex A9内核做寄存器重命名，所以第一次加载到“r0”实际上进入一个重命名的虚拟寄存器 – 我们称之为“v0”。加载，增加和存储发生在“v0”上。与此同时，我们也对r0执行加载/修改/存储，但是将被重命名为“v1”，因为这是一个完全独立的使用r0的序列。假设由于caching未命中而导致“r4”中指针的加载停止。没关系 – 我们不需要等待“r0”准备就绪。因为它被重命名，所以我们可以用“v1”（也映射到r0）来运行下一个序列 – 也许这是一个caching命中，我们只有一个巨大的性能胜利。

 ldr v0, [v2] add v0, v0, #1 str v0, [v2] ldr v1, [v3] add v1, v1, #1 str v1, [v3]

我认为x86现在已经达到了大量的重命名寄存器（256场）。这就意味着每个指令只需要8位乘以2来说明源和目标是什么。这将大量增加整个核心所需的电线数量和尺寸。所以大多数devise人员已经解决了16-32寄存器的问题，而对于无序的CPUdevise，寄存器重命名是缓解它的方法。

编辑：乱序执行和寄存器重命名的重要性。一旦你有了OOO，寄存器的数量就不重要了，因为它们只是“临时标签”，并且被重新命名为更大的虚拟寄存器组。你不希望数字太小，因为编写小代码序列变得困难。这对于x86-32来说是一个问题，因为有限的8个寄存器意味着很多临时对象会通过堆栈，而内核需要额外的逻辑来将读/写转发到内存。如果你没有OOO，那么你通常会谈论一个小型核心，在这种情况下，一个大型的注册集合是一个很差的性价比的好处。

所以寄存器组的大小有一个天然的最佳位置，在大多数CPU类别中最多可以有32个寄存器。 x86-32有8个寄存器，它绝对太小了。 ARM去16个寄存器，这是一个很好的妥协。如果有的话，32个寄存器有点太多 – 最终不需要最后10个寄存器。

这些都不涉及你获得SSE和其他vector浮点协处理器的额外寄存器。这些作为一个额外的集合是有意义的，因为它们独立于整数核心运行，并且不会成倍增加CPU的复杂性。

我们有更多的他们

因为几乎每条指令都必须select1,2或3个体系结构可见的寄存器，所以扩展它们的数目会在每条指令上增加几位代码的大小，从而降低代码密度。它还增加了必须保存为线程状态的上下文的数量，并部分保存在函数的激活logging中。 这些操作经常发生。 pipe道互锁必须为每个寄存器检查记分板，这具有二次时间和空间的复杂性。也许最大的原因是与已定义的指令集简单兼容。

但事实certificate，由于寄存器重命名，我们真的有很多寄存器可用，我们甚至不需要保存它们。 CPU实际上有很多寄存器组，并且在您的代码执行时会自动在它们之间切换。它纯粹是为了让你更多的注册。

例：

 load r1, a # x = a store r1, x load r1, b # y = b store r1, y

在只有r0-r7的体系结构中，以下代码可能会被CPU自动重写，如下所示：

 load r1, a store r1, x load r10, b store r10, y

在这种情况下，r10是一个隐藏的寄存器，暂时替代r1。 CPU可以知道在第一次存储之后r1的值不再被使用。这允许第一次加载被延迟（即使片上高速caching命中通常需要几个周期），而不需要第二次加载或第二次存储的延迟。

它们一直添加寄存器，但是它们通常与专用指令（例如SIMD，SSE2等）绑定，或者需要编译到特定的CPU架构，这降低了可移植性。现有的指令通常在特定的寄存器上工作，如果可用，则不能利用其他寄存器。旧版指令集和全部。

要在这里添加一些有趣的信息，您将注意到具有8个相同大小的寄存器允许操作码保持与hex符号的一致性。例如，指令push ax是x86上的操作码0x50，最后一个寄存器di是0x57。然后指令pop ax从0x58开始，上升到0x5F pop di来完成第一个基址-16。每个大小有8个寄存器保持hex一致性。

如果登记册太快了，为什么我们没有更多呢？

我们有更多的他们

DBNull有什么意义？

为什么堆栈通常会向下扩展？

防止重复被保存在bash历史中

“你好，世界”从哪里来？

如何查看TFS中特定用户的签入历史logging？

“string”定义背后的历史

TSQL：获取最后的查询Ran

Bash历史没有行号

2008年Dojo发生了什么事？

Django的stream行历史