【SRQ – 24】为什么会缓存未命中？

本文最后更新于264 天前，其中的信息可能已经过时，如有错误请发送邮件到zhangweihao22@outlook.com

缓存未命中（Cache Miss）是指当处理器尝试从缓存中获取数据时，发现所需的数据不在缓存中，需要从较慢的主存（RAM）中读取数据。这种情况可能发生在循环次数过多时，主要原因是缓存容量有限，不能存储全部需要的数据，导致部分数据不断被替换出缓存。为了理解为什么循环次数过多会增加缓存未命中的概率，我们需要深入分析几个因素：

1. 缓存的容量有限

每一级缓存（L1、L2、L3）都有固定的容量。通常，缓存的容量比主存要小得多。例如，现代处理器的L1缓存可能只有几十KB到几百KB，而主存的容量可能是几GB。

情况：

在一个大规模的循环中，如果每次迭代都需要处理大量数据，且这些数据的总量超过了缓存的容量，缓存将无法同时存储所有的数据。
缓存会逐渐被新数据填满，旧数据（即不再在缓存中的数据）会被替换出去。这种替换发生在超过缓存容量时。
当循环体再次需要访问已经被替换出去的数据时，处理器需要从主存重新读取数据，导致缓存未命中。

示例：

for (int i = 0; i < LARGE_NUM; i++) {
    array[i] = array[i] + 1;
}

假设array非常大，超过了缓存容量。每次访问array[i]时，缓存将试图将数据存入缓存中。但是由于array太大，早期访问的数据会被后面的数据逐渐替换出去。当循环访问到某个位置的数据时，可能已经被其他数据替换，从而导致缓存未命中。

2. 数据的局部性（Locality of Reference）

缓存系统设计的核心理念是数据的局部性，即程序访问的数据往往是最近使用过的数据（时间局部性），或者是与最近访问的数据邻近的数据（空间局部性）。

时间局部性：

程序可能在短时间内多次访问同一个数据。例如，某些算法在多次迭代中访问相同的变量。如果数据能在缓存中保持较长时间，则可以显著提升性能。

空间局部性：

程序在访问某个地址的数据时，往往会在随后访问与该地址接近的数据。例如，在数组遍历时，处理器往往会预先加载数组的下一部分数据。

情况：

在循环中，如果数据的访问模式具有良好的时间或空间局部性，则缓存能够较好地服务这些访问，缓存命中率较高。
但是，当循环的数据访问不具有局部性，或者每次循环访问的数据都与前一次完全不同（如随机访问大数组中的元素），缓存无法有效利用局部性，会导致频繁的缓存未命中。

示例：

for (int i = 0; i < LARGE_NUM; i++) {
    process_data(random_access[i]);
}

如果random_access数组的访问模式是随机的，缓存就无法预测或提前加载相关数据，频繁的随机访问会导致高缓存未命中率。

3. 循环体中的数据冲突

缓存采用特定的映射方式（如直接映射、组相联映射等），决定了主存中的哪些地址可以映射到缓存中的哪些位置。

冲突未命中：

当多个数据被映射到缓存的同一位置时，会发生冲突未命中（Conflict Miss）。即使缓存容量足够大，也可能因为缓存中的某些行被频繁替换而导致未命中。

情况：

在一个大循环中，如果处理的数据块的地址有某种模式，可能会导致这些数据块映射到缓存的相同位置，从而频繁替换旧的数据，导致冲突未命中。
特别是在直接映射缓存中，如果多个地址映射到同一个缓存块，这些地址的数据会不断互相替换出缓存，导致性能下降。

示例：

for (int i = 0; i < LARGE_NUM; i += STRIDE) {
    array[i] = array[i] + 1;
}

假设STRIDE是一个特定的步长，使得array[i]和array[i+STRIDE]被映射到同一个缓存块，这会导致它们相互替换，进而增加缓存未命中。

4. 多级循环的复杂性

在多级循环中，尤其是矩阵操作和大规模数据处理时，缓存未命中的问题会更加明显。

情况：

在矩阵乘法或类似的大规模数据计算中，内存访问模式复杂，且数据量巨大。
如果矩阵的大小超过了缓存容量，或者访问模式不具有良好的局部性，会导致大量的缓存未命中。

示例：

for (int i = 0; i < N; i++) {
    for (int j = 0; j < N; j++) {
        for (int k = 0; k < N; k++) {
            C[i][j] += A[i][k] * B[k][j];
        }
    }
}

在这个三重循环中，如果矩阵A、B、C的大小超过了缓存容量，访问每个元素可能会引发缓存未命中。而且，内存访问模式复杂，尤其是矩阵B的列访问，会导致缓存的空间局部性效果不佳，进而增加缓存未命中。

5. 数据预取和缓存行填充

处理器常常会提前加载（预取）一些数据到缓存中，以加快后续访问速度。这些数据通常是与当前访问地址相邻的数据块，称为缓存行（Cache Line）。一个典型的缓存行长度是64字节，也就是说，缓存会在你访问某个数据时，一次加载64字节。

情况：

当循环中的数据访问跨越多个缓存行时，缓存会预取新的数据块，而每次预取都会导致缓存行替换，导致缓存未命中。
如果每次循环访问的数据位于不同的缓存行，缓存无法充分利用预取机制，这种访问模式通常称为缓存行不友好，容易导致大量未命中。

示例：

for (int i = 0; i < LARGE_NUM; i += 64) {
    process_data(array[i]);
}

因为步长是64字节，可能会导致每次访问都跨越一个缓存行，增加缓存未命中的概率。

6. 循环展开（Loop Unrolling）和缓存优化

为了减少缓存未命中，编译器或程序员可以使用循环展开技术。这种技术将循环体中的操作展开多次，从而减少循环控制的开销，并增加局部性。

示例：

for (int i = 0; i < N; i += 4) {
    C[i] += A[i] * B[i];
    C[i+1] += A[i+1] * B[i+1];
    C[i+2] += A[i+2] * B[i+2];
    C[i+3] += A[i+3] * B[i+3];
}

通过这种方式，可以提高缓存的使用效率。

总结

循环次数过多可能导致缓存未命中是因为：

缓存容量有限，不能存储所有的数据，导致频繁替换。
数据访问不具有时间局部性或空间局部性，缓存无法有效利用。
数据访问模式导致缓存行冲突或跨越多个缓存行。
多级循环的复杂性和大规模数据处理容易使缓存的使用效率降低。

优化缓存性能的关键在于设计合适的内存访问模式，减少缓存冲突，并充分利用缓存的局部性原理。

Post Views: 188

1. 缓存的容量有限

情况：

示例：

2. 数据的局部性（Locality of Reference）

时间局部性：

空间局部性：

情况：

示例：

3. 循环体中的数据冲突

冲突未命中：

情况：

示例：

4. 多级循环的复杂性

情况：

示例：

5. 数据预取和缓存行填充

情况：

示例：

6. 循环展开（Loop Unrolling）和缓存优化

示例：

总结

评论

发送评论编辑评论

1. 缓存的容量有限

情况：

示例：

2. 数据的局部性（Locality of Reference）

时间局部性：

空间局部性：

情况：

示例：

3. 循环体中的数据冲突

冲突未命中：

情况：

示例：

4. 多级循环的复杂性

情况：

示例：

5. 数据预取和缓存行填充

情况：

示例：

6. 循环展开（Loop Unrolling）和缓存优化

示例：

总结

评论

发送评论 编辑评论

推荐文章

发送评论编辑评论