1.1 从图形处理器到通用并行计算

图形处理单元 (GPU) 1在类似的价格和功率范围内提供比 CPU 更高的指令吞吐量和内存带宽。许多应用程序利用这些更高的功能在 GPU 上比在 CPU 上运行得更快（请参阅GPU 应用程序）。其他计算设备，如 FPGA，也非常节能，但提供的编程灵活性远低于 GPU。

GPU 和 CPU 之间存在这种功能差异，因为它们在设计时考虑了不同的目标。虽然 CPU 旨在以尽可能快的速度执行一系列操作（称为线程）并且可以并行执行几十个这样的线程，但 GPU 旨在擅长并行执行数千个线程（分摊较慢的单线程性能以实现更大的吞吐量）。

GPU 专门用于高度并行计算，因此设计为更多晶体管专用于数据处理，而不是数据缓存和流量控制。示意图图 1显示了 CPU 与 GPU 的芯片资源分布示例。

将更多的晶体管用于数据处理，例如浮点计算，有利于高度并行计算；GPU 可以通过计算隐藏内存访问延迟，而不是依赖大型数据缓存和复杂的流量控制来避免长时间的内存访问延迟，这两者在晶体管方面都是昂贵的。

通常，应用程序混合了并行部分和顺序部分，因此系统设计时混合使用 GPU 和 CPU 以最大限度地提高整体性能。具有高度并行性的应用程序可以利用 GPU 的这种大规模并行特性来实现比 CPU 更高的性能。

Last updated 2 years ago