众所周知,memory的操作在讲求效率的语言中占有极重的地位。low-latency(低延迟)和high-bandwidth(高带宽)是高性能的理想情况。但是购买拥有大容量,高性能的memory是不现实的,或者不经济的。因此,我们就要尽量依靠软件层面来获取最优latency和bandwidth。CUDA将memory model unit分为device和host两个系统,充分暴露了其内存结构以供我们操作,给予用户充足的使用灵活性。 https://blog.csdn.net/qq_36387683/article/details/81125453