最近在学习NVIDIA的CUDA通用并行计算架构, 该架构是利用NVIDIA的GPU进行计算密集型、高度并行化的计算. 有兴趣的读者可以参见NVIDIA CUDA中文网或英文网.
在学习的过程中,该并行架构的编程原理给我的感觉还算好理解, 主要的流程就是:
- Host (aka. CPU) 进行初始化程序及Host上的内存数据
- Host 将其内存区上的数据拷贝到Device (aka. GPU)的内存区
- 执行Device上的代码 (aka. Kernal函数)进行并行计算
- Device上的计算结束后,再将Device的内存区的数据拷贝回Host的内存区
- Host再进行后续代码工作
因此Hos[......]
本文来自: NVIDIA CUDA通用并行计算架构