本项目面向深度学习初学者与入门实践者,围绕 图像分类、图像生成、强化学习,以及基于 LLM 的 Agent 四个方向,设计了一套循序渐进的教学与实验内容。 项目将从最基础的图像分类任务入手,帮助学习者掌握一个完整深度学习项目的核心流程,包括: 数据集 ...
在初级系列中我们已经实现了一个简单的矩阵乘法的 kernel,并使用共享内存和一维线程块来优化了矩阵乘法的性能。在 GEMM 优化专栏里面,我们将会继续优化矩阵乘法的性能,这一节我们将会使用二维线程块来优化矩阵乘法的性能。 1. 一维 Thread Tile 在介绍二维 ...