一文抓住AI芯片趋势

旺材芯片 | 2024-04-07 00:37:10 阅读：471

目前AI芯片的发展依然受到制约：第一个是深度学习需要海量数据进行计算，内存带宽的制约，已经成为整个系统的性能瓶颈。第二个就是海量内存和计算单元，访问频繁切换，导致整体功耗很难降下去。最后便是随着AI产业的快速变化，硬件如何适配算法是个难题。

这里预测一下AI芯片的4****展趋势。

未来10年是加速计算架构变革的新十年。在计算存储一体化方面，也就是把计算单元和存储单元放在一起，使得AI系统的计算和数据吞吐量增大，还能显著地降低功耗。会不会出现一种新型非易失性存储器件，就是在存储阵列里面加上AI计算功能，从而节省数据搬移操作呢？现在硬件计算能力大于数据读取和访问性能，当计算单元不在是瓶颈，如何减少存储器的访问延时，将会成为下一个研究方向。

通常，离计算越近的存储器速度越快，每字节的成本也越高，同时容量也越受限，因此新型的存储结构也将应运而生。

第二个趋势就是，稀疏化计算。随着千亿、到万亿网络模型提出，模型越来越大，但实际不是每个神经元，都能有效激活，这个时候稀疏计算，可以高效减少无用能效。特别是在推荐场景和图神经网络的应用，稀疏已经成为常态。

例如，哈佛大学提出了优化的五级流水线结构，在最后一级输出了触发信号。在Activation层后对下一次计算的必要性进行预先判断，如果发现这是一个稀疏节点，则触发 SKIP信号，避免乘法运算的功耗，以达到减少无用功耗的目的。第三个趋势是支持更加复杂的AI算子。在标准的SIMD基础上，CNN的特殊结构复用，可以减少总线的数据通讯，Transformer结构对大数据在计算和存储之间切换，或者是在NLP和语音领域经常需要支持的动态shape，合理地分解、映射这些不同复杂结构的算子，到有效的硬件上成为了一个值得研究的方向。

最后一个是更快的推理时延和存储位宽。随着苹果、高通、华为都在手机芯片SoC上面推出AI推理硬件IP，近年来在手机SoC上，又引入可学习功能。未来如何在手机SoC上执行更快是业界很关注的一个点，包括经常看视频的抖音、bilibili，都需要对视频进行AI编解码，基于ISP进行AI影像处理。另外在理论计算领域，神经网络计算的位宽从32bit到16bit，出现了混合精度到目前8bit，甚至更低的比特数，都开始慢慢进入实践领域。

来源：芯生代

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。