返回第290章 很多很多钱&谁来都是弟弟~  重回05,从校内网开始狂卷!首页

关灯 护眼     字体:

上一章 目录 下一页

最新网址:m.92yanqing.com

第290章 很多很多钱&谁来都是弟弟~

等女友拾掇好,品尝一番菠萝味的唇膏,两人这才晃晃悠悠下楼,赶往张江高科技园区,极光云总部。

公司自研的专用a1加速卡,骄阳100,已经开始小规模部署。

微光1明天才开售,閒来无事,洛川索性过来瞧瞧热闹,顺便和王建教授聊一聊,后续的研发路径。

骄阳100,是基於risc-v开源架构,定製的专用硬体架构。

並针对lstm的时序计算模块,以及transformer的自注意力並行计算单元,专门定製了硬体单元。

如专门加速矩阵乘法、门控运算的电路等。

这使得骄阳100,天生就適配这两种模型的计算逻辑。

前者已经初步应用於语音识別、信息流內容推荐等领域。

后者在学术界,已经有了基础理论,但还没形成完整的transformer模型概念。

不过在洛先知的指引下,这两种架构,已经初步运用到了极光旗下的各个平台之中。

当前,ai仍处於深度学习崛起初期。

为数不多的玩家,基本都是通过fpga加速卡或cpu做ai加速,连gpu加速都刚起步。

fpga加速卡,可简单理解为“万能积木电路板”。

它的特点是,硬体电路不是固定死的,而是像积木一样,可以现场编程,通过软体临时“拼”出適合当前任务的电路。

属於“样样通,样样松”。

不过当前的ai模型,处於百齐放的阶段,没有统一標准。

fpga加速卡可快速適配不同算法的特性,倒也算是契合当下的状態。

而极光自研的“骄阳10o”,则像是“lstm/transformer专属高速晶片”

直接跳过了“通用可编程”的路线,牺牲部分通用性,换取这两种模型的极致效率。

同样算力下,功耗更低,速度更快。

比如,训练一个语言模型时,同样的数据量,骄阳100的速度比cpu快10倍以上,比fpga快5倍以上!

且由於不需要像fpga那样“万能积木”式的通用电路,硬体更加精简,功耗至少可降低30%以上,大幅降低计算成本。

之所以选择这种极端路线,是因为洛川清楚的知道,这两种模型,正是未来ai大模型的核心。

transformer架构,更是大模型的核心底座!

当然,初代產品的性能,不论是算力,还是能效比、內存带宽等,都还远远不足以支撑超大规模分布式训练,仍需继续优化叠代。

不过倒是可以先搞一个“亿级参数模型”玩玩目前,他们已经在数据中心划出了独立集群,小规模部署骄阳100,適配极光云的特定业务,

以验证算力卡的实际性能。

如悠米视频的视频理解模型,悠米社区、极光微博的文本分类模型,微光基金的数据分析模型等等。

等世博会那边谈妥之后,也会单独构建一个模型。

而后针对实验中发现的问题,以及海量数据的反哺,持续优化选代。

等稳定性和兼容性达標后,再向核心业务推广。

如极光云的通用ai算力租赁、口袋钱包的数据分析等等。

此外,还需要开发一套,类似於英伟达cuda的並行计算架构,以及专用的全流程工具链,兼容cuda代码迁移。

並建立开发者社区,培育自家开放生態。

至於下一步的升级选代路径,洛川也已经有了大致思路。

即採用更先进的製程,提升算力密度的同时,引入存算一体架构。

就相当於把计算单元和內存“粘在一起”,数据不用来回搬运,直接在內存里算,可有效解决模型的“內存墙”问题。

本章未完,点击下一页继续阅读。(1 / 2)

『加入书签,方便阅读』

上一章 目录 下一页