|
而除了性能外,R1更令人震撼的优点在于便宜。2024年底,DeepSeek推出V3模型,作为R1的前体,训练成本仅为557.6万美元,而2020年发布的GPT-3的训练成本接近1200万美元,GPT-4更是超1亿美元。技术报告显示,R1面向开发者的服务定价为每百万输入字符串(token)1—4元,这一价格只有o1的1/30左右。 R1怎么能如此便宜?刘子纬认为,算力达到一定量级的情况下,可以通过工程创新把性能差距抹平。在堆算力的“大力出奇迹”路线进入瓶颈后,DeepSeek选择了在底层算法、训练模式和数据三个层面进行了工程迭代。基于混合专家模型、注意力机制等方面的创新,R1做到了“用50次运算达成别人做100次运算的效果”,效能提升明显。而在抛弃监督学习后,计算资源的需求也大幅减少。 由于超高性价比,1月27日,苹果App Store中国区免费榜显示,DeepSeek站上首位。同时,DeepSeek在美区苹果App Store免费榜从昨日的第六位飙升至第一位。有业内人士称,R1已经成为美国顶尖高校研究人员的首选模型。一位不愿具名的来自澳门大学的AI研究者向《中国新闻周刊》表示,R1完全可以取代日常科研对GPT模型的使用需求,在对科研文章的错误识别、修改润色、语言转换上都表现出色。
|