2025年注定是不平凡的一年。想必大家也关注到,前段时间,这个来自中国的人工智能在短短的时间内不仅霸占众多国家应用商店的榜首,还导致一众科技公司股价暴跌,截至今天,英伟达的股价还没缓过劲来。
当然了,对于这样的横空出世的后起之秀赞美之余也是质疑迭起,讨论最多的还是侵权问题。
一开始DeepSeek引发科技圈震动的原因,就在于它改变了人们对AI模型成本和效率的认知。
简单说,过去大家觉得,要造一个顶尖的AI模型,就必须投入巨额成本。GPT的训练成本高达数亿美元,而DeepSeek只用不到600万美元,就训练出了媲美 GPT-4的模型。就像过去要造一辆豪车需要上百万,而现在有公司用几万块造出了差不多性能的,属实是打破了行业的刻板印象。

省钱,却依然强大。这是为什么?
DeepSeek主要依靠两项核心技术:
这里首先要阐明的是,并不是说这两项技术是DeepSeek发明的,而是它运用这些技术产出效率更高。
1、DeepSeekMoE架构(混合专家系统):它不像传统AI模型那样用一个“全才”模型处理所有问题,而是把工作细分给多个“专家”模块,每个模块专门负责特定任务,大大减少了不必要的计算量。简单来说就是,数学专家给你解决数学问题,语言专家解决语言问题,各司其职。

2、低精度训练技术(FP8):传统AI通常需要非常精确的数字计算,但DeepSeek用稍微低一些的精度(FP8)也不会明显影响其计算性能。等于是“牺牲了点奢侈的装饰”,换来了能耗和成本的巨大节约。

其他方面,比如DeepSeekMLA(多头潜在注意力)和多token预测,也是不可小觑的创新点。
DeepSeekMLA 能快速提升文本生成速度。它通过“缓存”常用信息,大幅度减轻计算压力。而多token预测是说DeepSeek一次性能预测出多个单词,而且预测准确率高达90%。换句话说,其理解用户表达意图的速度之快,近乎用户刚打出第一句,它就能预判后续内容。
科技革命还是侵权风暴?
创新的部分讲完了,我们来看看被大家诟病或者说批判比较多的蒸馏技术(distillation)。
实际上,几乎所有的神经网络模型都涉及到一个被称为“蒸馏”的过程。那么,蒸馏到底指的是什么呢?它并不是指蒸馏大模型的架构,而是提炼模型中的知识。
DeepSeek的模型通过利用其他AI的数据进行自我训练,迅速成长为性能顶尖的选手。简而言之,就是一种“学生偷师”的手段。老师将知识传授给学生,学生会在学习大量课件的同时,调整学习方法,并模仿老师解决问题的能力。老师走过的弯路,学生不会再走;实际用不到的知识,学生也不会再次学习。而学习的知识足够多时,学生的解题能力就能无限逼近老师。

至于这样的训练方式是否涉及到抄袭,各位心中想必有自己的考量。一些科技圈的大佬担心的是,这种依赖“AI生成的数据”可能会让模型偏离现实,因为AI生成的答案并非100%真实的数据。
同期更新的Kimi1.5为何反响平平?
其实在同一时间段,Kimi也推出了新版本K1.5,但几乎没有掀起什么波澜。具体来说是因为Kimi1.5的改进主要集中在常规优化,比如响应速度更快了一点,功能更顺滑,但这些改进相对平淡。而DeepSeek则在底层技术上直接做了颠覆性创新,比如它的多模态模型Janus-Pro在图像生成和理解上,甚至超越了目前先进的DALL-E 3。而Kimi则仍然专注在单一的文本处理,有点“跟不上潮流”。
还有一点让用户觉得DeepSeek做得特别好的是,它会在回答问题时展示思考过程,这是让人比较震惊的。推理的流程、逻辑步骤甚至情感分析,都能推动使用者的参与感,让用户更容易理解和信任它的答案。相比之下,像Kimi这样的传统AI的回答虽然也准确,但始终像个“黑箱子”,让用户感觉不透明。

总结:DeepSeek的横空出世,向世界展示了低成本AI研发的可能性和开源合作的潜力。对于普通用户而言,无论谁是这场AI竞赛的最终赢家,最终关注的还是谁能提供好用又便宜的AI产品。
