据悉,DeepSeek于2025年1月发布了性能比肩OpenAI o1正式版的DeepSeek-R1模型,该模型在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。
1月26日,有消息称DeepSeek出现闪崩,提示服务器繁忙。当日16点,上证报记者实测发现,DeepSeek大模型已可以正常使用。
公开信息显示,DeepSeek所属企业为杭州深度求索人工智能基础技术研究有限公司,该公司由梁文锋间接控股83.2945%。据悉,梁文锋出生于广东,毕业于浙江大学,此前曾从事量化投资工作。
DeepSeek-R1模型的发布引起了激烈的讨论。有关业内人士表示,市场反响如此剧烈的原因在于,DeepSeek的实例表明,AI技术并不存在明显的“护城河”,模型技术的相互超越已成为常态。
首席执行官萨提亚·纳德拉(Satya Nadella)在达沃斯世界经济论坛上表示:“DeepSeek的新模型令人印象深刻,他们不仅有效地开发出了一个能够进行推理时计算的开源模型,而且计算效率极高。”经济学人指出,目前美国训练一个大语言模型要花费数千万美元,而DeepSeek的支出不到600万美元。这种廉价训练正随着模型设计的发展改变整个行业,可能导致更多针对特定用途的专业模型涌现,打破赢者通吃的市场格局。
0 条