DeepSeek大动作,模型再次升级!
今日,DeepSeek-V3.2-Exp模型正式在Hugging Face平台发布并开源,官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp。DeepSeek在其官方账号介绍,得益于新模型服务成本的大幅降低,官方API价格也相应下调,新价格即刻生效。在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上。
该版本作为迈向下一代架构的重要中间步骤,在 V3.1-Terminus 的基础上引入了团队自研的 DeepSeek Sparse Attention (DSA) 稀疏注意力机制,旨在对长文本的训练和推理效率进行探索性优化与验证。这种架构能够降低计算资源消耗并提升模型推理效率。
随后,华为云、寒武纪先后宣布完成对DeepSeek-V3.2-Exp的适配工作。
目前,华为云已完成对DeepSeek-V3.2-Exp模型的适配工作,最大可支持160K长序列上下文长度。寒武纪也表示,公司已同步实现对深度求索公司最新模型DeepSeek-V3.2-Exp的适配,并开源大模型推理引擎vLLM-MLU源代码。开发者可以在寒武纪软硬件平台上第一时间体验DeepSeek-V3.2-Exp的亮点。
不到40天时间,模型再次升级!
值得注意的是,此次DeepSeek-V3.2-Exp模型上线距离DeepSeek-V3.1仅仅过了不到40天时间。
8月21日下午,DeepSeek正式发布DeepSeek-V3.1。本次升级包含以下主要变化:混合推理架构:一个模型同时支持思考模式与非思考模式;更高的思考效率:相比DeepSeek-R1-0528,DeepSeek-V3.1-Think能在更短时间内给出答案;更强的Agent能力:通过Post-Training优化,新模型在工具使用与智能体任务中的表现有较大提升。
DeepSeek在其官宣“正式发布DeepSeek-V3.1”的文章提到,DeepSeek-V3.1使用了UE8M0FP8Scale的参数精度。另外,V3.1对分词器及chat template进行了较大调整,与DeepSeek-V3存在明显差异。DeepSeek官微在置顶留言中表示,UE8M0FP8是针对即将发布的下一代国产芯片设计。
DeepSeek-R2模型暂未发布
2023年4月,梁文锋控制的幻方量化公告称“将集中资源和力量,全力投身人工智能技术,成立新的独立研究组织,探索AGI的本质”,随后成立深度求索(DeepSeek)公司。
今年1月20日,DeepSeek推出大模型R1,并表示“在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版”,但DeepSeek-R1的推理成本仅为29.4万美元,低到惊人。即便加上约600万美元的基础模型训练开销,整体成本依然远低于国外巨头。
随后DeepSeek凭借超强的性能和极低训练成本强势崛起,在全球科技圈受到广泛关注。
1月27日,DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一。对此,《黑神话:悟空》制作人冯骥表示DeepSeek可能是个国运级别的科技成果。
随后A股迎来DeepSeek时刻,中国资产被重估,A股算力租赁、云计算等指数春节后飙涨逾40%。新炬网络走出10连板,杭钢股份实现17天13板,路桥信息、每日互动等概念股年内最高涨幅均超300%。
5月底,DeepSeek表示,DeepSeek R1模型已完成小版本升级。
但是DeepSeek-R2模型目前没有发布。
9月16日,QuestMobile 发布的8月AI应用行业月度报告显示,豆包以6.6%的环比增速达到1.57亿应用规模,反超DeepSeek,重新回归原生App阵营月活跃用户规模TOP1。同期,腾讯元宝的月活用户规模环比增速最大,高达22.4%,位居原生App月活用户TOP10第三位,月活规模处于1000万-1亿量级。
如今,DeepSeek-V3.2-Exp模型登场了。