全球数字财富领导者
财富汇
|
美股投研
|
客户端
|
旧版
|
北美站
|
FX168 全球视野 中文财经
首页
资讯
速递
行情
日历
数据
社区
视频
直播
点评旗舰店
商品
SFFE2030
外汇开户
登录 / 注册
搜 索
综合
行情
速递
日历
话题
168人气号
文章
Meta计划今年投资600亿至650亿美元扩展人工智能,建立覆盖曼哈顿的大型数据中心
go
lg
...
:建设规模和技术优势 Meta AI
Llama
4的功能提升:与OpenAI的比较 编辑总结 名词解释 今年相关大事件 Meta投资计划:扩展人工智能和数据中心 根据TodayUSstock.com报道,Meta平台(Meta Platforms)首席执行官马克·扎克伯格(Mark Zuckerberg)近日在Facebook发布了关于公司2025年投资计划的公告。扎克伯格表示,Meta计划在2025年投入约600亿至650亿美元,用于扩展其人工智能(AI)业务及相关基础设施建设,较2024年的投资估算38亿至40亿美元大幅增加。Meta的这一投资计划,旨在加快公司在AI领域的布局,进一步加强其在全球科技行业的竞争力。 Meta股价创历史新高:股票涨幅分析 随着Meta宣布其巨额投资计划,公司股票价格在2025年1月22日上涨了1.7%,收盘时达到了创历史新高的647.49美元。此次涨幅使得Meta的股票在过去12个月内上涨了接近65%。这一股价涨幅反映了市场对Meta在人工智能领域的持续投资及其未来发展潜力的积极预期。 人工智能数据中心:建设规模和技术优势 扎克伯格表示,Meta计划建立一个规模庞大的人工智能数据中心,预计该中心将覆盖曼哈顿的一个重要部分。数据中心的建设将显著提升Meta在计算能力上的实力,预计在2025年将上线1吉瓦的计算能力,并在年底前安装超过130万颗GPU芯片。这一数据中心将成为Meta人工智能技术发展的核心驱动力,推动公司AI相关产品和服务的扩展。 Meta AI
Llama
4的功能提升:与OpenAI的比较 扎克伯格还透露,Meta的AI技术将通过
Llama
4大语言模型进一步升级。他预计,
Llama
4将为超过10亿人提供服务。
Llama
4模型目前已进入开发的后期阶段,预计在2025年会推出更多小型版本的
Llama
4模型,以增强其功能。Meta的
Llama
4在语言理解和生成能力上将与OpenAI的Operator AI代理进行竞争,后者近期发布了功能强大的操作系统。 编辑总结 Meta的这一投资计划凸显了其在人工智能领域的雄心,尤其是在大规模数据中心的建设和强大计算能力的投入上。通过大幅度增加资本开支,Meta不仅提升了其在AI技术上的布局,也为其未来的AI服务和产品打下了坚实基础。尽管面临着强劲的竞争,如OpenAI和其他科技巨头的快速发展,Meta依旧以其大规模投资和技术实力寻求在市场中占据一席之地。 名词解释 人工智能(AI):指模拟人类智能过程的计算机系统,能够进行学习、推理、解决问题等任务。
Llama
4:Meta公司推出的最新一代大语言模型,具有强大的自然语言处理能力。 GPU芯片:图形处理单元(Graphics Processing Unit),是进行大量并行计算的关键硬件,广泛应用于人工智能和深度学习。 Meta平台:由马克·扎克伯格创建的全球领先的社交媒体公司,原名Facebook,致力于构建虚拟现实、人工智能等技术。 今年相关大事件 2025年1月22日:Meta宣布将投资600亿至650亿美元用于扩展人工智能业务,推动公司AI发展。 2025年1月19日:前美国总统特朗普宣布启动5000亿美元的AI项目“Stargate”,引发相关行业股价上涨。 2024年10月:Meta发布
Llama
4大语言模型,宣布该模型已进入开发后期。 来源:今日美股网
lg
...
今日美股网
01-26 00:10
Variant:为什么更好的AI需要Crypto
go
lg
...
资源问题,让我们来看看 Meta 的
LLaMa
模型。Meta 与其竞争对手(OpenAI、Google 等)的不同之处在于,它不会将模型隐藏在付费 API 后面,而是公开提供
LLaMa
的权重供任何人免费使用(有一些限制)。这些权重代表了模型从 Meta 的训练过程中学到的东西,是运行模型所必需的。有了权重,任何人都可以对模型进行微调,或者将模型的输出用作新模型的输入。 虽然 Meta 公布了
LLaMa
的权重值得称赞,但它并不是一个真正的开源软件项目。Meta 在私下使用自己的计算、数据和决策来训练模型,并单方面决定何时向全世界开放该模型。Meta 不邀请独立研究人员 / 开发人员参与社区,因为单个社区成员无法负担训练或重新训练模型所需的计算或数据资源——数以万计的高内存 GPU、容纳它们的数据中心、大量冷却基础设施,以及数万亿的训练数据代币。正如斯坦福大学 2024 年AI指数报告所述,“培训费用的不断上涨实际上已经将大学(传统上是AI研究中心)排除在开发自己的前沿基础模型之外。”为了了解成本,Sam Altman 提到 GPT-4 的培训成本为 1 亿美元,而且可能还不包括资本支出;Meta的资本支出同比增长 21 亿美元(2024 年第二季度 vs. 2023 年第二季度),主要来自对与训练 AI 模型相关的服务器、数据中心和网络基础设施的投资。因此,虽然
LLaMa
的社区贡献者可能具有在基本模型架构上做出贡献和迭代的技术能力,但他们仍然缺乏这样做的手段。 总而言之,与传统的开源软件项目不同,开源软件项目仅要求贡献者贡献时间,而开源 AI 项目的贡献者则被要求以计算和数据的形式贡献时间和大量成本。依靠善意和志愿服务来激励足够多的各方提供这些资源是不现实的。他们需要进一步的激励。176B 参数开源 LLM BLOOM的成功可能是善意和志愿服务对开发开源 AI 的优点的最佳反例,它涉及来自 70 多个国家和 250 多个机构的 1000 名志愿研究人员。虽然这无疑是一项令人印象深刻的成就(我完全支持),但协调一次训练运行花了一年时间,并从法国研究机构获得了 300 万欧元的资助(而且这笔费用不包括用于训练模型的超级计算机的资本支出,其中一个法国机构已经可以使用它)。协调和依靠新拨款来迭代 BLOOM 的过程过于繁琐和官僚主义,无法与大型科技实验室的步伐相媲美。虽然 BLOOM 发布已有两年多时间,但我不知道这个集体是否制作了任何后续模型。 为了使开源AI成为可能,我们需要激励资源提供者贡献他们的计算和数据,而无需开源贡献者承担费用。 为什么Crypto可以解决开源AI的资源问题 Crypto 的突破在于利用所有权使资源成本较高的开源软件项目成为可能。Crypto 通过激励具有网络潜在上升空间的投机资源提供者,而不是要求开源贡献者预先支付成本来提供这些资源,从而解决了开源 AI 固有的资源问题。 要证明这一点,只需看看最初的加密项目比特币。比特币是一个开源软件项目;运行它的代码是完全开放的,从项目开始的那一天起就一直如此。但代码本身并不是秘密武器;下载并运行比特币节点软件来创建仅存在于本地计算机上的区块链并没有多大用处。只有当计算挖掘区块的数量足够超过任何单个贡献者的计算能力时,该软件才有用。只有这样,软件的增值才能实现:维护一个无人控制的账本。与基金会开源 AI 一样,比特币也代表了一个开源软件项目,它需要超出任何单个贡献者能力的资源。他们可能出于不同的原因需要这种计算——比特币是为了使网络防篡改,而基金会 AI 是为了迭代模型——但更广泛的一点是,它们都需要超出任何单个贡献者需求的资源才能作为可行的开源软件项目发挥作用。 比特币,或者说任何加密网络,用来激励参与者为开源软件项目提供资源的魔术技巧是以代币形式提供网络所有权。正如 Jesse早在 2020 年为 Variant 撰写的创始论文中所写的那样,所有权激励资源提供者为项目贡献资源,以换取网络的潜在上行空间。这类似于如何利用汗水股权来启动一家刚刚起步的公司——通过主要通过对企业的所有权来支付早期员工(例如创始人)的工资,初创公司可以通过获得原本无法负担的劳动力来克服启动问题。加密将汗水股权的概念扩展到资源提供者,而不仅仅是那些奉献时间的人。因此,Variant 专注于投资利用所有权建立网络效应的项目,例如 Uniswap、Morpho 和 World。 如果我们想让开源 AI 成为可能,那么通过crypto实现所有权就是解决其面临的资源问题的办法。研究人员可以自由地将他们的模型设计想法贡献给开源项目,因为实现他们的想法所需的资源将由计算和数据提供商提供,以换取他们对项目的所有权,而不是要求这些研究人员支付高昂的前期成本。所有权在开源 AI 中可以采取多种不同的形式,但我最兴奋的是模型本身的所有权,就像Pluralis提出的方法一样。 Pluralis 将这种方法称为协议模型,其中计算提供商可以贡献计算资源来训练特定的开源模型,并获得该模型未来推理收入的所有权。由于所有权属于特定模型,并且所有权的价值基于推理收入,因此计算提供商有动力选择最佳模型,而不是欺骗训练(因为提供无用的训练会降低未来推理收入的预期价值)。那么问题就变成了:如果需要将权重发送给计算提供商进行训练,如何在 Pluralis 上强制执行所有权?答案是模型并行性用于在工作者之间分配模型分片,从而允许利用神经网络的一个关键属性:可以为训练更大的模型做出贡献,同时只能看到总权重的一小部分,从而确保完整的权重集仍然不可提取。而且由于在 Pluralis 上训练了许多不同的模型,训练者将拥有许多不同的权重集,这使得重新创建模型变得极其困难。这是协议模型的核心概念:它们是可训练的,可以使用,但无法从协议中提取(不使用比从头训练模型所需的更多的计算能力)。这解决了开源AI批评者经常提出的一个担忧,即封闭的AI竞争对手将占用开放项目的劳动成果。 为什么Crypto+开源=更好的AI 我在这篇文章的开头描述了大科技公司控制的问题,以从规范的角度说明为什么封闭式AI是坏的。但在一个我们的在线体验带有宿命论色彩的世界里,我担心这对大多数读者来说可能毫无意义。所以最后我想给出两个理由,即由加密支持的开源AI实际上将带来更好的人工智能。 首先,Crypto和开源 AI 的结合将使我们能够达到下一层基础模型,因为它将比封闭式 AI 协调更多的资源。我们目前的研究表明,以计算和数据形式存在的更多资源意味着更好的模型,这就是基础模型通常会变得越来越大的原因。比特币向我们展示了开源软件加上加密在计算能力方面所释放的东西。它是世界上最大、最强大的计算网络,比大型科技公司的云大几个数量级。加密将孤立的竞争变成了合作竞争。资源提供者被激励贡献他们的资源来解决集体问题,而不是囤积他们的资源来单独(和冗余地)解决该问题。使用加密的开源 AI 将能够利用世界集体计算和数据来构建远远超出封闭式 AI 可能的模型大小。像Hyperbolic这样的公司已经展示了利用集体计算资源的力量,任何人都可以以更低的价格在他们的开放市场上出租 GPU。 其次,将Crypto和开源 AI 结合起来将推动更多创新。这是因为,如果我们能够克服资源问题,我们就可以回归机器学习研究的高度迭代和创新的开源性质。在最近推出基础 LLM 之前,机器学习研究人员几十年来一直公开发布他们的模型和复制模型的蓝图。这些模型通常使用更有限的开放数据集,并且具有可管理的计算要求,这意味着任何人都可以对它们进行迭代。正是通过这种迭代,我们在序列建模方面取得了进展,例如 RNN、LSTM 和注意力机制,这使得当前基础 LLM 所依赖的“Transformer”模型架构成为可能。但随着 GPT-3 的推出(它逆转了 GPT-2 开源的趋势)和 ChatGPT 的巨大成功,这一切都发生了变化。这是因为 OpenAI 证明,如果你在海量模型上投入足够的计算和数据,你就可以构建似乎能理解人类语言的 LLM。这造成了资源问题,导致学术界无法负担高昂的价格,并导致大型科技公司实验室基本停止公开发布其模型架构以保持竞争优势。目前主要依赖个别实验室的状态将限制我们突破最先进技术界限的能力。通过加密技术实现的开源 AI 将意味着研究人员将再次能够在尖端模型上继续这一迭代过程,以发现“下一个transformer”。
lg
...
金色财经
01-17 12:02
AI应用元年还有哪些方向值得期待?
go
lg
...
成为当前的主流做法。 以Meta开源的
Llama
系列模型为例,其迭代历程和MMLU评测基准上的得分充分展示了这一趋势。
Llama2
基于2T token数据进行预训练,包含了7B、13B和70B三个参数规模的版本。而
Llama3
则在超过15T token的数据上进行了预训练,训练数据集比
Llama2
大了7倍,包含的代码量也是
Llama2
的4倍。因此,8B的
Llama3
在MMLU上的得分已经接近70B的
Llama2
,而70B的
Llama3
更是取得了80.9分的高分。进一步地,
Llama3.1
405B模型在保持15T token训练数据量的同时,由于参数规模的扩大,在MMLU上的得分高达88.6分。 然而,幂律关系也意味着性能提升的边际回报会逐渐放缓,理论上需要指数级别的规模增长才能带来模型性能的线性提升。除了算力成本外,模型规模的扩大也带来了工程上的挑战。据《MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs》论文所述,大规模LLM训练面临两个具体挑战:一是实现大规模的高训练效率,即提高模型FLOP利用率(MFU),这直接转化为端到端的训练速度;二是实现大规模下的高训练稳定性,以保持整个训练过程中的高效训练。 同时,高质量训练数据的获取也是提升模型性能的关键难点。阿里研究院的《2024大模型训练数据白皮书》指出,高质量数据是大模型技术发展的主要瓶颈之一。能够拓展大模型知识边界、推动大模型推理和泛化能力提升的数据更多偏向于视频、图片等多模态数据以及特定行业中的领域知识数据。这些数据主要来源于人类的创造、制作和经验积累,其规模、类型和质量因客观条件而异。 此外,o1模型的强大推理能力得益于强化学习和思维链推理。OpenAI文档显示,o1通过强化学习训练可以执行复杂的推理,它在回答用户问题前会进行长时间的“思考”,产生长的内部思维链。这种过程极大地提高了模型的推理能力。o1模型还引入了推理token,用于分解对提示的理解并考虑多种生成响应的方法。然而,o1目前主要在数学、编程等领域表现出色,其在其他领域的应用尚有待探索。同时,o1的推理速度相对较慢,可能对某些需要快速响应的应用场景造成限制。此外,调用o1系列模型API的成本也相对较高。 尽管如此,o1模型的成功仍然验证了提升模型能力的新方向。其技术思路可能被业界其他大模型效仿,成为在预训练模型规模提升边际回报放缓情况下的重要技术范式。目前,预训练阶段的Scaling Law仍然有效,GPT MoE的参数量已达到1.8万亿。因此,我们期待OpenAI的下一代模型GPT-5的发布。模型准确度是AI应用落地的关键指标,如果GPT-5能够通过进一步扩大模型参数量和训练数据规模,在各项任务上取得准确度的大幅提升,那么AI应用的创新将迎来全面爆发。
lg
...
证券之星
01-14 15:15
扎克伯格炮轰苹果:创新停滞,靠“压榨”盈利!
go
lg
...
告的平均价格都有所上升。其大型语言模型
Llama
也获得了稳固的市场份额。相反,苹果的涨幅受到了去年全年对iPhone在中国销售的持续担忧的限制。尽管苹果也推出了智能产品,加入了人工智能的行列,但显然其表现并不如Meta抢眼。 扎克伯格的这番言论无疑在科技界掀起了轩然大波。许多人认为他的话语犀利、直接,戳中了苹果的痛处。而苹果方面则尚未对此作出正式回应。但可以预见的是,这场关于创新、竞争和利润的争论远未结束。在未来的日子里,我们或许将看到更多关于这两家科技巨头之间的明争暗斗。而消费者和市场,则将成为这场争斗的最终裁判。
lg
...
金融界
01-13 15:11
科技圈顶流“炸场”,寒武纪遭黄仁勋硬核引爆?
go
lg
...
or”、AI基础模型“Cosmos”、
Llama
Nemotron语言基础模型、全球最小AI超级计算机Project Digits,以及机器人、自动驾驶汽车…… 整体看,黄仁勋势必要将“AI信仰”进行到底。 全球AI浪潮下,半导体、芯片的狂欢盛宴也似乎才刚刚开始。 驱动国产进程加速 从国内政策端看,利好不断助力国产替代加速。 今天,珠海市工业和信息化局公开征求《珠海市电子化学品产业发展三年行动方案(2025—2027年)(征求意见稿)》意见。 其中提到,重点发展8英寸、12英寸硅片,碳化硅、氮化镓、磷化铟等新一代化合物半导体衬底材料及外延片;前瞻布局氧化镓、锑化镓、锑化铟等第四代半导体材料。 同时,重点发展匀胶铬版光掩模版,KrF、ArF移项光掩模版,前瞻布局深紫外光(DUV)掩膜版。 国开证券指出,半导体为科技角逐重要领域,政策端持续强化加速国产进程。未来围绕科技领域的博弈或将进一步加剧,实现高水平科技自立自强的需求尤为迫切。 在行业周期复苏趋势下,现金流和估值将迎来改善提升,从而提升并购重组的活跃度;加之当前A股IPO阶段性放缓的背景,半导体行业并购重组将步入机遇期,催化板块投资价值提升。 展望2025年,国金证券称,AI应用和自主可控将持续驱动半导体周期上行。 生成式AI催生的应用有望成为AI浪潮的主流,终端需求的升级和创新都将带动对芯片的需求,从而推动整个半导体市场规模持续增大。 中信证券表示,伴随AI向产业纵深演进,2025年人工智能企业的模型能力将调升到新高度,人才竞争、资金竞争愈演愈烈,但同时亦有机会迎来市场份额和收入的快速增长期。 过去两年美国AI公司的超额收益显著,中国AI公司快速跟进,其判断未来1—2年,中国人工智能公司和资产将带来较好的超额收益。
lg
...
格隆汇
01-07 16:57
速览黄仁勋CES演讲!拿着芯片样品“耍宝”,发布50系列显卡、Project Digits、Cosmos,
go
lg
...
模型提供大量数据。 此外,英伟达还推出
Llama
Nemotron语言基础模型,分为Nano、Super和Ultra三档。 其中,Nano成本效益高,适用于低延迟实时应用和PC及边缘设备,Super在单个GPU上提供高吞吐量和高精度,Ultra为数据中心规模应用设计,精度最高。 人形机器人时代即将到来 对于未来,英伟达和黄仁勋非常看好AI Agent 和人形机器人的前景。 黄仁勋表示,代理人工智能现已到来,接下来是物理人工智能。 黄仁勋表示,人形机器人的时代即将到来,标志着通用机器人技术的重大进步。人工智能代理(AI Agent)可能是下一个机器人行业,可能是一个价值数万亿美元的机会。 英伟达推出具有“测试时间缩放(Teat-Time Scaling)”功能的Agentic AI,支持计算器、网络搜索、语义搜索、SQL搜索等工具。 现场,英伟达还展示了多款机器人,包括Figure 02、Unitree H1、NEURA Robotics 4NE-1等。
lg
...
格隆汇
01-07 14:17
一文回顾2024科技圈!全球算力大战火热朝天,国产AI迎“破圈时刻”
go
lg
...
12月6日,Meta宣布推出一款新的
Llama
系列生成式AI模型:70亿参数的
Llama
3.3、又称
Llama
3.3 70B。 12月12日,谷歌新一代大模型Gemini 2.0登场,新一代模型专为AI Agent而打造。 此外,谷歌还推出了一项名为深度研究(Deep Research)的新功能,基于高级推理和长上下文能力,能直接干研究助理的活儿。 这一年,国外大模型继续进化,性能越来越强大,通过手机、电脑等渗透到用户的生活中。 国产大模型不断“破圈” 这一年,国产大模型同样一路狂奔,始终未曾停下追逐行业龙头的脚步,Kimi、智谱AI、豆包等相继“破圈”。 今年2月,成立还不满年的月之暗面完成超10亿美元融资,获得了国内AI大模型公司迄今以来的单轮最大金额融资,估值约25亿美元,跻身独角兽行列。 3月18日,月之暗面宣布,Kimi智能助手上下文无损输入长度提升至200万字。用户可以一次性上传长达200万字的文本让Kimi学习,只要10分钟时间,它就能迅速理解,成为这个领域的“专家”,输出需要的答案。 以长文本出圈后,大量用户纷纷试用,Kimi的访问量一度超过了2000万。 10月25日,国内大模型独角兽公司智谱AI正式上线AutoGLM新功能,以AI Agent出圈。 AutoGLM只需通过简单的文字或语音指令,AutoGLM就能模拟人类操作手机,执行任务。 国内知名量化巨头幻方旗下旗下的DeepSeek-v3年末出击,以性价比出圈。 DeepSeek-v3的参数量高达671B,在预训练阶段仅使用2048块GPU训练了2个月,且只花费557.6万美元。但在性能上,DeepSeek-v3和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。 一时间,数据蒸馏、推理算力成为焦点,行业纷纷开始讨论算力需求下滑是否会大幅下滑,AI预训练时代是否终结、行业迎来推理时代等命题。 12月18日,字节跳动旗下的豆包大模型家族迎来重磅更新, 其推出的AI 陪伴玩偶 “显眼包 ”更是引发抢购。 截至11月底,豆包APP在2024年的累计用户规模已成功超越 1.6 亿,每日平均新增用户下载量稳定维持在80万,成为全球排名第二,国内排名第一的AI app。 豆包应用的火爆,给AI算力带来了无限想象空间。 数据显示,仅2024年,字节跳动在AI上的投入就达到800亿元。市场上关于“字节明年将在算力上投入1600亿元”,“70亿美元购买英伟达芯片”等传闻不断,引得其不得不多次出面辟谣。 看到国内AI大模型的不断“破圈”之后,小米、理想坚定了“ALL IN AI”的战略。 有消息称,小米正在着手搭建自己的GPU万卡集群,将对AI大模型大力投入。 雷军放话称:“在AI硬件这件事情上,最核心的是手机而不是眼镜,小米在这个领域不‘all in’是不可能的。” 理想发布AI Talk,李想透露,他本人要从车企CEO转变为人工智能企业CEO,理想公司要做的是人工智能的汽车化,而非汽车的智能化。 这一年,尽管受到了美国对AI芯片出口的限制,但国内的大模型依然在奋力狂奔,所幸每一份努力都未曾被辜负,越来越多的国产AI应用“破圈”。 AI、量子计算芯片齐飞 软件飞速发展的同时,全球的硬件市场也迎来了重大的革新。 3月18日,英伟达正式推出名为Blackwell的新一代AI图形处理器,首款Blackwell芯片名为GB200,其运算速度比上一代芯片提升30倍。 原本GB200预计是在今年上市,不过,因一些设计缺陷,GB200延迟了交货。 12月底,又有媒体报道,英伟达预计明年3月GTC大会揭露下一代GB300 AI服务器产品线。GB300芯片性能在GB200的基础上进一步提升,功率1400万,单卡FP4性能提升1.5倍,HBM容量从192GB提升到288GB。 图源:英伟达 12月12日,博通发布财报,随后股价暴涨,一举成为全球第九家市值超过1万亿美元的公司。 博通透露,目前正在与三个大型客户开发AI芯片。到2027年,市场对定制款AI芯片ASIC(专用集成电路)的需求规模将达600亿-900亿美元。 这一下引起了市场对ASIC芯片的关注。ASIC是一种为某种特定任务设计的芯片,一般会被应用于特定设计和制造的设备中,执行必要的功能。在AI芯片中,ASIC被用来处理特定的任务,且相比GPU而言,拥有更高的处理速度和更低的能耗。 那么,未来,ASIC能抄到英伟达和GPU的老家吗? 与AI一样,量子计算有望引领下一轮的科技革命。今年,量子计算领域同样迎来了重大突破。 12月10日,谷歌宣布研发出新的量子芯片Willow,芯片尺寸仅4平方厘米,内建105个量子位元(Qubit)。 Willow芯片实现两项重大突破:一是性能也就是计算能力的大幅飞升,5分钟即可完成相当于目前运行速度最快的计算机10²⁵年才能完成的任务。二是强大的量子纠错能力。 人形机器人被看好 2024年,AI应用持续落地,AI Agent、机器人等相关产品层出不穷,人形机器人成为了最被看好的方向。 在过去的一年里,OpenAI多次暗示对机器人项目重燃热情,并重启了四年前解散的内部机器人软件团队。12月底,有知情人士透露,OpenAI最近考虑开发一种类人机器人。 国内也有类似消息,传比亚迪已开启人形机器人项目,内部代号“尧舜禹”,目前团队正处于招聘状态。 同时,已深耕行业多年的企业发布了新产品的展示视频,效果令人惊艳。 12月10日,特斯拉机器人发布了一段视频,展示了其人形机器人Optimus在复杂地形上行走的最新进展。 从视频中看,Optimus不仅能够上坡,还能下坡,虽稍显笨拙,但步速与普通人差不多,全程没有摔倒。 12月23日,宇树科技发布的一段不到2分钟的视频,展示其最新推出的Unitree B2-W工业轮足机器人最新性能。 视频中,该机器狗展示了爬山、涉水、跑酷、载人等一系列秀翻全场的操作。 这一年,国内外人形机器人共同前进,提升产品灵活性和学习能力,为大家带来了一场视觉盛宴。 “黑悟空”搅动游戏圈 除了大模型和机器人,今年,我们还见证了国产游戏的崛起。 8月20日,中国首款3A大作《黑神话:悟空》全球同步上线,成为现象级游戏。 《黑神话:悟空》全平台最高同时在线人数达300万人,销量一举突破2000万份,总收入或超过10亿美元,还顺便带火了山西旅游。 12月,在被喻为“游戏界奥斯卡”的The Game Awards游戏大奖(TGA)上,《黑神话:悟空》获得4项提名,包括最大奖项“年度最佳游戏”,以及最佳游戏指导、最佳动作游戏及最佳美术指导,均为中国游戏首次被提名。 最终,《黑神话:悟空》获得了最佳动作游戏及玩家之声奖项,遗憾落选年度最佳游戏。 对此,游戏科学创始人、《黑神话:悟空》制作人冯骥发长文感慨:“必须承认,有失落,有遗憾,更多的则是放下幻想。今年入围的游戏都很出色,可我真没搞明白这次年度游戏的评选标准是啥,我特么白来了!” 尾声 步入2025年,全球的科技大盛宴只会越来越热闹,国内科技巨头纷纷加大算力投入,小米、理想、字节坐上“牌桌”,万卡集群成为了大厂标配。 海外谷歌、微软、苹果、OpenAI、特斯拉等仍在积极狂奔,发力大模型、AGI、AI Agent、人形机器人等,试图从这轮AI科技浪潮中捕获最大的那条“金枪鱼”。 展望2025年,科技狂潮还会继续翻滚,一切都是充满变化,充满未知和不确定性。 最终,谁能够成为勇立潮头的那艘船,我们大家都将是见证者。
lg
...
格隆汇
01-02 09:09
“算力即国力”定调,DeepSeek-v3火爆全网!算力板块领跑市场
go
lg
...
评测成绩超越了Qwen2.5-72B和
Llama-3.1-405B
等其他开源模型,并和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。 不过,需要注意的是,2048块H800并非全部训练算力投入。 其中,不包括DeepSeek R1模型(对标OpenAI o1)生成的高质量数据消耗的算力,以及模型架构的探索调试阶段消耗的算力。 据悉,DeepSeek之所以能用较少的算力就开发出性能强大的大模型,关键是在后训练的时候把一个叫R1的模型,它的推理能力蒸馏到了V3模型上,这样后训练部分就基本没有成本。 DeepSeek-v3的成功引发了关于算力、大模型训练方式的大讨论,部分投资者担忧行业对算力的需求或大幅下降。 但分析来看,即使诸如DeepSeek-v3之类的大模型成功了,但字节、小米、理想等科技巨头在算力上的投资并不会减少,反而因为有了这些成功案例,让大家看到了行业潜力,有望进一步加码。 而且,DeepSeek的成功将给国内其他企业带来启发,如何更高效地利用算力资源,有望促使更多的中小型企业入局。 未来,随着开发成本的降低,AI应用及软件有望迎来大机遇。 官方定调:算力即国力 12月28日,由中央广播电视总台和国务院国资委联合制作的大型系列纪录片《大国基石》第三期推出《算力引擎》,明确提出算力即国力,它是数字经济时代的新质生产力。 截至2023年,中国算力总规模位列全球第二,累计建成国家级超算中心14个,全国在用超大型和大型数据中心达633个、智算中心达60个。 投资上,中信证券认为,DeepSeek新一代模型的发布意味着AI大模型的应用将逐步走向普惠,助力AI应用广泛落地;同时训练效率大幅提升,亦将助力推理算力需求高增。算力需求的指数级提升与模型训练推理成本的下降将构成产业飞轮,带动全产业链扩张,随着AI进一步普及到日常生活与产业当中,推理算力需求将仍然驱动AI算力产业链持续增长。 中信建投指出,当前随着AI算力需求提升,尤其是国内供给和需求两端都出现积极变化,对于数据中心的需求也将随之增加,尤其是高功率的超大型数据中心机房,也对电力、温控等环节提出了更高要求,建议重点关注IDC产业链,包括IDC服务商、电力设备、液冷温控等环节。
lg
...
格隆汇
2024-12-30
估值2000亿!荣耀IPO进程渐近
go
lg
...
的成绩超越了Qwen2.5-72 B和
Llama-3.1-405
B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。 在数学能力方面,DeepSeek-V3大幅超过了所有开源闭源模型。在Aider多语言测试排行榜中,DeepSeek-V3以48.4分排名第二,仅次于OpenAlo1的61分。而在LiveBench的测评中,DeepSeek v3是最强的开源大语言型,并在非推理模型中,排名第二。 来源:DeepSeek公众号 官方介绍,通过在算法、框架和硬件方面的协同优化,DeepSeek V3的训练成本变得非常经济。 值得注意的是,根据其技术报告,作为一个超过700B参数的大模型,他的GPU用量、GPU小时数都远远低于Meta的
Llama-3-405B
:GPU数量大约是1/8,GPU小时数量大约是1/11。 简单来说,相对于其它前沿大模型,DeepSeek-V3 消耗的训练计算量较少,但其性能却能够比肩乃至更优;这一度引发了市场对算力需求的担忧,周五A股下午一点半中科曙光、澜起科技、龙芯中科、景嘉微等算力相关个股出现跳水。 广发证券报告表示,DeepSeek-V3算力成本降低的原因有两点。第一,DeepSeek-V3采用的DeepSeek MoE是通过参考了各类训练方法后优化得到的,避开了行业内AI大模型训练过程中的各类问题。第二,DeepSeek-V3采用的MLA架构可以降低推理过程中的kv缓存开销,其训练方法在特定方向的选择也使得其算力成本有所降低。 不过,有业内人士表示,DeepSeek-V3本身是一个垂类的模型,并不是OpenAl、Gemini、豆包等通用大模型。是针对特定任务和设计进行的,旨在提高效率的同时保持高性能。 除此之外,它的训练时间减少和算力需求降低,主要得益于算法优化、硬件适配和模型架构改进。然而,这并不意味着 AI训练对算力的要求普遍降低,因为 AI领域的整体趋势仍然是模型规模和复杂性不断增加。 DeepSeek-V3体验地址:chat.deepseek.com 论文链接:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf 03 上海:到2025年底,建成世界级人工智能产业生态 12月27日,上海市印发《关于人工智能“模塑申城”的实施方案》。《实施方案》提出,到2025年底,建成世界级人工智能产业生态,力争全市智能算力规模突破100EFLOPS,形成50个左右具有显著成效的行业开放语料库示范应用成果,建设3-5个大模型创新加速孵化器,建成一批上下游协同的赋能中心和垂直模型训练场。 其中提到,打造超大规模自主智算集群。建设自主可控智算支撑底座,支撑全市人工智能创新应用的算力需求。加快通用图形处理器、专用集成电路、可编程门阵列等自主智算芯片攻关,强化分布式计算框架、并行训练框架等自主软件研发。建设自主智算软硬件适配中心,推进自主智算芯片测试和集群验证。培育智算云服务商,探索训推一体的服务模式。优化市级智能算力公共服务平台,提升算力资源统筹调度能力。提升绿电供给能力,降低全市各类智算中心用电成本。 其中还提到,依托头部企业和科研机构,打造虚实融合的超大型实训场,建设支撑实训场的高性能计算集群、高精度三维建模和高质量训练数据集,创建与物理实体对应的高精度仿真环境和仿真训练系统,搭建超大规模城市级的模拟应用场景,率先赋能具身智能、自动驾驶等大模型实训。
lg
...
格隆汇
2024-12-29
中美重磅!华尔街日报:中国人工智能公司已找到变通途径 正快速追赶美国同行
go
lg
...
ta Platforms今年7月推出的
Llama
3.1模型。审阅了两家公司发表的论文的研究人员表示,腾讯的模型可能是用Meta使用的大约十分之一的计算能力训练的。 DeepSeek最初是High-Flyer的人工智能研究部门。High-Flyer是一家拥有80亿美元资产的量化对冲基金管理公司,以利用人工智能进行交易而闻名。2021年,DeepSeek将大约1万块英伟达的A100芯片连接起来,形成了一个用于人工智能训练的集群,该集群被称为Fire-Flyer 2。 在今年8月发表的一篇论文中,DeepSeek表示,Fire-Flyer 2的性能接近英伟达包含类似芯片的系统,但中国的系统成本更低,能耗更低。DeepSeek在5月份发表的关于其MoE模型的论文在业界引起了广泛关注,该模型采用了一种更有效地处理数据的技术。 人工智能初创公司Anthropic的联合创始人Jack Clark在他的博客中写道:“中国绕过出口管制的一种方法是,利用它可以访问的硬件建立非常好的软件和硬件培训。” Clark称:“‘中国制造’将成为人工智能模型的一部分,就像电动车、无人机和其他技术一样。” 《华尔街日报》指出,许多中国人工智能开发人员已经找到获取受限制的英伟达芯片的方法,包括通过与中间商和海外数据中心的交易。尽管如此,据中国高管称,缺乏尖端芯片对中国初创企业来说是痛苦的,而且差距还会扩大。英伟达的客户正准备大规模部署其最新的人工智能数据中心芯片Blackwell。 马斯克(Elon Musk)的xAI公司已经用10万块英伟达芯片建造了一个数据中心,最近还筹集了50亿美元来做更多的事情。亚马逊网络服务公司(Amazon Web Services)计划用数十万块本土芯片打造一台大型人工智能超级计算机。 专注于开源模型的DeepSeek强调数学和编码。Moonshot凭借其类似ChatGPT的聊天机器人Kimi在中国消费者中广受欢迎,并以其处理长文本的能力而闻名。
lg
...
tqttier
2024-12-27
上一页
1
•••
9
10
11
12
13
•••
65
下一页
24小时热点
中美突发重磅!路透:中国列出免征125%关税美国进口商品“白名单”
lg
...
小非农ADP数据“大爆雷”!特朗普关税阴影下,美国4月私营部门新增就业创9个月来新低
lg
...
黄金突遭猛烈抛售在原因在这!金价暴跌43美元 中美贸易谈判突传一则大消息
lg
...
中美传出重大“关税”消息、习近平语出惊人!比特币和黄金突发脱钩了……
lg
...
突破美国贸易封锁!中美突发重大信号:中国找到规避特朗普关税的管道?
lg
...
最新话题
更多
#Web3项目情报站#
lg
...
6讨论
#SFFE2030--FX168“可持续发展金融企业”评选#
lg
...
32讨论
#链上风云#
lg
...
85讨论
#VIP会员尊享#
lg
...
1926讨论
#CES 2025国际消费电子展#
lg
...
21讨论