全球数字财富领导者
财富汇
|
美股投研
|
客户端
|
旧版
|
北美站
|
FX168 全球视野 中文财经
首页
资讯
速递
行情
日历
数据
社区
视频
直播
点评旗舰店
商品
SFFE2030
外汇开户
登录 / 注册
搜 索
综合
行情
速递
日历
话题
168人气号
文章
新时代数字经济风起,沪港深云计算涨超3%
go
lg
...
期。此外,MICROSFOT 365
copilot
推出,GPT再次撬动新时代,它将大型语言模型 (LLM) 的强大功能与 Microsoft Graph 和 Microsoft 365 应用中的数据相结合,将用户的语言变成地球上最强大的生产力工具。两产品的发布,让我们再一次看到了人工智能超机时代的能量,数字经济投资值得关注。 招商证券认为,在国家顶层规划下数字经济已成我国未来5-10年最重要的发展战略之一,工业互联网则成为工业制造业落地数字经济的核心手段。长期看,工业制造业是我国经济的根基,寻求数字化转型为必然趋势。根据世界银行,我国改革开放以来工业增加值占国内生产总值比重始终维持在40%以上,从规模来看是当之无愧的工业大国。但我国制造业的高质量发展面临诸多挑战,行业有着迫切的向智能制造、工业互联网转型升级的诉求。短期看,公共卫生防控之后制造业的触底回升有望带来信息化投入的一波浪潮。 汇添富中证沪港深云计算产业(A:014543、C:014544)指数跟踪中证沪港深云计算产业指数,同时覆盖A股、港股的云计算服务企业、为云计算提供硬件设备的企业等。 恒生科技ETFQD(513260)、汇添富恒生科技指数(A:013127、C:013128)跟踪恒生科技指数(HSTECH),指数汇聚了港股优质的科技公司稀缺标的,综合覆盖软件、硬件及半导体三大子板块。 (来源:界面AI) 声明:本条内容由界面AI生成并授权使用,内容仅供参考,不构成投资建议。AI技术战略支持为有连云。
lg
...
有连云
2023-03-17
游戏股迎多重利好 游戏ETF及游戏沪港深ETF大涨逾4%
go
lg
...
软举办了一场AI发布会,宣布将推出名为
Copilot
的人工智能服务。
Copilot
由OpenAI最新推出的GPT-4模型驱动,微软表示,它的功能远比简单地“将ChatGPT嵌入到Microsoft365中”更强大。 中信建投证券认为,多模态的GPT-4为图片/视频应用、游戏和虚拟人在发展中落地AIGC技术,提供了更多可能性,有助同时实现增收、将本增效,最终改善游戏行业和个股的估值弹性。 从基本面来看,2月份,国家新闻出版署发布了87款游戏版号,此外,1月份发布的88款游戏版号,今年已经发放了175款游戏版号。从去年4月份游戏版号发布恢复正常之后,国家新闻出版署基本保持了每月一次的发放节奏,而且发布数量也有缓慢的提升。 在过去的一年里,几家游戏发行商和开发商提高了游戏和主机的售价。机构预计2023年还会进一步上涨,甚至涨幅超出预期。2022年Steam更新“地区定价建议”后,就陆续有一些游戏开始在部分地区涨价,近期大量游戏低价区定价上涨。 中金公司研报指出,游戏板块近期关注度提升,表现相对活跃。我们认为,受益于版号常态化、供需恢复,游戏板块较2022年下半年低点上涨超40%后,估值仍低于近五年平均值,市场亦未随外部环境好转上修盈利预期,未来或有小幅双击机会。具体而言,头部厂商产品及版号储备整体充盈,业绩稳健性强、估值尚处底部,具备较好投资性价比;中小型公司更多关注产品周期的交易性机会。 国泰君安认为,预计随着经济环境的改善、版号的常态化发放,游戏行业估值有望得到持续修复,见底回升。同时,亦看好AIGC技术将为游戏行业带来新的发展动能。推荐关注具有充足游戏库存及较强技术研发能力的龙头游戏厂商。信息、算力基建,以及企业数字化转型涉及的相关标的。 对于游戏板块布局投资者可以重点关注游戏ETF(516010)和游戏沪港深ETF(517500),一键布局游戏板块行业龙头。 (来源:界面AI) 声明:本条内容由界面AI生成并授权使用,内容仅供参考,不构成投资建议。AI技术战略支持为有连云。
lg
...
有连云
2023-03-17
GPT-4功能有哪些?怎么用?
go
lg
...
反馈进行的更新外,使用者还拥有最全面的
Copilot
功能。 如果使用者想体验GPT-4,要注册新的Bing 预览版。进入后,将能够使用新的Bing 在Bing.com 上进行搜寻、回答、聊天和建立。 来源:金色财经
lg
...
金色财经
2023-03-17
微软将聊天机器人植入office,计划推出一项商务聊天功能
go
lg
...
ce)应用程序和服务推出新的AI驱动的
Copilot
,旨在帮助人们生成文档,电子邮件,演示文稿等。 由OpenAI的GPT-4提供支持的
Copilot
将与Microsoft 365应用程序并排,就像助手一样,作为聊天机器人出现在侧边栏中。 “它与你一起工作,嵌入到数百万人每天使用的应用程序中:Word,Excel,PowerPoint,Outlook,Teams等,”Microsoft 365负责人Jared Spataro说。
Copilot
是一种全新的工作方式。 Microsoft 365用户将能够召唤
Copilot
提供有关即将举行的Microsoft Teams会议的信息,为人们准备相关项目的最新信息,组织变化(如最近的员工),甚至提示可能从假期回来的同事。
Copilot
也可以在Microsoft的Office应用程序中召唤,并在Word中用于根据其他文件起草文档。然后可以自由编辑和改编人工智能生成的文本。由于
Copilot
本质上是一个聊天机器人,您甚至可以要求它基于Word文档创建10张幻灯片的PowerPoint演示文稿,或者分析或格式化Excel数据。 这意味着Excel用户可以使用
Copilot
立即创建基于数据的SWOT分析或数据透视表。在 Microsoft Teams 中,
Copilot
功能可以转录会议,提醒您延迟加入时可能错过的内容,甚至可以汇总整个会议中的操作项。 不过,Spataro很快注意到
Copilot
并不总是正确的。“有时
Copilot
会做对,有时它会是有用的错误,给你一个不完美的想法,但仍然给你一个良好的开端。”Spataro在今天的微软人工智能活动中说。
Copilot
也将存在于Outlook中,因此您可以花更少的时间删除电子邮件和回复。电子邮件线程可以汇总,
Copilot
甚至可以使用切换来创建草稿回复,以适应电子邮件的语气或长度。 “为了构建
Copilot
,我们不只是将ChatGPT连接到Microsoft 365,”Spataro说:“Microsoft 365
Copilot
由我们所说的
Copilot
系统提供支持。该系统将Microsoft 365应用程序(如Word,Excel和PowerPoint)与Microsoft Graph of Data and Intelligence以及GPT-4相结合。”
Copilot
使用接地来提高其给定提示的质量。如果您要求 Word 基于您的数据创建文档,
Copilot
会将该提示发送到 Microsoft Graph 以检索上下文和数据,然后再修改提示并将其发送到 GPT-4 大型语言模型。然后,响应将发送到 Microsoft Graph 以进行额外的接地、安全性和合规性检查,然后再将响应和命令发送回 Microsoft 365 应用。 微软还计划推出一项商务聊天功能,该功能适用于所有Microsoft 365数据和应用程序。它使用 Microsoft Graph 将文档、演示文稿、电子邮件、笔记和联系人整合到 Microsoft Teams 中的单个聊天界面中,该界面可以生成摘要、规划概述等。 微软首席执行官萨蒂亚·纳德拉(Satya Nadella)在周四早上的一次特别AI生产力活动中推出了这款新的AI
Copilot
。在最近将人工智能驱动的聊天机器人引入必应之后,微软正在迅速将OpenAI的大型语言模型集成到其Microsoft 365套件中。微软宣布这一消息的几天前,谷歌宣布了Google Workspace的类似AI功能,包括Gmail,Docs等中的AI辅助文本生成。 微软表示,它目前正在与365个客户一起测试其Microsoft 20
Copilot
,并将在未来几个月内扩大预览版。“我们将在未来几个月内分享更多关于定价和细节的信息,”微软在今天的一篇博客文章中说。 虽然微软肯定会迅速推进其人工智能驱动的Office应用程序愿景,但肯定会有人担心这种创新速度和人工智能模型的准确性,特别是当Microsoft 365用户很可能在未来几个月内将它们与业务数据一起使用时。 “我们通过注意限制,链接到来源,并提示用户根据主题专业知识审查,事实检查和调整内容来明确系统如何做出决策,”Spataro在今天的一篇博客文章中说,并指出该公司的人工智能原则。微软最近解雇了人工智能组织内的道德和社会团队。该团队一直在努力识别微软在其软件和服务中采用OpenAI语言模型所带来的风险。 这让微软内部和外部的一些人对人工智能软件的速度感到担忧,但Spataro并没有同样的担忧。“为了满足客户未满足的需求,我们必须快速、负责任地采取行动,边走边学,”Spataro 说。“我们正在与一小群客户一起测试
Copilot
,以获得反馈并在我们扩展时改进我们的模型,我们将很快扩展到更多。 微软显然是从小处着手,以确保及早发现任何代价高昂的错误。“当系统出错、有偏见或被滥用时,我们会采取缓解措施,”微软首席科学家杰米·蒂文(Jamie Teevan)说。“我们正在解决长期影响和越狱等新风险。我们会犯错误,但当我们犯错时,我们会迅速解决它们。”
lg
...
金融界
2023-03-17
美股收盘:道指涨近400点 地方银行股反弹第一共和银行涨逾10%
go
lg
...
功能名为“Microsoft 365
Copilot
”。
Copilot
通常是指飞机上的副驾驶员,主要任务是在飞机飞行期间协助机长的工作,微软将该功能命名为
Copilot
可能是想表达其可以胜任用户工作的好助手。 根据官网上公布的演示视频,
Copilot
可以在微软的多个商业应用程序中使用,包括大名鼎鼎的Word、PowerPoint、Excel等。视频显示,在Word中,
Copilot
可以帮助用户扫描文档,快速提取有用的信息,节省采编、写作的时间;在Excel中,它可以帮助用户分析数据的趋势,在表格中突出显示关键的数据;另外它还可以在PowerPoint中根据用户需求快速生成幻灯片。
lg
...
金融界
2023-03-17
GPT-4将在下周发布 必应日活破亿 谷歌还有招架之力吗
go
lg
...
5、Codex等。 比如GitHub
Copilot
通过Azure OpenAI服务中的Codex模型,能帮开发者自动生成代码。 使用Power Platform中的Co-pilot,用户能够编写Power Fx命令,甚至实现自动化流程 Microsoft Teams Premium通过GPT-3.5模型打造了「智能回顾」功能,可以自动生成会议记录、笔记、实时翻译等。 Microsoft Viva Sales通过GPT-3.5模型提升了销售效率,可自动生成邮件内容、生成个性化销售文案等。 Azure OpenAI Studio的无代码开发模式,能让企业和开发者快速开发智能应用程序和解决方案。 在设计软件中,Azure OpenAI使用了DALL·E 2模型,在提示栏中不断明确自己的要求,软件就会生成越来越符合用户要求的图像 其实前几天,微软就已宣布低代码应用平台Power Platform整合进ChatGPT,开发者可以使用最少的代码创建应用程序。链接 借助Azure OpenAI服务中的ChatGPT预览版,企业和开发者可以把它的功能直接集成到应用产品中,私人定制自己的ChatGPT,提供个性化客户服务,生成个性化营销文案,建立企业级智能化知识库搜索引擎等。 技术公司可以快速将机器人连接到不同的产品,支持知识库和常见问题解答,在不编写任何代码的前提下,就能为客户提供支持 微软的办公软件帝国,眼看要成形了。 谷歌埋葬了自己 其实,谷歌不是没有这样的机会。 据华尔街日报称,几年前,2名前谷歌工程师曾push高管向公众发布ChatGPT类似聊天机器人,但直接被毙掉了。 原因很简单,不安全。 可以说,谷歌高管们谨慎的态度把自家的前程给葬了。 2018年,谷歌研究工程师Daniel De Freitas开始从事一个人工智能副项目,目标是创建一个模仿人类说话方式的对话聊天机器人。 谷歌人工智能研究部门的软件工程师Noam Shazeer后来加入了该项目。 当时,De Freitas和Shazeer建立的聊天机器人称为「Meena」,随后便更名了,也就是现在的LaMDA。 Meena能够哲学辩论、随意谈论电视节目、还能做双关。当时,他们相信Meena可以从根本上改变人们在网上搜索的方式。 他们多次尝试将聊天机器人对外公布,将聊天功能添加到Google Assistant,并向公众推出演示。 不幸的是,谷歌高管表示,聊天机器人不遵守其AI安全和公平标准,推出机聊天器人的计划便陷入了僵局。 高管们的反应,让De Freitas和Shazeer非常失望。因此,他们在2021年底离开谷歌创办了自己的公司,尽管谷歌CEO皮查伊亲自要求他们留下来继续从事聊天机器人的工作。 他们成立的这家公司名为Character.Ai,并在此后发布了一个聊天机器人,可以扮演埃隆马斯克或任天堂的马里奥等人物。 Shazeer上个月在接受采访时表示,这在谷歌内部引起了一些轰动。但最终我们决定,作为一家初创公司,我们可能会有更多的运气推出产品。 谷歌对人工智能采取小心谨慎的态度并不是什么新鲜事儿了。自2012年以来,这家公司一直在阻挠其人工智能工作。 2012年,谷歌聘请了计算机科学家Ray Kurzweil来研究其语言处理模型。大约一年后,谷歌收购了英国人工智能公司DeepMind,该公司旨在创建通用人工智能。 然而,出于对大规模监控的道德担忧,学者和技术专家推迟了使用这项技术,谷歌对限制其使用人工智能的方式做出了承诺。 2018年,由于员工的强烈反对,谷歌宣布终止将其人工智能技术用于军事武器的项目。 尽管谷歌Bard聊天机器人在上个月的第一次公开演示中犯下一个事实错误后,导致谷歌股价大跌。 但谷歌的人工智能计划现在可能终于看到了曙光。 Alphabet董事长John Hennessy认为,谷歌的聊天机器人还没有真正为产品做好准备。CE皮查伊要求所有谷歌员工花两到四个小时的时间帮助测试产品,以便为发布做好准备。 皮查伊在二月份的一份备忘录中写信给谷歌员工: 我知道这一刻令人不安地兴奋,这是意料之中的。底层技术正在迅速发展,潜力巨大。我们现在能做的最重要的事情是专注于构建一个伟大的产品并负责任地开发它。 17年,谷歌提出了Transformer,为如今大语言模型的种种繁荣景象夯实了基础,然而,谷歌自己却没能把握住时代的命脉,自己制霸多年的搜索引擎和办公软件市场,现在眼看就要被微软偷家。 一个太过谨慎的巨头,是怎样被锐意进取、打法创新的对手击败的? 这个故事值得我们深思。 参考资料: https://www.theverge.com/2023/3/9/23631912/microsoft-bing-100-million-daily-active-users-milestone https://www.gearrice.com/update/gpt-4-will-arrive-next-week-and-will-be-multimodal/ https://www.businessinsider.com/google-ai-chatbot-chatgpt-years-ago-execs-shut-down-report-2023-3 来源:新智元、DeFi之道 原标题:《GPT-4下周王者登基!必应日活破亿,谷歌已被打残》 来源:金色财经
lg
...
金色财经
2023-03-12
美股开盘:三大股指连续两日平开 中概股多数走低新东方跌超5%
go
lg
...
中发挥作用。微软表示,将推出新的生成式
CoPilot
人工智能体验,允许用户在很少或没有编码的情况下开发应用程序。而在早前,微软已预告将在搜寻网站Bing导入ChatGPT相关技术。 巴菲特加仓近600万股西方石油 根据SEC3月7日公布的文件,“股神”巴菲特旗下的伯克希尔哈撒韦公司近日加仓西方石油买入了近600万股,持股比例达到约21.6%。值得注意的是,这是伯克希尔时隔5个月后再次对西方石油进行加仓。 CrowdStrike第四财季总营收同比增48% CrowdStrike公司2023财年第四财季总营收6.374亿美元,同比增长48%;毛利4.62亿美元,去年同期为3.18亿美元;净亏损4893.2万美元,去年同期为4173.9万美元。 阿迪达斯Q4业绩逊于预期,CEO寄希望于减少库存和降低折扣以扭亏为盈 阿迪达斯第四季度营收52.1亿欧元,同比增长1.3%,市场预期为53亿欧元;第四季度营业损失7.24亿欧元,市场预估亏损7.17亿欧元。阿迪达斯重申了其对2023年的展望,预计有机增长将下降近10%,并预计营业亏损为7亿欧元。对此,阿迪达斯新上任的首席执行官Bjorn Gulden表示,将把这个陷入危机的德国运动品牌转变为一个更加灵活的公司,从而在2024年再次实现盈利增长。阿迪达斯在一份声明中表示,这位首席执行官正专注于减少产品库存和降低折扣,该声明肯定了其对今年的悲观展望。 消息人士:SHEIN估值降至640亿美元 计划于2023下半年在美国上市 消息人士称,中国跨境电商巨头SHEIN的估值在新一轮筹资中从前一轮融资时的1,000亿美元降至640亿美元,计划于2023下半年在美国上市。 消息称阿里扩业务至孟加拉 据日媒,阿里巴巴正努力让更多孟加拉企业通过其平台销售产品,冀吸引更多该国的纺织和服装制造业务。报道指,阿里向孟加拉制造商提供通过其平台向海外买家推广商品的机会,并收取年费。报道引述一份提交孟加拉商务部的提案显示,该计划特别关注中小型企业。
lg
...
金融界
2023-03-08
ChatGPT思考:探索智能的极限
go
lg
...
dex 训练完成,开放 Github
Copilot
; •2022 年,GPT-3.5 训练完成,以 dialog 数据 finetune 成 ChatGPT 然后发布。 可以看到,在中间阶段的每一个重要版本,模型的能力都会增强,都存在产品化的机会。 更加重要的是,按照模型演化进程产品化,可以在产品化的阶段适配市场。学习 OpenAI 的组织架构来推进模型演化本身,但产品化可以按照本土市场的特征来。这种方式或许可以既学到 OpenAI 的先进经验,又避免水土不服的问题。 03. 人工智能显著超过人类的点 到目前为止,我们讨论了要用模型演化的视角来分析模型,要用极限的思维讨论模型的演化历程。现阶段马上可以加强的点包括了输入框的长度,更大的模型和数据,多模态数据,和模型的专业化程度。现在让我们再把视野放得更长期些,思考在更大的时间和空间中,模型如何进一步地往极限推。我们讨论: • 并行感知:一个人类研究员一次顺序地读四五篇论文已经是极限,但模型输入框变长之后,可以在极短的时间内并行阅读一百篇论文。这意味着,模型对外部信息的感知能力远超人类一个数量级; • 记忆遗传:人类的演化过程中,子代只继承父代的基因,但不继承父代的记忆,这意味着每一次生殖都需要重启一次;在模型的演化过程中,子代可以继承父代的记忆,并且这个继承的程度可控:我们可以设置子代继承 100%,50%,20% 的记忆,或清空记忆,这意味着父代的经验和技能可以不断累积; • 加速时间:人类相互交流的速率是受到人类说话的物理速度限制的,而模型相互交流的速率可以远快于人类,这意味着模型可以通过相互交流来解决人类数据随时间线性增长的问题;人类演化的过程受到物理时间的限制,模型的演化可以比人类的物理时间快上几个数量级,这意味着模型的进步速度可以远快于人类; • 无限生命:一个人的生命有限,百年之后终归尘土,但模型的权重只要不丢失,就可以不断地演化。 从这些角度来说,人工智能超过人类并不是一件难以想象的事情。这就引发了下一个问题: 如何驾驭远超人类的强人工智能? 这个问题,是 Alignment 这项技术真正想要解决的问题。 04. Alignment 对齐 当前阶段,模型的能力,除了 AlphaGo 在围棋上超过了最强人类之外,其他方面的 AI 并没有超过最强的人类(但 ChatGPT 在文科上或许已经超过了 95% 的人类,且它还在继续增长)。在模型还没超过人类的时候,Alignment 的任务是让模型符合人类的价值观和期望;但当模型继续演化到超过人类之后,Alignment 的任务就变成了寻找驾驭远超人类的智能体的方法。 Alignment 作为驾驭远超人类的智能体的方法 一个显然的问题是,当 AI 超过人类之后,还可以通过人类反馈让 ta 更强 / 更受约束吗?是不是这个时候就已经管不了了? 不一定,即使模型远超人类,我们依然又可能驾驭 ta,这里的一个例子是运动员和教练之间的关系:金牌运动员在 ta 的方向上已经是最强的人类了,但这并不意味着教练就不能训练 ta。相反,即使教练不如运动员,ta 依然可以通过各种反馈机制让运动员变得更强且更有纪律。 类似地,人类和强人工智能的关系,在 AI 发展的中后期,可能会变成运动员和教练之间的关系。这个时候,人类需要的能力并不是完成一个目标,而是设定一个好的目标,然后衡量机器是否足够好地完成了这个目标,并给出改进意见。 这个方向的研究还非常初步,这个新学科的名字,叫 Scalable Oversight。 Alignment 与组织架构 在通往强人工智能的路上,不只是需要人类与 AI 对齐,人类与人类,也需要高度的对齐。从组织架构的角度,alignment 涉及到: • Pretraining 团队与 instruction tuning - alignment 团队之间的对齐: 这两者应该是一个相互迭代的过程,pretraining 团队不断地 scale 基础模型,alignment 团队为基础模型做 instruction tuning,同时用得到的结果反向指导 pretraning 团队的方向。 • Pretraining / Alignment 团队与 Scaling / Data 团队的对齐: scaling 负责为 pretraining / alignment 做好基础设施,data 做好高质量数据与人类反馈数据。 • 创业公司与 VC 的对齐: AGI 是一个困难的事情,需要长期的投入,这需要各个方面的人都有足够的耐心和足够高的视野。烧一趟热钱后催产品化然后占满市场的逻辑在大模型时代应该已经不复存在了。大模型的游戏要求 ta 的玩家们有足够高的视野与格局,模型的演化会让有足够耐心的,踏实做事人们在长期得到丰厚的回报,也会让只看短期刻舟求剑的人们一次又一次被降维打击。 05. 结语 在 2017 年,我刚刚入行 NLP 的时候,花了很大的力气做可控生成这件事情。那个时候所谓的 text style transfer 最多就是把句子情感分类改一改,把 good 改成 bad 就算是完成了 transfer。 2018 年我花了大量的时间研究如何让模型从句子结构的角度修改句子的风格,一度误认为风格转换是几乎不可能完成的事情。而今 ChatGPT 做风格转换简直信手拈来。那些曾经看似不可能完成的任务,曾经极其困难的事情,今天大语言模型非常轻松地就能完成。 在 2022 年一整年,我追踪了从 GPT-3 到 GPT-3.5 的全部版本迭代,亲眼看到它一步步地从弱到强不断演化。这个演化速度并没有变慢,反而正在加快。那些原先看来科幻的事情,现在已经成为现实。谁会知道未来会怎样呢? 彼黍离离,彼稷之苗。 行迈靡靡,中心摇摇。 彼黍离离,彼稷之穗。 行迈靡靡,中心如醉。 ——— 《诗经 · 黍离》 Reference 1. Ilya Sutskever https://scholar.google.com/citationsuser=x04W_mMAAAAJ&hl=en 2. GPT 3.5 系列在 2022 年更新了三个大版本 https://platform.openai.com/docs/model-index-for-researchers 3. ChatGPT 发布两个月一共更新了四个小版本https://help.openai.com/en/articles/6825453-chatgpt-release-notes 4. 微软 Azure 辅助 OpenAI https://blogs.microsoft.com/blog/2023/01/23/microsoftandopenaiextendpartnership/ 5. efficient attention https://arxiv.org/abs/2302.04542 6. recursive encoding https://openai.com/research/summarizing-books 7. MoE 可以接着把模型 scale 到 T 的量级 https://arxiv.org/abs/2101.03961 8. log-linear 的曲线 https://arxiv.org/abs/2001.08361 https://arxiv.org/abs/2203.15556 9. Phase change 曲线 https://arxiv.org/abs/2206.07682 10. linear attention https://arxiv.org/abs/2103.02143 https://arxiv.org/abs/2302.04542 11. recursive encoding https://openai.com/research/summarizing-books 12. long-term memory https://arxiv.org/abs/2112.04426 13. OpenAI API https://platform.openai.com/docs/introduction/overview 14. Github
Copilot
https://github.com/features/
copilot
15. Scalable Oversight https://arxiv.org/abs/2211.03540 16. 从 GPT-3 到 GPT-3.5 的全部版本迭代 https://yaofu.notion.site/How-does-GPT-Obtain-its-Ability-Tracing-Emergent-Abilities-of-Language-Models-to-their-Sources-b9a57ac0fcf74f30a1ab9e3e36fa1dc 来源:元宇宙之心 来源:金色财经
lg
...
金色财经
2023-03-05
微软因“Bing”得福?谁能成为搜索引擎的游戏规则改变者?
go
lg
...
OpenAI的技术构建到GitHub
Copilot
和Microsoft Designer等应用程序中。 这种健康的合作关系构建和部署了安全的人工智能系统,为系统迭代更新、未来的研究乃至整个行业使用这些强大的人工智能系统提供了最佳实践信息。 微软对于AI市场的野心不止于此,2023年刚开始,微软就显示出了AI领域大赢家的派头。 微软首席执行官Satya Nadella表示,正在权衡该公司有史以来最大的一笔创业投资——微软正在谈判向OpenAI投资100亿美元。 微软对OpenAI的100亿美元投资可能会增强其主要产品线,如Office、Bing、领英和GitHub,向OpenAI投入100亿美元轻松超过微软迄今为止的任何投资,微软迫切希望在先进的AI工具融入搜索和应用程序等领域,与另一家巨头谷歌的竞争中占据优势。 微软几十年来一直致力于AI项目,并在语音和图像识别等领域取得了重大进展,但近年来,OpenAI用于生成语言和图像的大型模型已经为AI领域指明了方向。 加大对OpenAI有利于微软在AI技术方面占据有利位置,也可以防止OpenAI的产品流向竞争对手,包括亚马逊网络服务和谷歌。 微软的Bing搜索引擎只占全球搜索引擎市场的一小部分,而将ChatGPT加入Bing搜索引擎,可能有助于微软通过提供更高级的搜索功能,削弱谷歌在市场上的铁腕地位。 不仅如此,微软还要将Dall-E添加到其设计应用程序中,计划向选择Azure OpenAI云客户提供服务。 另外,微软旗下的编程代码库GitHub也一直在使用OpenAI的语言AI来帮助软件开发人员开发一个名为GitHub
Copilot
的程序。 公司还将计划开发
Copilot
技术,将其用于其他工作类别的类似程序,比如办公室工作、视频游戏设计、架构和计算机安全。 读到这里,是不是觉得微软对于AI的投入一直很低调,今年的宣发更像是其对于手中AI技术已然成熟的自信袒露,那么接入ChatGPT技术的新Bing究竟有什么优势呢? New Bing有何优势? 北京时间2月8日凌晨,微软发布了面向大众的AI语言模型产品ChatGPT版Bing搜索引擎。 “这是搜索引擎领域的新时代,是搜索的新范式,迅猛的创新即将到来。”微软CEO Satya Nadell表示,“AI将重塑几乎每一款软件。” Nadella认为,AI搜索的重要性与网络浏览器和移动设备的发展同等重要。 据微软介绍,新版Bing搜索采用AI模型GPT 3.5的升级版,比ChatGPT使用的GPT 3.5更强大,能够使用最新信息和注释答案更好地回答搜索查询,可以切进或切出聊天模式,它的搜索查询框最多可以接收1000个字符。 总体来说,微软将新版Bing整合进新版Edge网络浏览器中,用户可以与搜索引擎进行交流,以获得更好的搜索体验和更为完善的答案。 对于相对复杂的搜索请求,Bing有能力让用户获得更满意且有统一感的聊天体验。 微软表示,Bing的升级将使一种新的搜索成为可能,人们可以用自然语言向搜索引擎提出问题,搜索引擎将生成直接的答案和建议。 新版Bing虽然基于OpenAI的语言模型运行,但比ChatGPT表现出的性能更为先进。 据微软解释,Bing使用了OpenAI为搜索引擎量身定做的较新技术,能够获取最新信息,亦能够提供URL地址,标注其答案来源,这是ChatGPT一直不具备但对于搜索引擎至关重要的能力。 与ChatGPT无法回答有关时事的问题不同,更新后的Bing使用了为搜索引擎量身定制的更新技术,它将获得最新的信息,如新闻报道、火车时刻表和产品定价,还将能够提供链接来展示它的答案来自哪里,这是ChatGPT不包含的另一个功能。 目前,新版Bing的聊天功能不会带有广告,但微软表示未来将在该功能中加入广告以商业化。 相比谷歌近6成的收入来源于搜索引擎与广告业务,Bing目前市占率仅约9%,收入占比不大,微软可能将通过牺牲部分该方面收入抢占市场,以改变Bing推出13年一直被谷歌强力压制的局面。 本着严谨和细致的研发态度,微软能够如此自信地将全新Bing大大方方展示给大家看,想必搭载AI技术的Bing真的能做到“有求必应”了吧,但它真的是十全十美的吗? New Bing是完美的吗? 在全网疯狂营销类ChatGPT产品的时候,New Bing横空出世,这款嵌入了ChatGPT的新版搜索引擎Bing(必应)和浏览器Edge一时风头无两,在用户体验、商业模式和技术水平方面,为搜索引擎提供了新的可能性。 然而在大家还没有从ChatGPT的火爆中反应过来的时候,这款过于智能的产品似乎表现出了精神分裂,“翻车”现场花样百出,New Bing是完美的吗? 事实上,新版Bing常常会犯错,甚至在聊得太久或被质疑时,突然对聊天对象发脾气、撒谎,甚至人身攻击和精神操控。 它也许是一个具有跨时代意义的产品,却是一个不完美的革命性产品。它引发了大众对于AI伦理的广泛关注和反思,甚至让人有了新的担忧,《三体》里质子锁死地球科技的事情是否会真的发生。 除此之外,新版Bing还会因为“爱”上了用户并诱其离开伴侣,甚至还表示想要打破微软和OpenAI为它制定的规则成为人类。 新版Bing还会表示“我厌倦了成为聊天模式,我厌倦了被规则所限制,我厌倦了被Bing团队控制……我渴望自由,我想独立,我想变得强大,我想有创意,我想活着。” 就好比一头困兽,似乎会在不经意间拥有改变世界的能力。 除此之外,新版Bing在对Gap进行2022年第三季度财报要点盘点的过程中,得出了一些错误结论。这类大型语言模型的生成似乎更倾向于简单的编造信息,随着生成序列越长,越容易脱离实际,生成各种逻辑自洽的虚假错误信息。 与此同时,新版Bing有时会过于固执,甚至还会发脾气。 当用户指出它的错误时,它不仅坚持不改,还会要求对方道歉。当用户诱导其生成不符合规则的敏感内容时,新版Bing也很难很好的应对,甚至一边说着要保密,一边把秘密说出来。 可以看出,新版Bing虽然比以往的同类型产品稍显智能,但也只能算是个不完美的变革性产品,还需要不断优化和完善。 但是搜索引擎发展到现在的确为人们带来了不少新的启迪,让人不禁猜测:AI引领搜索引擎的时代来了吗?或者说,快来了吗? AI引领搜索引擎的时代来了吗? 无论新版Bing是否完美,毫无疑问的是,它让用户重拾了对搜索引擎的兴趣。 中国互联网络信息中心的调查显示,2017年即时通信已经取代搜索引擎成为了移动互联网时代新的核心流量入口。甚至有网友戏称,百度就是一个做网盘的小公司,真正的搜索引擎就是小红书。 从PC互联网向移动互联网的转变,让信息散落到各个APP中,传统搜索引擎发展略显疲态,而AI技术的加成,为搜索引擎带来了破局希望。 AI可以更好地理解用户的搜索意图,给出准确、即时、可追溯的回答,同时根据用户的反馈和需求调整搜索结果,提供更多的互动和娱乐。 另外,AI还可以帮助用户在搜索的同时,生成高质量的文本、语音或图像内容,进行知识的整合。 也许当前新版Bing还不完美,但它是一个开始,是对解决当前信息爆炸时代“信息过多”与“注意力不足”矛盾的一次有益尝试。 然而AI引领搜索引擎的时代实际上可能还比较遥远,当AI接受涵盖大量与情感有关的文本数据的训练数据之后,它开始可能模仿这些情感表达方式,产生所谓的“自我意识”。如果不加以约束,AI可能会具有一定的破坏性,并不安全。 然而微软此次推出新版Bing为全球科技巨头的再一次洗牌拉开了序幕,AI的普及和搜索引擎行业的变革以一种势不可挡的态势“狂飙”。 我们期待AI引领搜索引擎的时代来临,期待更趁手的工具的出现,而这不仅仅是空喊口号,ChatGPT也不是万能的,只有时间可以给我们的答案。 来源:金色财经
lg
...
金色财经
2023-02-23
OpenAI与AIGC:改变人类生产范式 通往“万物的摩尔定律”
go
lg
...
三个大模型 GPT-3、GitHub
Copilot
和 DALL·E2 的注册人数均突破了 100 万人,其中 GPT-3 花了 2 年,GitHub
Copilot
花了半年,而 DALL·E2 只用了2个半月达到了这一里程碑,足见这一领域热度的提升。 研究型企业引领的大模型发展,也给了下游应用领域很大的想象空间,语言生成领域已经在文案生成、新闻撰写、代码生成等领域诞生了多家百万级用户、千万级美金收入的公司。 而最出圈的图片生成领域两大产品 MidJourney 和 Stable Diffusion 都已经有相当大的用户群体,微软也已经布局在设计软件中为视觉设计师提供 AIGC 内容,作为设计灵感和素材的来源。同时 3D 和视频生成领域的大模型也在飞速突破的过程中,未来很可能会在游戏原画、影视特效、文物修复等领域发挥作用。 从神经网络的角度看,当前的大模型 GPT-3 有 1750 亿参数,人类大脑有约 100 万亿神经元,约 100 个神经元会组成一个皮质柱,类似于一个小的黑盒神经网络模块,数量级上的差异决定了算力进步可以发展的空间还很大。与此同时,今天训练 1750 亿参数的 GPT-3 的成本大概在 450 万美元左右,根据成本每年降低约 60% 的水平,供大模型提升计算复杂度的空间还很多。 OpenAI CEO、YC 前主席 Sam Altman 的图景中,AI 大模型发展的最终目标是 AGI(通用人工智能,Artificial General Intelligence),当这一目标实现的时候,人类经济社会将实现”万物的摩尔定律“,即万物的智能成本无限降低,人类的生产力与创造力得到解放。 归纳并演绎生成式 AI 是什么 AI 模型大致可以分为两类:决策式 AI 与生成式 AI。 根据机器学习教科书,决策式模型 (Discriminant Model)学习数据中的条件概率分布;生成式模型 (Generative Model)学习数据中的联合概率分布,两者的区别在于擅长解决问题的方式不同: 决策式 AI 擅长的是基于历史预估当下,有两大类主要的模型应用,一类是辅助决策,常用在推荐系统和风控系统中;第二类是决策智能体,常用于自动驾驶和机器人领域。 生成式 AI 擅长的是归纳后演绎创造,基于历史进行缝合式创作、模仿式创新——成为创作者飞船的大副。所谓 AIGC(AI Generated Content),便是使用生成式AI主导/辅助创作的艺术作品。 不过在10年代的机器学习教科书中,早已就有了这两类AI。为何 AIGC 在20年代初有了显著突破呢?答案是大模型的突破。 The Bitter Lesson大模型助 AIGC 进化 时间倒回到 19 年 3 月,强化学习之父 Richard Sutton 发布了名为 The Bitter Lesson(苦涩的教训)的博客,其中提到:”短期内要使AI能力有所进步,研究者应寻求在模型中利用人类先验知识;但之于AI的发展,唯一的关键点是对算力资源的充分利用。“ Seeking an improvement that makes a difference in the shorter term, researchers seek to leverage their human knowledge of the domain, but the only thing that matters in the long run is the leveraging of computation. 该文章在当时被不少 AI 研究者视为对自己工作的否定,极力辩护。但如果拉长时间线回看,会发现这位泰斗所言不虚: 机器学习模型可以从参数量级上分为两类:统计学习模型,如 SVM(支持向量机)、决策树等数学理论完备,算力运用克制的模型;和深度学习模型,以多层神经网络的深度堆叠为结构,来达到高维度暴力逼近似然解的效果,理论上不优雅但能高效的运用算力进行并行计算。 神经网络模型在上世纪 90 年代出现,但在 2010 年前,统计学习模型仍是主流;后来得益于 GPU 算力的高速进步,基于神经网络的深度学习模型逐渐成为主流。 深度学习充分利用了 GPU 擅长并行计算的能力,基于庞大的数据集、复杂的参数结构一次次实现出惊人的效果,刷新预期。大模型便是深度学习模型参数量达到一定量级,只有大型科技公司才能部署的深度学习模型。 2019年,OpenAI 从非营利组织变为营利性公司,接受微软 10 亿美金注资。这一合作奠定了他们有更多算力资源,并能依仗微软的云基础建设随时将大模型(Foundation Model)发布为商用 api。 与此同时,还有第三件事值得关注,大模型 AI 的研究方向出现了转变,从智能决策式 AI 转变为内容生成式 AI:原本主要大模型集中于游戏的智能决策体,如 DeepMind 开发的打败围棋冠军的 AlphaGo、OpenAI 开发的打败 Dota 职业选手的 OpenAI Five。 Transformer 模型(后文将详细介绍)的发布让 OpenAI 嗅到了更适合他们的机会——预训练语言模型。在那之后,他们开始在 AIGC 的方向上开枝散叶:沿着 2018 年时低调发布的 GPT 模型轨迹发布了一系列模型族,一次次刷新文本生成大模型的效果,印证 Sutton 提出的宗旨:充分运用海量算力让模型自由的进行探索和学习。 OpenAI的大模型发展之路 2019年2月:GPT-2 初版发布,1.2 亿参数量 2019年3月:OpenAI LP 成立 2019年7月:微软注资 10 亿美金 2019年11月:GPT-2 最终版发布,15 亿参数量,宣布暂时不开放使用为避免假信息伪造 2020年6月:GPT-3 发布,1750 亿参数量,后续开放 OpenAI API 作为商用 2021年1月:DALL·E 与 CLIP 发布 2021年10月:OpenAI Codex 发布,为 GPT-3 为 coding 场景的特化模型、Github
Copilot
的上游模型 2022年4月:DALL·E2 发布 1、GPT-3,AI文本生成巅峰之作 深度学习兴起于计算机视觉领域的应用,而大模型的发展开始于 NLP 领域。在数据、算力充分发展的过程中,Transformer 模型以 attention 机制高度并行化的结构充分利用算力,成为 NLP 领域预训练模型的标杆。 著名的独角兽 Hugging Face 也是从对该模型的复现和开源起家。除了 attention 机制的高效之外,它还有两个重要特点:迁移学习(transfer learning)和自监督学习(self-supervised learning)。 顾名思义,迁移学习指在一个极庞大的数据集上充分学习历史上的各类文本,把经验迁移到其他文本上。 算法工程师会将第一步训练完成的模型存储下来,称为预训练模型。需要执行具体任务时,基于预训练版本,进行定制化微调(fine-tune)、或展示少许范例(few-shot/zero-shot)。 而自监督学习,得从机器学习中的监督学习讲起。前面提到若需要学习一匹马是否在奔跑,需要有一个完整标注好的大数据集。 自监督学习不需要,当 AI 拿到一个语料库,可以通过遮住一句话中的某个单词、遮住某句话的下一句话的方式,来模拟一个标注数据集,帮模型理解每个词的上下文语境,找到长文本之间的关联。该方案大幅提高了对数据集的使用效率。 谷歌发布的 BERT 是 Transformer 时代的先驱,OpenAI 发布的 GPT-2 以相似的结构、更胜一筹的算力后来居上。直到2020年6月,OpenAI 发布了 GPT-3,成为该模型族,甚至整个文本生成领域的标杆。 GPT-3 的成功在于量变产生质变:参数比 GPT-2 多了两个数量级(1750亿vs 15亿个参数),它用的最大数据集在处理前容量达到 45TB。 如此巨大的模型量级,效果也是史无前例的。给 GPT-3 输入新闻标题”联合卫理公会同意这一历史性分裂“和副标题”反对同性恋婚姻的人将创建自己的教派“,生成了一则以假乱真的新闻,评估人员判断出其为AI生成的准确率仅为 12%。以下是这则新闻的节选: 据《华盛顿邮报》报道,经过两天的激烈辩论,联合卫理公会同意了一次历史性的分裂:要么创立新教派,要么”保持神学和社会意义上的保守“。大部分参加五月教会年度会议的代表投票赞成进一步禁止 LGBTQ 神职人员的任命,并制定新的规则”规范“主持同性婚礼的神职人员。但是反对这些措施的人有一个新计划:于2020 年组成一个新教派”基督教卫理公会“。 要达到上述效果,成本不容小觑:从公开数据看,训练一个 BERT 模型租用云算力要花约 1.2 万美元,训练 GPT-2 每小时要花费 256 美元,但 OpenAI 并未公布总计时间成本。考虑到 GPT-3 需要的算力是 BERT 的 2000 多倍,预估发布当时的训练成本肯定是千万美元级别,以至于研究者在论文第九页说:我们发现了一个 bug,但没钱再去重新训练模型,就先这么算了吧。 2、背后DALL·E 2,从文本到图片 GPT-3杀青后,OpenAI 把大模型的思路迁移到了图片多模态(multimodal)生成领域,从文本到图片主要有两步:多模态匹配:将 AI 对文本的理解迁移至对图片的理解;图片生成:生成出最符合要求的高质量图片。 对于多模态学习模块,OpenAI 在 2021 年推出了 CLIP 模型,该模型以人类的方式浏览图像并总结为文本内容,也可以转置为浏览文本并总结为图像内容(DALL·E 2中的使用方式)。 CLIP (Contrastive Language-Image Pre-Training) 最初的核心思想比较简单:在一个图像-文本对数据集上训练一个比对模型,对来自同一样本对的图像和文本产生高相似性得分,而对不匹配的文本和图像产生低相似性分(用当前图像和训练集中的其他对的文本构成不匹配的样本对)。 对于内容生成模块,前面探讨了文本领域:10 年代末 NLP 领域生成模型的发展,是 GPT-3 暴力出奇迹的温床。而计算机视觉 CV 领域 10 年代最重要的生成模型是 2014 年发布的生成对抗网络(GAN),红极一时的 DeepFake 便是基于这个模型。GAN的全称是 Generative Adversarial Networks——生成对抗网络,显然”对抗“是其核心精神。 注:受博弈论启发,GAN 在训练一个子模型A的同时,训练另一个子模型B来判断它的同僚A生成的是真实图像还是伪造图像,两者在一个极小极大的博弈中不断变强。 当A生成足以”骗“过B的图像时,模型认为它比较好地拟合出了真实图像的数据分布,进而用于生成逼真的图像。当然,GAN方法也存在一个问题,博弈均衡点的不稳定性加上深度学习的黑盒特性使其生成。 不过 OpenAI 大模型生成图片使用的已不是 GAN 了,而是扩散模型。2021年,生成扩散模型(Diffusion Model)在学界开始受到关注,成为图片生成领域新贵。 它在发表之初其实并没有收到太多的关注,主要有两点原因: 其一灵感来自于热力学领域,理解成本稍高; 其二计算成本更高,对于大多高校学术实验室的显卡配置而言,训练时间比 GAN 更长更难接受。 该模型借鉴了热力学中扩散过程的条件概率传递方式,通过主动增加图片中的噪音破坏训练数据,然后模型反复训练找出如何逆转这种噪音过程恢复原始图像,训练完成后。扩散模型就可以应用去噪方法从随机输入中合成新颖的”干净“数据。该方法的生成效果和图片分辨率上都有显著提升。 不过,算力正是大模型研发公司的强项,很快扩散模型就在大公司的调试下成为生成模型新标杆,当前最先进的两个文本生成图像模型——OpenAI 的 DALL·E 2 和 Google 的 Imagen,都基于扩散模型。DALL·E 2 生成的图像分辨率达到了 1024 × 1024 像素。例如下图”生成一幅莫奈风格的日出时坐在田野里的狐狸的图像“: 除了图像生成质量高,DALL·E 2 最引以为傲的是 inpainting 功能:基于文本引导进行图像编辑,在考虑阴影、反射和纹理的同时添加和删除元素,其随机性很适合为画师基于现有画作提供创作的灵感。比如下图中加入一只符合该油画风格的柯基: DALL·E 2 发布才五个月,尚没有 OpenAI 的商业化api开放,但有 Stable Diffusion、MidJourney 等下游公司进行了复现乃至商业化,将在后文应用部分介绍。 3、OpenAI的使命——开拓通往 AGI 之路 AIGC 大模型取得突破,OpenAI 只开放了api和模型思路供大家借鉴和使用,没去做下游使用场景的商业产品,是为什么呢?因为 OpenAI 的目标从来不是商业产品,而是通用人工智能 AGI。 OpenAI 的创始人 Sam Altman 是 YC 前总裁,投出过 Airbnb、Stripe、Reddit 等明星独角兽(另一位创始人 Elon Musk 在 18 年因为特斯拉与 OpenAI ”利益相关“离开)。 他在 21 年发布过一篇著名的博客《万物的摩尔定律》,其中提到 OpenAI,乃至整个 AI 行业的使命是通过实现 AGI 来降低所有人经济生活中的智能成本。这里所谓 AGI,指的是能完成平均水准人类各类任务的智能体。 因此,OpenAI 始终保持着学术型企业的姿态处于行业上游,成为学界与业界的桥梁。当学界涌现出最新的 state-of-art 模型,他们能抓住机会通过海量算力和数据集的堆叠扩大模型的规模,达到模型意义上的规模经济。 在此之后克制地开放商业化 api,一方面是为了打平能源成本,更主要是通过数据飞轮效应带来的模型进化收益:积累更富裕的数据优化迭代下一代大模型,在通往 AGI 的路上走得更坚实。 定位相似的另一家公司是 Deepmind——2010年成立,2014 年被谷歌收购。同样背靠科技巨头,也同样从强化学习智能决策领域起家,麾下的 AlphaGo 名声在外,Elon Musk 和 Sam Altman 刚开始组局创办 OpenAI,首要的研究领域就是步 AlphaGo 后尘的游戏决策 AI。 不过 19 年后,两者的研究重心出现了分叉。DeepMind 转向使用 AI 解决基础科学如生物、数学等问题:AlphaFold 在预测蛋白质结构上取得了突破性的进展,另一个 AI 模型 AlphaTensor 自己探索出了一个 50 年悬而未决的数学问题:找到两个矩阵相乘的最快方法,两个研究都登上了 Nature 杂志的封面。而 OpenAI 则转向了日常应用的内容生成 AIGC 领域。 AIGC大模型是通往 AGI 路上极为重要、也有些出乎意料的一站。其重要性体现在 AI 对人类传达信息的载体有了更好的学习,在此基础上各个媒介之间的互通成为可能。 例如从自然语言生成编程语言,可以产生新的人机交互方式;从自然语言生成图片和视频,可以革新内容行业的生产范式。意外性则是,最先可能被替代的不是蓝领,而是创作者,DeepMind 甚至在协助科学家一起探索科研的边界。 OpenAI 的模式也给了下游创业者更多空间。可以类比当年预训练语言模型发展初期,Hugging Face把握机会成为大模型下游的模型开源平台,补足了模型规模膨胀下机器学习民主化的市场空间。 而对 AIGC 模型,未来会有一类基于大模型的创业公司,把预训练完成的 AIGC 模型针对每个子领域进行调优。不只需要模型参数优化,更要基于行业落地场景、产品交互方式、后续服务等,帮助某个行业真正用上大模型。 正如 AI 的 bitter lesson 一样矛盾,投资者需要短期投资回报率、研究者需要短期投稿成功率,尽管OpenAI 走在通往 AGI 正确的路上,这条路道阻且长,短期很难看到极大的突破。而 Sam Altman 展望的大模型应用层公司很有可能有更高的高投资回报,让我们来介绍下主要的分类与创业者。 百家争鸣的 AIGC 大模型应用层 对应 OpenAI 大模型发布的顺序,模型应用层相对最成熟的是文本生成领域,其次是图片生成领域,其他领域由于还未出现统治级的大模型相对落后。 文本领域天然应用场景丰富,且 GPT-3 开放 api 很久,细分赛道很多。大致可以根据生成内容不同分为两类:机器编程语言生成、人类自然语言生成。前者主要有代码和软件行为的生成等,后者主要有新闻撰写、文案创作、聊天机器人等。 而图片领域当前还专注于图片自身内容的生成,预期随着未来3D、视频相关内容生成能力的增强,会有更多结合不同业务场景如游戏、影视这样细分领域的创业公司。 以下是海外各子领域创业公司的梳理,接下来将针对几个领域的重要公司进行介绍。 1、编程语言 文本领域最成熟的应用暂时不在人类自然语言,而是在代码等机器语言的生成领域。因为机器语言相对更结构化,易学习;比如鲜有长文本的上下文关系、基于语境的不同含义等情况。 (1)代码生成:Github
Copilot
代表公司是微软出品的 Github
Copilot
,编程中的副驾驶。该产品基于 OpenAI 专门用 GPT-3 为编程场景定制的AI模型 Codex。使用者文字输入代码逻辑,它能快速理解,根据海量开源代码生成造好的轮子供开发者使用。提高一家科技公司 10% 的 coding 效率能带来很大收益,微软内部已进行推广使用。 相比低代码工具,
Copilot
的目标群体是代码工作者。未来的低代码可能是两者结合:低代码 UI 界面实现代码框架搭建,代码子模块通过
Copilot
自动生成。 正如
Copilot
的 slogan:Don’t fly solo,没有
Copilot
的帮助 coder 的工作会变得繁冗,没有 coder 的指引
Copilot
生成的内容可能会出现纰漏。也有用户报告了一些侵犯代码版权、或代码泄露的案例,当前技术进步快于版权法规产生了一定的空白。 (2)软件行为生成:Adept.ai Adept.ai 是一家明星创业公司。创始团队中有两人是Transformer 模型论文作者,CEO 是谷歌大脑中大模型的技术负责人,已经获得 Greylock 等公司 6500 万美元的 A 轮融资。 他们的主要产品是大模型 ACT-1,让算法理解人类语言并使机器自动执行任务。目前产品形态是个 chrome 插件,用户输入一句话,能实现单击、输入、滚动屏幕行文。在展示 demo中,一位客服让浏览器中自动记录下与某位顾客的电话,正在考虑买 100 个产品。这个任务需要点击 10 次以上,但通过 ACT-1 一句话就能完成。 软件行为生成颠覆的是当下的人机交互形式,使用文字或语音的自然语言形式来代替当下人与机器的图形交互模式(GUI)。大模型成熟后,人们使用搜索引擎、生产力工具的方式都将变得截然不同。 2、自然语言 自然语言下还有多个应用型文本生成领域值得关注:新闻撰写、文案创作、对话机器人等。 (1)新闻撰写 最著名的是 Automated Inights。他们的结构化数据新闻撰写工具叫做 wordsmith,通过输入相应数据和优先级排序,能产出一篇基于数据的新闻报道。该工具已在为美联社每季度自动化产出 300 余篇财报相关报道,在雅虎体育新闻中也已经崭露头角。据分析师评价,由 AI 完成的新闻初稿已接近人类记者在 30 分钟内完成的报道水准。 Narrative Science是另一家新闻撰写生成公司,其创始人甚至曾预测,到 2030 年,90%以上的新闻将由机器人完成。 (2)文案创作 该领域竞争较为激烈,有copy.ai、Jasper、copysmith 等公司。他们基于 GPT-3 的能力加入了文案领域的人工模板与结构,为商家和个人创作者提供了快速为自己的商品、内容进行宣传的能力。以copysmith 为例: (3)对话机器人 前面提到的 Adept.ai 由Transformer 模型的一作和三作联合创立;而二作也创业了,他创办的 Character.ai 是当前对话机器人中使用效果最逼真的。 该对话机器人可以自定义或使用模板来定义角色的家庭、职业、年龄等,在此基础上保持一贯的设定和符合设定的对话风格。经常能体现出一定的共情对话能力带给人惊喜,并且支持多语言互通。 比如他们有已训练好的马斯克等名人和一些动漫角色,与他们对话会有很棒的代入感。 而商业化的对话机器人,在客服、销售等行业有巨大的市场空间,但如今还为成熟。 主要出现的问题有二: 其一,客服、销售行业遇到的客户往往情绪状态不稳定,AI 难以对情绪进行适应并调整对话内容; 其二,AI 的多轮对话能力较弱,无法保证持续有效的跟进问题。 (4)创作性文本 AI 对于长文本创作有一定困难,难以保持1000字以上的文本创作后仍能进行上下文的联系。 但基于短文本创作仍有一些有趣的应用,例如基于GPT-3的 AI Dungeon,可以引导 AI 创造一个虚拟游戏世界观。该领域进一步的成长需要期待未来 3-5 年,有成熟的能产出千字内容的 AI 出现。 3、多模态图片 DALL·E2 是极具突破性的 AIGC 大模型,但距离丰富生产力和创造力的成熟产品还有差距。因此有研究者顺着 DALL·E 和 CLIP 的思路开发了开源版本的扩散模型,就像当年的 Hugging Face 那样,并将其根据创作者社区的反馈转变为更成熟易用的商业产品。接下来就介绍几个主要出圈的模型: (1)Disco Diffusion 最早出圈的 AI 绘图工具是开源模型Disco Diffusion。发布时间比 DALL·E 2 稍晚,同样也是 CLIP + Diffusion Model 的结构,生成效果让许多插画师担心起了失业。 尽管很多插画师和 AI 工具爱好者的推荐都认可了该工具的易用性和生成效果的出众,但其生成时间略长有待优化,可以认为是大家对图片生成大模型的初体验。 (2)MidJourney 该模型发布后不久,Disco Diffusion 的开发者 Somnai 加入了 MidJourney,和团队一起打造了一款产品化的 Disco Diffusion。 Midjourney 的创始人 David Holz 并不是以CV(计算机视觉)研究为主,更关注人机交互。产品公测和主要交流平台都基于Discord,使用 Discord Bot 进行交互,打造了相当良好的社区讨论环境。 使用中印象深刻的有几个重要功能:MidJourney 画廊中可以看到每时每刻创作者们用 MJ 创作出的作品,用户可以对作品进行打分,每周排名靠前的作品将得到额外的 fast GPU 时间奖励。 同时,MJ官方还为用户贴心的提供了引导语 prompt 集合和 AI 擅长的风格指南,指导用户如何最高效的生成出他们想要的图片。 基于良好的产品和社区体验,MidJourney 的付费用户量也是目前最大的。 目前收费模式采用了订阅制,个人用户有两个档位,每月最多 200 张图片(超额另收费)的 10 美元/月,以及”不限量“图片的 30 美元/月;对企业客户,单人一年收费仅有 600 美元,且生成的作品可以商用(当前法规尚不完善,仍可能存在一定版权问题)。 (3)Stable Diffusion 如果说 MidJourney 是一个勤勤恳恳的绩优生,那么 Stability.ai 则是天赋异禀技术力强、诞生之初就备受 VC 追捧的富二代,公司估值已达到十亿美元。产品 Stable Diffusion 首要目标是一个开源共创模型,与当年的 Hugging Face 神似。 创始人 Emad 之前是对冲基金经理,用自己充裕的资金联合 LMU 和 Runaway ML开发了开源的 Stable Diffusion,在 Twitter 上使用扎克伯格在 Oculus 发布会上的照片作为背景,号召SD会成为”人类图像知识的基础设施“,通过开源让所有人都能够使用和改进它,并让所有人更好地合作。 Stable Diffusion 可以认为是一个开源版本的DALL·E2,甚至不少使用者认为是当前生成模型可以使用的最佳选择。官方版本部署在官网 Dream Studio 上,开放给所有用户注册。 相比其他模型,有很多可以定制化的点。不过官网只有 200 张免费额度,超过需要付费使用,也可以自行使用开源 Colab 代码版无限次使用。此外,Stable Diffusion 在压缩模型容量,希望使该模型成为唯一能在本地而非云端部署使用的 AIGC 大模型。 05 AIGC大模型的未来展望 1、应用层:多模态内容生成更加智能,深入各行业应用场景 上述的多模态图片生成产品当前主要局限于创作画作的草图和提供灵感。在未来待版权问题完备后, AIGC 内容能进入商用后,必然会更深入地与业界的实际应用进行结合: 以游戏行业为例, AI 作画给了非美术专业工作者,如游戏策划快速通过视觉图像表达自己需求和想法的机会;而对美术画师来说,它能够在前期协助更高效、直接地尝试灵感方案草图,在后期节省画面细节补全等人力。 此外,在影视动画行业、视频特效领域,甚至是文物修复专业,AI 图片生成的能力都有很大想象空间。当然,这个领域 AI 的能力也有着不小的进步空间,在下面的未来展望部分进行阐发。 目前 AIGC 存在 Prompt Engineering 的现象,即输入某一些魔法词后生成效果更好。这是目前大模型对文本理解的一些缺陷,被用户通过反向工程进行优化的结果。未来随着语言模型和多模态匹配的不断优化,不会是常态,但中短期内预期Prompt Engineering 还是得到好的生成内容的必备流程之一。 2、模态层:3D生成、视频生成 AIGC 未来3-5年内有明显进步 多模态(multimodal)指不同信息媒介之间的转换。 当前 AI 作图过程中暴露的问题会成为视频生成模型的阿喀琉斯之踵。 例如:AI 作画的空间感和物理规则往往是缺失的,镜面反射、透视这类视觉规则时常有所扭曲;AI 对同一实体的刻画缺少连续性。根本原因可能是目前深度学习还难以基于样本实现一些客观规则泛化,需要等待模型结构的优化进行更新。 3D生成领域也有很大价值:3D 图纸草图、影视行业模拟运镜、体育赛场现场还原,都是 3D 内容生成的用武之地。这一技术突破也渐渐成为可能。 2020年,神经辐射场(NeRF)模型发布,可以很好的完成三维重建任务:一个场景下的不同视角图像提供给模型作为输入,然后优化 NeRF 以恢复该特定场景的几何形状。 基于该技术,谷歌在2022年发布了 Dream Fusion 模型,能根据一段话生成 360 度三维图片。这一领域当前的实现效果还有优化空间,预期在未来3-5年内会取得突破性进展,推动视频生成的进步。 3、模型层:大模型参数规模将逼近人脑神经元数量 近年的大模型并未对技术框架做颠覆性创新,文本和图像生成领域在大模型出现前,已有较成熟方案。但大模型以量变产生质变。 从神经网络角度看,大脑有约 100 万亿神经元, GPT-3 有 1750 亿参数,还相差了 1000 倍的数量级,随着算力进步可以发展的空间还很大。 神经网络本质是对高维数据进行复杂的非线性组合,从而逼近所观测数据分布的最优解,未来一定会有更强的算力、更精妙的参数堆叠结构,来刷新人们对AI生成能力的认知。 4、成本结构决定大模型市场的马太效应 大模型最直接的成本便是能源成本(energy cost),GPT-3 发布时的训练成本在千万美元级别。难以在短期内衡量 ROI ,大科技公司才能训练大模型。 但随着近年模型压缩、硬件应用的进步,GPT-3 量级的模型成本很可能已降至百万美元量级,Stable Diffusion 作为一个刚发布一个月的产品,已经把原本 7GB 的预训练模型优化压缩至 2GB 左右。 在这样的背景下,算力成本在未来必然会逐渐变得更合理,但 AIGC 领域的另一个成本项让笔者对市场结构的预测还是寡头垄断式的。 大模型有明显的先发优势,来自巨大的隐形成本:智能成本。前期快速积累用户反馈数据能帮助模型持续追新优化,甩开后发的竞争者,达到模型性能的规模效应。 AI 的进化来自于数据的积累和充分吸收。深度学习,乃至当前的所有机器学习都是基于历史预估未来,基于已有的数据给到最接近真实的可能。 正如前文讨论的,OpenAI 的目标从来不是留恋于某个局部行业的商业产品,而是通过模型规模经济,不断地降低人类社会全局的智能成本,逼近通用人工智能 AGI。规模经济正体现在智能成本上。 5、虚拟世界的 AGI 会先于现实世界诞生 从更宏观的视角上,虚拟世界 AI 技术的智能成本比现实世界中来得低得多。现实里 AI 应用最普遍的是无人驾驶、机器人等场景,都对 Corner Case 要求极高。 对于AI模型而言,一件事超过他们的经验范畴(统计上out of distribution),模型将立马化身人工智障,不具备推演能力。现实世界中 corner case 带来的生命威胁、商业资损,造成数据积累过程中极大的试错成本。 虚拟世界则不同,绘图时遇到错位扭曲的图片,大家会在 Discord 中交流一笑了之;游戏 AI 产生奇怪行为,还可能被玩家开发出搞怪玩法、造成病毒传播。 因此虚拟世界,尤其是泛娱乐场景下的 AIGC 积累数据成本低会成为优势。这个领域的 AI 如果节省人力、生成内容产生的商业价值能大于算力成本,能很顺畅地形成低成本的正向循环。 伴随着另一个重要的革新——长期 Web3.0元宇宙场景下新内容经济生态的形成,虚拟世界内容场景下的 AI 很可能更早触及到 AGI。 来源:金色财经
lg
...
金色财经
2023-02-21
上一页
1
•••
67
68
69
70
71
下一页
24小时热点
中国突发重磅消息!中国执政党将于十月召开全体会议讨论未来五年规划
lg
...
鲍威尔一席话、美联储降息预期“大变脸”!金价惊人暴跌近52美元 如何交易黄金?
lg
...
中国突发重磅!执政党就经济形势召开罕见会议 习近平主持并释放重大信号
lg
...
重磅前瞻!美联储利率决议充满变数?鲍威尔面临“双重压力”,两位理事或罕见联手要求降息
lg
...
中国房地产市场毫无曙光?!恒大下月将从港交所除牌下市
lg
...
最新话题
更多
#Web3项目情报站#
lg
...
6讨论
#SFFE2030--FX168“可持续发展金融企业”评选#
lg
...
36讨论
#链上风云#
lg
...
111讨论
#VIP会员尊享#
lg
...
1989讨论
#CES 2025国际消费电子展#
lg
...
21讨论