全球数字财富领导者
财富汇
|
美股投研
|
客户端
|
旧版
|
北美站
|
FX168 全球视野 中文财经
首页
资讯
速递
行情
日历
数据
社区
视频
直播
点评旗舰店
商品
SFFE2030
外汇开户
登录 / 注册
搜 索
综合
行情
速递
日历
话题
168人气号
文章
168人气号
更多
Gemini6
lg
...
lg
...
关注
gemini12
lg
...
lg
...
关注
文章
像素取代文本?DeepSeek-OCR引发AI底层范式之思
go
lg
...
的大模型,不管是什么 ChatGPT、
Gemini
、Llama、Qwen、还是 DeepSeek 过去的自己,在读取数据的用的都是一种方式:文字,也就是平时常说的 token。 但目前的大模型普遍面临一个超长文本的效率处理问题。当下主流大模型的上下文窗口大多在 128k-200k tokens,可财报、科研论文、书籍等动辄上千页,还混着表格、公式,传统办法只能 “切片段、多轮传”,不仅逻辑断档,还会有延时等问题。而 DeepSeek-OCR 用了个反常规思路:把文本转成图像再压缩,需要用到文本时候再解压缩。不但 Tokens 消耗直接降一个数量级,精度还没怎么丢。 为此DeepSeek-OCR模型,首次提出了“上下文光学压缩(Contexts Optical Compression)”的概念,通过文本转图像实现信息的高效压缩。 这一方法的可行性已经得到验证,在10倍压缩比下,DeepSeek-OCR的解码精度可达97%,近乎实现无损压缩;在20倍压缩比下,精度仍保持约60%。 在论文中DeepSeek团队还提出用光学压缩模拟人类的遗忘机制。 例如近期记忆就像近处的物体,清晰可见。所以可以将其渲染成高分辨率图像,用较多的视觉token来保留高保真信息。 远期记忆 就像远处的物体,逐渐模糊。所以可以将其渐进式地缩放成更小、更模糊的图像,用更少的视觉token来表示,从而实现信息的自然遗忘和压缩。 这样一来,理论上模型就可以在处理超长对话或文档时,动态地为不同时期的上下文分配不同数量的计算资源,从而可能构建出一种无限长上下文的架构。 团队表示,虽然这还是个早期研究方向,但不失为模型处理超长上下文的一种新思路。 这样的创新无疑引发了AI社区对视觉路线的深入思考。OpenAI联合创始成员、前特斯拉自动驾驶总监Andrej Karpathy表示,它是一个很好的OCR模型,但更值得关注的是它可能带来的范式转变。 Karpathy提出一个大胆设想:对于大语言模型来说,像素是否比文本更适合作为输入? 像素对于文本的优势和目前的问题 从信息密度的角度看,像素作为原始视觉信号,其承载的信息远超经过高度抽象和压缩的文本。一段文字描述“夕阳下的金色麦田”,虽能传达概念,但丢失了光影的渐变、麦穗的纹理和空间的层次感。而这些细节,恰恰蕴含在像素矩阵之中。大模型直接处理像素,等于绕过了人类语言的“过滤层”,能从更本源、更丰富的感官数据中学习世界的复杂模式。 DeepSeek-OCR的团队认为:“一张包含文档文本(document text)的图像,可以用比等效数字文本(digital text)少得多的token,来表示丰富信息。这表明,通过视觉token进行光学压缩可以实现更高的压缩比。” 其次,像素具有跨文化的通用性。文本受限于特定语言体系和文化背景,存在理解壁垒。而一幅图像或一段视频的像素,其所呈现的物理世界规律(如重力、光影)是普适的,这为模型构建一个更统一、更底层的世界模型奠定了基础。模型无需先掌握英语或中文的语法,就能理解“球体滚动”这一物理现象。 最终,这种以像素为起点的学习路径,更接近人类“眼见为实”的认知过程。它迫使模型从混沌的感官输入中主动抽象出对象、属性和关系,从而可能催生出更鲁棒、更具泛化能力的智能。当模型能够理解并生成连贯的像素序列(如视频),它便掌握了模拟和创造视觉世界的能力,这无疑是迈向通用人工智能更为坚实的一步。因此,像素作为信息载体,为大模型提供了更接近现实、更本真的学习素材。 那么DeepSeek-OCR模型是不是完美无缺的呢?那也不是。论文里也坦诚提到问题。 例如超高压缩比有风险。压缩比超过 30 倍,关键信息保留率会跌破 45%,法律、医疗这种对精度要求极高的场景不太适用。其次是复杂图形识别还不够强,三维图表、手写艺术字的识别准确率比印刷体低 12-18 个百分点。 结语:DeepSeek-OCR提供了新的解题思路 DeepSeek-OCR的推出,标志着AI发展进入了一个新的探索阶段。它不仅仅是一个技术工具的升级,更是一次认知框架的重构——当大模型开始通过像素而非纯文本来理解世界时,我们正在见证一场从“符号处理”到“感知理解”的范式转移。这种转变的意义远超出解决长文本处理这一具体问题,它暗示着未来AI可能建立起更接近人类感官体验的认知体系,从多模态的原始数据中直接构建对世界的理解。 然而,正如研究团队所提示的,这仍是一个早期研究方向。技术突破往往伴随着新的挑战:如何在压缩效率与信息保真度之间找到最佳平衡?如何让模型在“学会遗忘”的同时不丢失关键信息?这些问题都需要学术界和产业界的共同探索。更重要的是,这种技术路径的转变将如何重塑人机交互的方式,又将催生哪些全新的应用场景,都值得我们持续关注。 从更广阔的视角看,DeepSeek-OCR所代表的视觉路线,与当前主流的文本路线并非替代关系,而是互补共生的两种认知维度。未来的通用人工智能,或许正是需要融合文本的抽象推理与视觉的具象感知,才能构建出真正全面、鲁棒的智能体系。这条探索之路刚刚开始,但其指向的未来已足够令人期待。
lg
...
证券之星
4小时前
谷歌
Gemini
3模型预计今年发布,科创AIETF(588790)调整超2%
go
lg
...
,谷歌正准备推出其下一代人工智能模型
Gemini
3,公司 CEO 桑达尔・皮查伊在最新财报电话会议上确认,该模型将于 2025 年发布。 11月2日上午,第十五届全国运动会火炬传递在港澳广深同步举行。与历届全运会相比,本次火炬传递首次在组织形式上实现“三地联动、四城同传”,并在传递方式上引入智能科技元素。“夸父”人形机器人作为特殊火炬手在深圳亮相,手握1.6kg重量的火炬,完成第二棒与第三棒之间的传递。 中信证券研报认为,随着四中全会结束、中美会谈取得阶段性成果、三季报披露完毕,往后看,结构性机会仍存,择时重要性有限,建议围绕传统制造业的提质升级、中企出海、端侧AI三个方向继续布局,短期可以关注三季报后出现的几个阶段性超跌反弹线索。 规模方面,科创AIETF最新规模达61.28亿元,位居可比基金1/10。 份额方面,科创AIETF近半年份额增长29.58亿份,实现显著增长,新增份额位居可比基金1/10。 科创AIETF紧密跟踪上证科创板人工智能指数,上证科创板人工智能指数从科创板市场中选取30只市值较大的为人工智能提供基础资源、技术以及应用支持的上市公司证券作为指数样本,以反映科创板市场代表性人工智能产业上市公司证券的整体表现。 数据显示,截至2025年9月30日,上证科创板人工智能指数前十大权重股分别为澜起科技、芯原股份、寒武纪、金山办公、石头科技、晶晨股份、恒玄科技、云天励飞、复旦微电、乐鑫科技,前十大权重股合计占比71.9%。 (文中个股仅作示例,不构成实际投资建议。基金有风险,投资需谨慎。) 以上产品风险等级为:中高(此为管理人评级,具体销售以各代销机构评级为准) 风险提示:基金不同于银行储蓄和债券等固定收益预期的金融工具,不同类型的基金风险收益情况不同,投资人既可能分享基金投资所产生的收益,也可能承担基金投资所带来的损失。基金的过往业绩并不预示其未来表现。投资者应了解基金的风险收益情况,结合自身投资目的、期限、投资经验及风险承受能力谨慎决策并自行承担风险,不应采信不符合法律法规要求的销售行为及违规宣传推介材料。 以上内容与数据,与有连云立场无关,不构成投资建议。据此操作,风险自担。
lg
...
有连云
昨天10:36
Gemini
3将于今年发布,AI人工智能ETF(512930)今日回调蓄势
go
lg
...
,谷歌正准备推出其下一代人工智能模型
Gemini
3,公司CEO在最新财报电话会议上确认,该模型将于 2025 年发布。 全球来看,AI人工智能长期发展趋势不变。目前海外市场已经进入AI带动业绩和资本开支的良性循环,随着国产AI生态正在不断完善,近期国内AI人工智能产业链也在明显加速,无论是大模型、算力还是应用,也在出现加速迹象。AI人工智能ETF(512930)全面覆盖AI产业链中算力、模型、应用环节,有望长期受益。 截至2025年11月3日 09:47,中证人工智能主题指数(930713)下跌1.15%。成分股方面涨跌互现,三七互娱(002555)领涨10.01%,三六零(601360)上涨7.10%,昆仑万维(300418)上涨2.24%;石头科技(688169)领跌4.78%,澜起科技(688008)下跌4.04%,恒玄科技(688608)下跌3.91%。AI人工智能ETF(512930)下跌1.41%,最新报价2.1元。拉长时间看,截至2025年10月31日,AI人工智能ETF近2周累计上涨7.90%。 费率方面,AI人工智能ETF管理费率为0.15%,托管费率为0.05%,费率在可比基金中最低。 跟踪精度方面,截至2025年10月31日,AI人工智能ETF近3月跟踪误差为0.009%,在可比基金中跟踪精度最高。 AI人工智能ETF紧密跟踪中证人工智能主题指数,中证人工智能主题指数选取50只业务涉及为人工智能提供基础资源、技术以及应用支持的上市公司证券作为指数样本,以反映人工智能主题上市公司证券的整体表现。 数据显示,截至2025年10月31日,中证人工智能主题指数(930713)前十大权重股分别为中际旭创(300308)、新易盛(300502)、寒武纪(688256)、澜起科技(688008)、中科曙光(603019)、科大讯飞(002230)、海康威视(002415)、豪威集团(603501)、金山办公(688111)、浪潮信息(000977),前十大权重股合计占比63.29%。 AI人工智能ETF(512930),场外联接(平安中证人工智能主题ETF发起式联接A:023384;平安中证人工智能主题ETF发起式联接C:023385;平安中证人工智能主题ETF发起式联接E:024610)。 以上内容与数据,与有连云立场无关,不构成投资建议。据此操作,风险自担。
lg
...
有连云
昨天09:56
【美股收评】亚马逊业绩强劲引领科技股反弹,华尔街迎来10月完美收官
go
lg
...
的采用正在加速,这使得在增强计算能力和
Gemini
功能上的资本支出变得值得。随着我们明年超过6000亿美元的资本支出计划已落实,这将成为关键指标。” 受亚马逊业绩提振,华尔街投资者周五纷纷买入其他AI概念股。人工智能软件公司帕兰提尔(Palantir)上涨3%,AI领域领先企业甲骨文(Oracle)上涨2.2%。 马尔伯里补充道:“投资者将密切关注这些资本支出如何反哺至各家公司、转化为不断增长的AI销售额。” 此外,流媒体巨头奈飞(Netflix)宣布进行1拆10的股票分割后,股价上涨2.7%;电动车制造商特斯拉(Tesla)亦表现亮眼,股价大涨逾3%。 美股本周及10月份整体表现强劲。标普500本周上涨0.7%,纳指与道指分别攀升2.2%与0.8%。在历来以剧烈波动著称的10月份,标普500本月累计上涨2.3%,纳指大涨4.7%,道指上涨2.5%,创下自2018年以来首次连续六个月上涨的纪录。
lg
...
Linlin
11-01 04:24
Coinbase财报再度超预期,靠“上市先发优势”领跑加密市场 但华尔街警告:竞争大潮正逼近
go
lg
...
可能面临日益加剧的压力。 竞争者集结:
Gemini
、Bullish、Kraken接连上市 加密市场的“上市潮”正在成形。 由泰勒与卡梅伦·文克莱沃斯兄弟(Tyler and Cameron Winklevoss)创立的
Gemini
交易所,已于9月在纳斯达克上市; Bullish于8月成功挂牌; 而Kraken则计划在2026年上半年公开上市。 这一系列动作被视为加密交易所市场走向成熟的重要标志,也对Coinbase的市场统治地位构成迄今最严峻的挑战。 华尔街观点:机构信任仍强,但零售前景承压 派杰桑德勒(Piper Sandler)分析师指出:“Coinbase已确立了其作为全球机构最信任的加密公司地位。然而,随着竞争上升及用户希望交易的不仅仅是加密资产,我们对其零售业务前景保持谨慎。” 根据CoinMarketCap数据,Coinbase目前在全球现货交易所中排名第三,仅次于币安(Binance)与Bybit。 该公司在周四收盘后公布的第三季度财报中,再次超出华尔街盈利预期,得益于交易量激增带来的强劲营收。 管理层表态:监管利好推动增长,也引来更多竞争 在财报电话会议上,首席执行官布莱恩·阿姆斯特朗(Brian Armstrong)表示:“美国及全球范围内的监管透明化(regulatory clarity)正在开始发挥效应,推动整个加密行业增长。但这也意味着大量新竞争者将涌入,我们必须确保自身执行力足够强。” 首席财务官阿莱西娅·哈斯(Alesia Haas)则补充说:“我们一直面临竞争,但Coinbase持续扩大市场份额、业务规模与交易量。”
lg
...
埃尔瓦
10-31 21:53
【一周科技动态】AI五巨头财报同场竞技:Capex狂奔下谁花钱最聪明?
go
lg
...
资被爆混乱)的涨幅最小,GOOGL(因
Gemini
市占率回升)和AAPL(iPhone17系列反馈超预期)奋起直追的趋势相当强,而MSFT(财报前与OpenAI的合作)已经Price-in了不少涨幅,因此从AI给投资者带来的回报综合来看,我们认为Q3财报季: AMZN>GOOGL=AAPL=MSFT>META 云业务 AI需求推动三大云增速回升,但Azure/GCP增长更快于AWS,反映市场份额转移。从Synergy Research和Canalys等2025 Q3的估算,过去8季度,Azure/GCP从AWS手中抢占~3-4%份额。2025市场总增长~35%,但份额转移反映GCP/Azure在生成式AI上的竞争力更强。 Azure: 过去8季度稳定加速,从28%升至40%,受益于AI整合(如Copilot)和大型企业合同(如OpenAI)。需求超过供给,产能扩张驱动,Azure增速没超预期主要也是产能受限。 GCP: 从22%加速至34%,AI产品(如
Gemini
)贡献显著,过去两年签下更多$B级别合同。Q3 2025 backlog激增46%至$155B(包括OpenAI和Meta合同),暗示未来加速。 AWS: 增速从低谷12%回升至20.2%,但相对Azure/GCP较慢。Q3加速得益于AI(如Trainium芯片使用率+150% QoQ)和backlog增长,但面临竞争压力。 AAPL Services: 稳定在11-16%,iCloud增长贡献有限(Services更依赖App Store/音乐/视频),非核心云,不具可比性。 Capex 所有公司Q3/FY26 Q1 Capex均上升,反映供给追赶需求。2025全年预期上调,2026进一步增加(除AAPL相对保守)。本季总Capex~$100B+,2025六大玩家的总和可能超过$570B,2026 年目前的预期已经超过$660B(偏向上行),这可是真金白银的现金支出。 利润率 三大云段位margin强劲,但分化——GOOGL GCP margin扩张最快(AI ROIC显现),MSFT稳定(效率抵消投资),AMZN收缩(重投AI基础设施)。剔除后,AI需求推动规模经济,但持续Capex可能进一步压margin(e.g., MSFT供给约束延至FY26末) 为何要关注FCF? 因为大科技公司纷纷表示在2026年Capex加速,这就更需要强劲的现金来支撑。META已经率先开始发债(投资者认购积极),接下来而 截至25Q3的财报,各家公司的过去12个月的FCF分别为: AAPL($98.8B)> MSFT($86.5B)> GOOG($73.5B)> META($42.7B)> AMZN($14.8B)。 而当CapEx接近或超过 FCF,则自由现金流将被严重压缩,则无论是运营压力还是回购等操作,压力较大。 对应上述的Capex预期,AAPL和MSFT目前相对稳健可控,GOOG与META因为Capex投资较多也面临较大压力,AMZN则最为紧张。考虑到2026-2030年AMZN有集中大量的债要到期,很有可能紧接着进一步发债融资。 期权观察家——大科技期权策略 本周我们关注:英伟达暴涨抢下本周风头? 本周NVDA虽然不是财报周,但是GTC大会反而抢了其他大科技公司风头,也一度吸引巨量资金流入。本次GTC以“AI世纪的蓝图”为主题,强调从软件工具向“AI工厂”的工业革命,发布多项硬件、软件及生态公告,强化NVIDIA在AI基础设施的主导地位,更重要的是更新了出货预期,直截了当地告诉市场——你们之前的预期都太低了! 核心亮点包括:Blackwell GPU已在亚利桑那本土工厂全面生产,已出货600万片,订单达1400万片;下一代Rubin GPU订单启动,总backlog超5000亿美元,覆盖2025-2026年,相当于2000万片GPU,远超预期(下一五季度交付4000亿美元 vs. 共识3000亿美元)。推出开源NVLink架构,支持GPU与量子芯片融合;与Nokia、T-Mobile合作投资10亿美元开发AI原生6G基站;为美国能源部构建7台AI超级计算机;与Uber合作从2027年起部署10万辆自驾车;RoboForce TITAN机器人获1.1万份意向书。大会议共扩展40多项伙伴关系,覆盖电信、机器人、量子计算、医疗等领域,预测全球数据中心支出达3万亿美元。 因此NVDA也在本周首先成为市值突破5万亿美元的公司。 从期权方面看,尽管近期的期权分布并未有太大的变动(11月),财报周(11月21日当周)的Call分布仍大量集中在现价200以下。但是12月到期的期权市场已经把预期抬高至230以上,也反应了当前投资者对年底行情重启的期望。 给个持仓大科技股的理由——为何"TANMAMG"组合总超大盘? 七巨头(Magnificent Seven)组成一个投资组合(“TANMAMG”组合),等权重、每季度重新调整权重。回测结果从2015年以来表现是远超标普500的,总回报达到了2959.19%,同期SPY回报286.47 %,超额收益2672.72%,仍然在高位。 今年以来大科技收益再创新高,回报为19.24%,超过 $标普500ETF(SPY)$ 的13.71%。
lg
...
老虎证券
10-31 17:16
特朗普要自己开赌场了
go
lg
...
David Sacks、加密交易平台
Gemini
的创始人 Winklevoss 双胞胎,以及科技投资人 Chamath Palihapitiya 都名列其中。 更引人注意的,是政府高官的集体现身。 Executive Branch 的启动派对上,至少有 6 位特朗普政府的内阁级官员到场,包括国务卿 Marco Rubio、司法部长 Pam Bondi、证券交易委员会(SEC)主席 Paul Atkins、联邦贸易委员会(FTC)主席 Andrew Ferguson、联邦通信委员会(FCC)主席 Brendan Carr 和国家情报总监 Tulsi Gabbard。 除此之外,联邦调查局(FBI)副局长 Dan Bongino 也现身现场,与多位硅谷公司的首席执行官、创始人一同举杯。 聚会现场|图源:Axios 一位俱乐部内部人士后来在接受采访时透露,他们刻意拒绝媒体与游说者的加入,只希望在一个「绝对私密」的环境里,让人们可以毫无顾忌地交谈。 这种所谓的「隐私对话」的价值,恰恰在于它能有条不紊地绕开现行的政治监督框架。 按照美国《游说披露法》,游说活动需要公开记录对象、议题和支出,但 Executive Branch 俱乐部的闭门聚会显然不在披露范围内。同样,它也不受《联邦咨询委员会法》的约束。 换言之,那张 50 万美元的入场券并非一张普通门票,而是一张能直接通往权力核心、绕过制度审查的通行证。 这种模式让人很难不联想到特朗普的第一个总统任期内,位于华盛顿的特朗普国际酒店。 那座金色立面的建筑,在当时几乎成了权力的中转站。 政府官员、共和党议员、外国政要和商界领袖在这里频繁出入,酒杯之间的寒暄往往比会议更有效。《华盛顿邮报》的调查显示,在特朗普任期期间,至少有 22 个外国政府的官员入住过那家酒店,而特朗普本人也因此被指控违反美国宪法中的「薪酬条款」。 但与那家酒店不同,Executive Branch 俱乐部更加隐秘,也更昂贵、更排他。特朗普酒店毕竟是一个半公开的商业场所,宾客的出入仍可能被媒体捕捉到。而在 Executive Branch,所有的会面、对话与交易,都发生在「隐私」的保护之下。 当 1789 Capital 既是 Polymarket 的投资方,而小特朗普本人又同时担任这家俱乐部的创始人与 Polymarket 的顾问,一个闭环式的利益网络便隐约成形。 更微妙的是,在这家俱乐部的会员名单里,既有 SEC 主席和司法部长这样的监管者,也有预测市场的投资人和平台高管。当监管与被监管、投资与被投资的人出现在同一张酒桌上,所谓的「界限」,就变得无从谈起。 专门监督美国行政部门官员任命与行为的机构「旋转门项目」(Revolving Door Project)执行董事 Jeff Hauser 对此公开表示质疑。 他指出 Polymarket 本身已经是一个充满政治争议的主体,而特朗普家族的双重身份既能影响监管方向,又可能从监管的松动中获益,这使得权力与资本之间的界限变得模糊不清。这种重叠关系,正是典型且本应被严格规避的「利益冲突」。 针对外界的质疑,白宫新闻秘书 Karoline Leavitt 回应称,总统及其家族「从未,也永远不会参与任何利益冲突」。 不再未知的未来 预测市场的理论基础可以追溯到诺贝尔经济学奖得主弗里德里希·哈耶克提出的「知识分散」理论。 哈耶克认为,价格不仅是交易的结果,更是一种社会信号,它能够把分散在无数个体之间、零碎而局部的知识汇聚成整体的信息系统。 预测市场正是这一思想的延伸,通过让人们以真金白银下注未来,它试图把分散在人群中的判断与信念,凝结成一个被价格表达的概率。 但哈耶克的理论有一个常被忽略的前提。市场之所以能聚合知识,是因为信息在参与者之间相对分散。 当少数人掌握了压倒性的信息优势时,价格不再代表集体智慧,而只是权力与资源流向的映照。那时,市场就会从知识的聚合器,退化为财富的转移工具。 那笔出现在诺贝尔奖公布前的精准押注,并没有证明市场的效率,而是在提醒人们,所谓的市场理性,有时只是少数人掌控的信息幻象。 预测市场的核心承诺是把不确定的未来变成一种可交易的资产。这个承诺建立在一个根本的假设上:未来是未知的,所有参与者都在用自己掌握的局部信息去猜测未来的走向。 但对于那些真正掌握权力的人来说,未来在很大程度上并不算是未知的。对他们而言,所谓的「预测」从来不是在「猜测未知的未来」。 当司法部长可以决定是否起诉 Polymarket,SEC 主席能够重新划定整个行业的监管边界,而这些决策者的家族成员同时又深度参与、直接持有这一市场的投资利益时,他们所交易的,便已不再是不确定的未来,而是由自身权力所定义的「确定性」本身。 Truth Predict 的推出让这一逻辑被推向极致。当平台的运营者,其家族成员本身就有能力左右这些事件的结果时,「预测」这个词便失去了意义,它不再指向未来的不确定,而只是权力对结果的提前定价。 从左到右依次为维韦克·拉马斯瓦米、俄亥俄州参议员伯尼·莫雷诺(共和党)、奥米德·马利克、副总统J.D.万斯以及小特朗普|图源:POLITICO 区块链技术能够让所有交易都被记录在公开账本上,似乎人人都能追溯每一笔下注的来龙去脉。但这种透明仅止于钱包地址的可见,而非背后操盘者的身份。 没人知道诺贝尔奖公布前的几小时里是谁在 Polymarket 精准下注,没人知道在政策发布前是谁在 HyperLiquid 精准开单。 未来,当同样的逻辑被复制到 Truth Predict 上,当一个由总统家族直接或间接主导的平台允许人们对选举、利率与战争下注时,交易的透明已不再重要。真正重要的,是谁能提前知道结果、甚至让结果照着自己的意愿发生。 而这些答案大概只存在于 Executive Branch 俱乐部这个被「隐私」守护的角落里。
lg
...
财经智选
10-31 05:02
CZ投了一个华人大三学生,1100万美元种子轮,做教育Agent
go
lg
...
其次,团队非常优秀。James 来自
Gemini
,在谷歌就是做 AI 工程和算法的核心工程师。我本人有三次教育创业经历,从大一开始就创业做教育软件,在大二期间参与创建 MathGPTPro 其中项目入选奇绩创坛等。有成功打造教育产品的经历。 第三点,我们做的 AI 教育领域,核心是动画引擎,而我们是 VideoTutor 的核心开发者,是最了解核心技术的团队,能把动画引擎做到十分精准的渲染。 团队本身有非常好的 marketing 基因,知道怎么做传播。 VideoTutor 非常符合美国主流 VC 的一个投资共识,叫「小天才团队」,指的就是这个领域比较适合年轻人去做,再加上有非常好的工程化动手能力,以及 founder 本身有非常好的 insight 和经验,执行力非常快。我觉得这是所有投资人都能看好的一个共识性的原因。 VideoTutor 在 YZi Labs EASY Residency Demo Day 登上纽交所 Founder Park:你们的产品想解决教育里行业的哪个核心问题? Kai:市面上目前的学习产品,可以归为两类:主动学习产品和被动学习产品。被动学习产品,像字节的 Gauth、Chegg、AnswersAi 等,覆盖了我们称之为「作业解答」(Homework Help)的场景,学习链路非常短,主要是学生付费来做作业解答。 而 VideoTutor 覆盖的是主动学习场景,我们不需要考虑学生的学习动机,因为他们必须要去学习、要去考试,比如美国高考 SAT、AP。在这个场景里,有大量可视化的痛点需求,美国高考 80% 的内容都涉及函数、微积分等需要复杂图像渲染的知识。VideoTutor 的动画引擎就能非常好地解决这个场景。 而且,这个领域的客单价非常高。美国平均每年有 260 万名学生要参加 SAT 考试,付费需求很大。线下的 SAT 课程收费很贵,不是按套餐,而是按小时收费,平均每小时 150 美金起步,大部分收费在 230 美金。很多学生和家长都会付费学习。但是 VideoTutor 能够很好地平移甚至取代老师的培训,因为现阶段 AI 生成的视频和老师培训的内容几乎没区别了。这样一来,学生能以最低的成本拥有一个自己的 AI 个性化备考老师。 Founder Park:你们当时决定做这个产品的契机是什么? Kai:其实在我们之前,斯坦福已经有个团队做了,叫 Gatekeep Ai。他们当时也想做可视化学习。我当时已经意识到这个方向的影响力了。前几次创业时,大家做的教育产品基本上都是接上 GPT 的 API,类似于一种 ChatGPT Wrapper 的产品。但我们发现,仅仅基于文字问答,这类产品是有天花板的。可以看到,像 Chegg、Gauth 的业务都在下降,很大一部分场景都被 ChatGPT 取代了,因为学生付费 20 美金用 ChatGPT 就能解决很多作业问题。 基于 API 套壳、做优化层面的产品已经到了天花板。 但多模态视觉生成有非常大的前景,因为在美国高考这个领域有非常多可视化学习的场景。可惜 Gatekeep 开了个好头,但没有继续下去,因为它推出得有点早,当时的基础模型编程能力还没成熟,GPT-4 也还没发布。再加上数学动画引擎涉及到渲染和算法,他们没有攻克。但我们团队掌握了动画引擎的所有核心开发,解决了这个问题,让视频渲染非常准确。 PMF:用户付费意愿很强 Founder Park:你们当时产品上线后,跟几个学校也达成了合作。在你们看来,是什么时候或者哪个功能让你们觉得「我这个产品做对了,痛点找对了」,感觉自己找到了 PMF? Kai:可以从三个维度来说。 首先,从营收指标维度,到现在为止 VideoTutor 已经收到了 1000 家企业的 API 请求,包含了美国所有知名的大型教育机构,甚至国内的机构。此外,还有很多学校想要购买服务。C 端用户的意向更直接,有个学生家长,也是个投资人,他体验完产品后,把产品给了所有亲朋好友试用,所有人都愿意付费。然后他不知道从哪拿到了我的电话,给我发短信想要投我们。C 端用户有非常强烈的付费意愿。 第二点,从用户需求层面。为什么美国线下一对一的 Tutor 教育那么刚性?因为家长觉得一对一教学效果好,愿意付这个钱。现在多模态 AI 技术已经能拟人化地做到一对一的教学效果,所问即所答。而且,美国线上一对一教学老师录的视频课,其实跟 AI 生成的视频没区别了。这就是我说的「需求平移」,学生花大价钱买的录播课程,跟我 AI 生成的没区别,那为什么不用 AI 呢?成本更低,教学效果更好。 我们收到了很多学生非常正向的反馈,很多老师也愿意传播这个产品,前期的完播率和使用时长都特别好。我们现在筛选出的 200 个种子用户,都是早期积累的。 第三点,就是一种产品的 taste 和 sense。当你不断地做,从整个教育行业的进步、到学生和家长付费的核心需求点、再到产品自身的进化,倒推回来想,整个逻辑是闭环的。所以从这三个维度来看,你就觉得 PMF 已经足够了。最核心的就是,付费意愿非常非常强。 跟 FIZZ 达成了合作 Founder Park:很多用户主动想付费,也有人主动联系你们想投资。 Kai:对。SAT、AP 这个领域,付费意愿本来就很强。这个领域的客单价都高达 100 到 200 美金起步,线下上课更贵,可能要 800 美金。美国有 260 万名学生要考 SAT,其中 37% 的学生都会主动付费,这是一个付费意愿和需求都非常强的市场。我们的产品能实现非常好的需求平移。 Founder Park: SAT 这个赛道,对考生来说,一个真人老师和一个 AI,他会信任 AI 吗? Kai:现在 AI 回答像美国高考 SAT、AP 这种水平的问题,基本上不太会出现事实性的错误。在这种情况下,它为什么比线下 tutor 更好?一个是便宜,二个是学生有任何问题都能不断提问,不用担心问了笨问题老师会有看法或者不耐烦,可以 24 小时随时随地学习。 而且这个市场是可以平移的,做完美国市场,我们还可以平移到加拿大、英国的 A-Level 考试等等,付费需求非常大。 Founder Park:付费这块你们现在怎么考虑? Kai:我们是包月订阅,还有一种是按学习结果付费。我觉得现在 AI 已经可以做到按结果付费了。我们可能会推出一个套餐,比如你付 799 美金,我们保证你的孩子 SAT 数学能考满分。 Founder Park:但是按考试结果付费,不是还要看学生个人的能动性吗? Kai:这个在国内高考可能做不了,因为高考考核点非常多,有上千个。但美国高考 SAT 只有 62 个考点,其中 50 个是常规考点,大部分学生都没问题,剩下的 12 个考点也基本能掌握。除非这个学生的逻辑水平确实有问题,否则基本不存在学不会的情况。而且 AI 的提效效果非常明显。 其实很多美国在线 tutor 也有这个服务,你付给老师 1800 美金,老师辅导孩子,成功率基本是 100%,因为 SAT 考点是固定的。只要学生智商水平正常,基本都没问题。但高考不行,高考没办法短期内提上来。而且国内高考需要拉开分数差距,会有难题,但美国高考不存在绝对的难题,因为它更多是考察你是否掌握了知识点。 按结果付费也是之前教辅老师已经在用的模式,具备这个前置条件。 Founder Park:那你们的定价里,模型成本会是一个困扰吗?占比高吗? Kai:我们这个领域的客单价定价非常高,都是 69 美金一个月起步,模型成本现在很便宜,不成问题。教育这个行业不像 coding 领域,大家都在卷价格,因为 coding 需要支持很长的上下文。 面向高中生的产品,网页端最重要 Founder Park:记得你上次说,你们第一版的原型差不多只花了两个多月的时间。当时整个开发周期,比如分工、决定做哪些功能、不做哪些功能,是怎么考虑的? Kai:我们团队所有人的共识就是,迭代要快,因为快才能快速得到早期用户的反馈。 第一个版本在推特上发了之后引起了很大轰动,带来了大量用户。但这些用户里,很多是程序员、投资人或者科技爱好者,我们可以统称为「技术尝鲜者」。在那个阶段,从他们那里得到的反馈比较分散,价值不大。还是要从这么多广泛的用户里,筛选出真正核心的种子用户,也就是高质量的高中生,然后通过咨询的方式获取有用的反馈。 我们得到的核心反馈就是,视频渲染的精确性必须达到 100%,这是需要优化的重中之重。UI 是否好看,或者是否支持不同的 TTS 声色选择这些功能,都被我们砍掉了。回归到产品的核心:我们做的是理科场景的知识学习,那么图形渲染的精确性就是核心。 Founder Park:生成时长当时是怎么取舍的? Kai:那时候最高的峰值时长大概是 6 分钟。当时的主要考量是,普通题目的讲解和知识点讲解不应该超过 6 分钟。但后续的反馈中,我们发现有些学习能力不是那么好的学生,希望内容讲得慢一点、深入一点。我们意识到时长不应该做限制,更多还是取决于用户的学习能力。 Founder Park:现在最长能到多长时间? Kai:最长应该在一个小时以内,可以一直打破砂锅问到底。边交流边实时生成,不过这个功能是最近上的,最开始的版本是没有的。 Founder Park:有没有当时想做,后来发现没那么重要就先不做的功能? Kai:比如说 App。当时觉得是不是要快速开发 App,但后来发现美国大部分学生基本上都是用 Laptop 或者 iPad 学习,美国大部分 K12 学校都会给学生发一台 Chromebook 电脑,电脑高度普及,他们的作业也都是在电脑上完成。高中生基本上人手一台电脑,手机在学习场景的占比不到 5%,比例很低。 Founder Park:所以如果是一款主打教育或者学生群体的产品,网页端是首先要做的,App 反倒没那么重要。 Kai:对,当时其实已经知道这个数据了,毕竟在美国上学多年。后来我们从早期的几万名用户里挖了 100 个学生做调研,这 100 个学生里面 90 多个都有电脑,所以我们更加确信了这一点。 Founder Park:你们上线第一个版本时,也是瞄准 K12 群体来做的吗? Kai:是的,之后也是瞄准这个群体。我们跟 Gauth 不算竞品,我们更多的是做考试培训场景。美国大量高中生本身就会选择线下培训或者在线学习平台,而 VideoTutor 很好地把这个需求平移了过来。 Founder Park:K12 会是你们起码一年内的核心用户群体吗? Kai:应该是两年以内的核心指标。 用大模型,但不只依靠大模型 Founder Park:简单介绍一下你们现在的技术实现方案吧?VideoTutor 在生成课程、图表这块确实做得比其他视频生成模型好很多,甚至在很多模型连文字都无法准确生成的时候,你们的技术让人很惊喜。 James:我们生成的视频既有文字也有图案。大概的生产流程就是:让大语言模型去生成文字和对应的动画指令,然后动画指令再经过我们的动画引擎渲染,最终呈现在视频上。 文字部分相对简单,我们让大语言模型生成文本,然后直接渲染上去。但动画部分,是我们自己的一个数学动画渲染引擎生成的。它的优点在于渲染坐标轴、几何图形等内容的精确度非常高,而这正是我们的核心技术所在。 现在的大语言模型输出的只是文本,我们做的这套 agent 就相当于给了大语言模型一张纸和一支笔,让它能把它想象中合适的教学动画给画出来。画出来的那一部分,就全是我们的技术了。 Founder Park:整个视频最后的合成,包括音视频,是怎么处理的? James:一开始用户会传入一个 prompt,比如「什么是勾股定理?」。第一步,我们让大语言模型去推理所有场景,一般会规定 3 到 5 个场景,这取决于问题的难度。然后,模型会为每个场景生成大致的脚本。接着,再根据每个场景的脚本做第二次推理,生成场景中的文字、对应的图案和人声的文本。人声文本再用 TTS 合成。 最后,我们把所有场景拼接起来,组成一个完整的视频。 Founder Park:我理解第一版是这样的方案。现在加入了随时可交互的过程之后,生成过程是不是也有变化了? James:确实有变化。我们现在为了让用户能最快看到内容,会先生成第一个场景,让用户先看,后面的场景则在后台继续渲染。当用户提出问题时,我们会将他的人声转换为文本,然后把这个文本连同之前所有场景的内容一起交给大语言模型去推理,让它规划接下来的教学场景。后续场景的渲染流程就和之前一样了。 Founder Park:如果用户在听到一分钟时有个问题,他会直接提问。你们收到提问后,就把用户的提问和之前讲过的内容一起返回给模型处理。在这个过程中,用户提问完之后,动画是继续播还是会停下来? James:我们现在的延迟已经从一开始的二三十秒,压到了 5 秒以内。在交互上,我们会做一些过渡,让用户不会过多地关注这 5 秒,整个过程的衔接会比较丝滑。在 4-5 秒内,他就能看到根据他问题全新呈现的内容。 目前阶段的设计是,AI 老师会说:「嗯,我考虑一下」,然后把黑板一擦,就像真实模拟老师一样。你觉得讲得有问题,那我就擦掉重新给你写一遍,这样的流程会感觉比较自然。 而且我们不只是被动地等待用户提问,中途我们也会做 Quiz。我们会根据 Quiz 的反馈和用户的问题进行推理。而且我们不是完全自由麦,而是需要用户主动打开麦克风,有一个开启和关闭的动作。 Founder Park:所以基于这样的机制,最长大概能生成一个小时的讲解。 James:准确来说是没有限制的,如果他一直有问题,就可以一直问下去。 Kai:对,没有预设限制。其实 VideoTutor 做这个方向,也是随着多模态 AI 的进步,我们并不是在创造需求,而是在更好地满足已有的需求。你看线下的真人教育,为什么美国家长愿意付很贵的钱?因为美国教培行业更多是一对一教学,每小时 100 美金起步。就是因为线下的老师能做到引导式提问,我能观察到你哪里不会,然后接着问你。VideoTutor 也是尽量去实现这种真老师的教学效果,让每个孩子都能做到实时互动、实时教学。 Founder Park:学生上课时,会要求开启摄像头吗? Kai:不太会。学生是否开摄像头主要取决于美国的隐私法案。产品里面不太会设计强制开启的功能,是否开启取决于学生的意愿。主要的交互还是通过提问和语音反馈。 Founder Park:技术上,你们是采用小模型和云端大模型配合的策略,还是怎么样? Kai:是一种配合。我们内部有一个数据集,现在已经有超过 10 万多条的视频数据。这些数据中比较好的都会被人工进行二次标注,然后用来训练微调模型。比如我们现有超过 8000 条的 SAT 样本训练数据。这些微调过的小模型会配合云端的通用商用模型像 Claude、
Gemini
来做。 Founder Park:用 Claude、
Gemini
还是 GPT,会对产品的核心性能有影响吗? Kai:我们主要涉及 K12 领域,基础模型的水平已经足够了。但为了确保 100% 正确,我们会调用两个模型同时校对,如果两个模型答案一致,那基本就不会出错。在代码生成方面,更多还是以 Claude 为主,它的代码能力比较好。 Founder Park:现在产品的技术瓶颈在哪?是模型能力还是代码生成? Kai:模型能力是其中一环。还有就是渲染,现在已经攻克到 5 秒以内,随着 GPU 的更多部署还能更快。另外一个就是长期记忆能力。我们需要对学生进行长期的学习行为数据积累,知道这个学生有哪些知识点不懂,比如一个月前学的知识点忘了,可以重新提醒他。 James:我们在渲染时间上其实下了很多功夫,一直在做技术突破,从一开始的 2 分钟到 1 分钟,再到现在的 10 秒以内。我们最终的目标是希望能做到基本没有延迟的渲染,用户一问,推理一结束马上就出结果。这是我们团队目前在攻克的一个难题,但已经找到了新方向。 不看完播率,只看最终考试分数 Founder Park:现阶段怎么衡量产品的核心指标?怎么判断一个视频对用户是有用的? Kai:最核心的一个指标就是考试。在新版本里,你看完视频,结尾会有一个 quiz,做对了就证明你理解了,没做对就证明没讲明白。 学习效果没办法只看完播率,有些学生可能看一半就懂了。在他看一半的时候给他做个测试,通过了,剩下的就不需要看了。我们产品的核心指标,就是看多少学生在这里提高了分数。 Founder Park:但他最终的考试是在别的场景完成的,你们怎么得到他是否通过的这个结果? Kai:这就要说到美国的产品文化,就是用户使用产品后,得到好的结果,会有一种自发性的分享。很多学生用完 VideoTutor 考完 SAT 后,会主动过来分享他们的使用体验和成绩。我们还会让他们成为校园大使,进行二次传播。 我们有 20 个高中生组成的校园大使。其实你看 Mercor 早期非常成功,用的就是典型的「用户成功故事」模式。Mercor 早期帮很多印度程序员找到了美国的工作,然后他们就会联系这些用户,给他们拍一个 user story,讲怎么用 Mercor 找到工作的。这形成了很好的口碑传播。VideoTutor 也是一个道理,我们要的就是更多学生使用产品后达到非常好的效果,然后把这些学生的经历做成 user story 分享出去。 Founder Park:学生主要分享的渠道是在哪? Kai:学生主要在 TikTok,家长在 Facebook 的群组里。 Founder Park:如果把时间放到半年或一年的时间维度,你们规划的产品增长方式是怎样的? Kai:我觉得本质上,VideoTutor 核心还是一个 C 端用户产品,口碑传播非常重要。很多成功的 AI 应用早期都是靠种子用户的口碑,比如设计师用了觉得好,就传播开了。对我们来说,核心指标就是有多少 SAT 考生用了这个产品后考了高分,然后传播给其他孩子和家长。家长主要用 Facebook 和 Instagram,学生用 TikTok,我们会在这些平台上传播。当形成这种共识性的口碑时,学校老师自然而然就会意识到。我们早期能被这么多学校知道,就是因为很多老师用了觉得不错,推荐给了学校的采购负责人。所以,最核心的还是 C 端用户的口碑传播,多少孩子用了之后提高了分数是关键指标。 Founder Park:新版本大概的状态和推出的时间规划是怎样的? Kai:我们希望最快在两个月以内正式 public release。届时学生能够以很低的延迟做到所问即所答,并且理科场景的图形渲染能做到 100% 准确。当然,我们暂时不会覆盖竞赛场景或者像线性代数这种复杂的大学知识,更多还是覆盖 K12 领域。 Founder Park:VideoTutor 现在的壁垒或者护城河是什么? Kai:我觉得有几点。第一是数据飞轮。视频背后都是代码,用户生成的好的视频数据,经过二次标注后,就能被重新训练微调模型。越多的数据,视频效果就越好。另外就是学习行为数据,我们知道不同学生哪个知识点薄弱,就能建立起数据飞轮,越多人用,产品就越懂学生。第二是领先的技术优势,比如动画引擎的算法。虽然算法本身不是最核心的优势,但随着我们快速迭代,数据越来越多,优势会更明显。 第三是品牌,VideoTutor 已经在北美家长圈里成为 AI 教育领域的一个头部品牌了,家长的信任度也是一种无形的壁垒。 Founder Park:三到五年后,你预期 VideoTutor 最终会成长成一个什么样的产品? Kai:我们希望未来 VideoTutor 能成为每个人学习理科知识的 AI 老师。我们只做理科。我觉得未来它会超过多邻国。多邻国是一个世界级的语言学习产品,但在 STEM 理科场景,过去一直没有出现世界级的产品,因为理科需要太多图形渲染。现在基础模型的技术已经 ready 了,所以我觉得理科场景会诞生下一个「多邻国」。 招人,尤其想要国内大厂出来的人 Founder Park:你之前有过几次创业经历,大概都是做什么的? Kai:我现在大三。大一的时候就和 James 一起创业做教育产品,拿了 20 万美金的天使投资。虽然那次失败了,但学到了宝贵的经验:你不能陷入同质化的竞争。当时我们做的 App,市面上有很多同类产品,早期就不得不陷入投流竞争,很难收费。 第二次创业,我是作为联合创始人加入另一个团队 MathGPTPro,待了几个月。在那个阶段,我学到了怎么看产品指标、如何打造产品、怎么做用户扩展。也是在那个时候,我得出一个结论:基于文字类的解答型教育产品已经到头了。因为它和 ChatGPT 没什么区别,而且过去像作业帮花很大代价做的结构化知识题库,也被大模型的编辑能力取代了。所以第三次创业,我就知道,可视化是必然的趋势。 赵凯在哈佛大学跟 Sam Altman pitch 的合影 Founder Park:过去的两段经历,除了让你认识到文字类产品的局限,在团队或其他方面,对你现在做 VideoTutor 有什么帮助吗? Kai:有很大帮助。 第一点,更好地判断方向和产品是否有未来。我会通过看竞品的网站流量、营收,来判断整个产品的进化方向。 第二点,产品打造方面,能更好地判断产品的开发节奏,包括产品设计、前后端对接、要看哪些指标。 第三点,团队管理和组织文化能力。我建立了更完整的管理制度,包括每个同学的分工、奖励和期权发放。还有,也学会了怎么去融资。这一轮 1000 万美金的融资,我们在 20 天以内就完成了。 Founder Park:你们现在团队有多少人? Kai:6 个人,大家住在一起。 Founder Park:团队最初是怎么搭建起来的? Kai:我跟 James 已经创业两次了。我们俩都是一个学校毕业的,大一的时候就一起做了一款 App。大二的时候,我跟另外两个人一起创业,大家彼此都认识了。当意识到这个技术能带来非常大的产品愿景时,我们就联系组队来做这个产品。之前大家都是校友,包括团队另一个合伙人 Nick 也是我的大学室友。 Founder Park:你们现在也准备扩招,想招什么样的人? Kai:我们主要招后端、前端、大语言模型和 UI/UX 方面的,希望是有经验的。因为我们现在已经跨过了试错阶段,进入了产品快速 build 的阶段,需要有经验的人来帮助我们成长。 Founder Park:需要有经验的工程师、产品经理和增长负责人,来把产品从 1 做到 10,甚至从 10 做到 100。 Kai:是的,就是这个阶段。我们预期把团队扩充到 9 到 10 个人,核心还是以招工程师为优先。 这次招的可能会在国内,所以是 in-person 和远程混合的方式。 Founder Park:希望这个人是什么画像的? Kai:我们更希望他是在一些大厂经历过的,比如字节、美团。因为字节是一个高速、比较卷的组织文化,重视年轻人。在字节训练过的人,有比较好的方法论和能力,加入我们之后能把这些成功的经验带进来,进行融合学习。 想要在国内大厂打过硬仗、有快速迭代经验的人。我们已经度过学生创业阶段了,不太需要招新手,更多需要招一些有经验,但又不是那种完全的「行业老炮」。因为行业老炮可能要顾及家庭,没办法那么卷。所以中间层次的,年轻又能卷的就比较好。 我们愿意给优秀的人才丰富的期权。我们虽然融了 1100 万美金,但为什么没在美国招工程师?就是因为我们觉得国内的产品力和工程能力真的非常好。这一波 100% 会有华人经营的团队打造出伟大的产品,在国际上跑出来。现在很多 AI 应用层面都是华人打造的,国内的工程能力真的很厉害。这也是我们的优势,要利用中美两国之间的优势。 硅谷的大学生,都在 AI 创业了 Founder Park:现在尤其是在硅谷,大学生创业的趋势特别明显,你看到的是一个什么样的状态? Kai:看一个事实,就说这轮百亿美金估值的公司:主打 AI 招聘的 Mercor,已经完成 3 亿多美金的新的融资,估值已经百亿美金;而 Cursor 已经是板上钉钉的 100 亿美金估值。对应的还有像 GPTZero、Pika 等等。这些都是大学生创业项目,尤其是 Cursor 和 Mercor 的创始人都是大三辍学生。 这一波年轻人创业,都有一个特点,就是高度差异化竞争。他们在极其窄的领域里专注去做,没有做通用的东西。比如 Mercor 做 AI 招聘,一开始就只做印度程序员的招募。 第二点是环境。整个硅谷的资本环境和底层创新,像斯坦福、YC、Peter Thiel 的基金,都在最早的阶段支持大学生创业,不管你有没有成熟的想法,都愿意支持你,并且提供强大的人脉网络。 第三点,我觉得是这些大学生的品质。无论是我们,还是硅谷出来的这些大学生,都有非常勇敢的冒险精神和极强的学习能力。这种勇敢闯荡的精神,国内很多学生可能不太具备。因为在硅谷,身边有很多同龄人成功的案例激励着你,资本环境也愿意相信年轻人。 对我来说,当时也对比过成本和收益。如果我选择读完大学再找工作,未必能还得起家里的留学成本,也未必有很大的收益回报。但如果选择创业,我能在最年轻的时候去疯狂学习,我的人生就有无限的可能。我从小就想创立一家伟大的公司。 Founder Park:为什么今天这一代大学生创业能做出百亿美金的公司,而以前可能卖个一两千万美金就算很了不起了?这里面有 AI 的热潮和泡沫因素吗? Kai:我觉得不完全是泡沫。Cursor 有 4.5 亿美金的真实营收,这是很可靠的。这背后,是这一代年轻团队的方法论和认知 insight 非常关键。你看这些团队,背景都挺优秀,他们有非常好的学习能力。 Cursor 早期就是靠身边的大学生程序员,这些人对 AI 接受度高,给了很强的反馈。创始人本身也是个小天才工程师,能深刻理解用户,工程迭代能力强,早期就四个人把产品干起来了。他们把产品迭代好之后,就形成了用户口碑,有了营收,投资人也怕错过下一个 Mark Zuckerberg,所以资本又来助力。 最底层的条件是,AI 这波很多技术是新的,年轻人学习速度快,又务实、靠谱、敢干,所以有极致的用户理解和超快的迭代速度,去击败传统的产品。比如在 Cursor 之前,GitHub Copilot 做得也挺好,但为什么没干过它?就是因为用户体验和执行速度。 Founder Park:是不是可以说,因为 AI 是个新技术,所以很多产品认知也需要用新的角度来看? Kai:对,年轻这一代比上一代创业者有更深的认知见解,能离用户更近。现在主流的 AI 用户都是 00 后了,他们学习和反馈的迭代速度、包容程度,都比上一辈创业者更快。 所以,认知迭代速度是核心。移动互联网时代,技术迭代是以年或者季度为单位的,但 AI 时代,技术迭代可能是以天为单位的。作为 founder,你必须快速学习,而年轻人更能熬夜,更有拼劲。 Founder Park:之前有媒体说硅谷很多创始人也开始 996 了,你们怎么看? Kai:我身边一些白人创业者朋友,融了很多钱,也 996。他们也跟我们一样,租个大 house,所有人生活在一起办公。我觉得 996 更多是环境所迫,现在硅谷有点像淘金热,大家都不想落后,那就只能比产品迭代速度,必须熬夜快速迭代。这是一种环境塑造,倒逼人必须这么做。 Founder Park:硅谷的这些大学生创业,在赛道选择上有什么趋势吗? Kai:我觉得无论是我们做教育,还是其他人,大家都有一个趋势,就是在自己的舒适圈里创业。舒适圈指的是你对这个领域和用户足够了解。Cursor 创始人对 coding 非常了解,我们做教育也是因为对这个人群足够了解。现在的年轻人更多是在自己已有的认知舒适圈里创业,不再贸然跳到一个不了解的领域。因为这样你获得的用户的反馈才足够快、足够正确。 还有认知叠加。我们三次都做教育,我的认知是不断叠加的。这帮大学生不太会贸然做自己过去没干过的事,都是想着怎么干得更好。他们有新一代的思维方式,在自己认知圈里不断迭代,勇于创造机会。 还有一点是勇敢闯荡的精神,不太会因为别人的否定而否定自己,有一种「I don't care what you think about me」的态度,非常自信。背后就是「高速实验」的文化,我知道我产品还没 ready,但我不管,快速上线、快速迭代、快速反馈。 Founder Park:这个风潮大概是从什么时候开始的? Kai:我觉得是一种共识性的成功。当大家看到像 GPTZero 这样的项目,从宿舍里成长起来,不断迭代,然后获得资本助力和用户认可,这种快速试错、快速爆发的成功案例多了,就形成了共识。 一句话,「Better done than perfect」,完成比完美更重要。而且大家也不太担心竞争,硅谷很多 founder 都愿意把自己的产品理念讲出来,不怕你抄,我只要快速迭代就好。我觉得这一波年轻人还有很好的 story telling 的能力,这种讲故事不是假大空,而是在务实求真的基础上,加上自己对未来的展望。 Founder Park:先把自己营销出去。 Kai:对。我觉得底层的观念在于冒险精神和极度自信。在这种驱动下,他们就不断勇敢试错,不怕讲错话。大胆地讲自己的产品理念,大胆去执行,错了大不了再改。这种不怕试错的文化,促成了这一波大学生创业的热潮和成功。 美国那边的 VC 也都会看大学生的项目,YC 每期都会固定投一些大学生的项目。 融资是 VideoTutor 现在最不需要担心的事情 Founder Park:如果回到刚做 VideoTutor 的时候,你会给自己提什么建议?有什么可以做得更好的地方? Kai:我觉得应该是节奏更快一点。还有就是团队组成。VideoTutor 的团队是经过多轮磨合的。如果早知道,我会更早地根据产品需要的技能画像,去更好地组建团队。我觉得创业回归到最后,组织能力非常关键。我会花更多时间在组织能力上:选人、识人、用好人。 现在的团队适合从 0 到 1 的成长,但要把 VideoTutor 做得更大,还是需要更有工作经验的人加入进来,把他们优秀的经验和能力带到团队,帮助整个团队共同成长。 Founder Park:未来半年内,你觉得 VideoTutor 可能会遇到什么样的产品或技术难题? Kai:我觉得一个是渲染,要降到真正的零延迟,还需要工程上的突破。第二点是增长方面,我觉得是产品的 taste,这背后包含很多东西,比如 UI、交互设计是否丝滑完美,功能交互是否没有 bug,视觉布局是否漂亮等等。这些对我们来说都是考验。 James:我觉得一开始我们对 VideoTutor 的定位是针对所有学科的可视化教学辅导,但后来我们做得非常垂直,只针对数学领域,因为那是我们最擅长的。我们的数学渲染引擎是最专业的。接下来重点要突破的,可能就是横向扩展。比如,如何把可视化的优势带到文科类场景?比如解释「锄禾日当午,汗滴禾下土」。这是我们接下来在技术上要考虑的点。 Founder Park:会因为创始人的背景在后续扩张上遇到困扰吗? Kai:不太会。其实有很多大的 VC 都找过我们,像 a16z 这些,不会在太早期出手,而是在团队已经有成功迹象时再助力,这样他们知道投资不会失败。我们和很多大 VC 都保持着很好的关系。 融资是 VideoTutor 最不需要担心的事情,最需要担心的还是围绕着用户生态和产品。
lg
...
财经智选
10-31 04:31
Meta第三季度财报:广告业务强劲增长,但过度支出担忧持续存在
go
lg
...
面仍落后于OpenAI的GPT和谷歌的
Gemini
。巨额资本支出与AI人才投入的成效尚待验证。核心风险在于Meta可能过度投入却未能收获预期成果。当前竞争格局尤为激烈:ChatGPT作为AI领域的领头羊,正与Shopify、沃尔玛、Etsy、Spotify及Figma等企业建立合作;而Alphabet凭借其AI云业务及成熟生态系统同样不容小觑。值得注意的是,DeepSeek同样采用开源模式,可能对Llama构成市场蚕食效应。 资本支出和运营支出的增加是另一项重大风险。事实上,Alphabet、微软和亚马逊也面临同样问题,但相比之下,Meta的营收和利润规模最小,使其对过度支出更为敏感。目前该公司预计2025年全年资本支出将达700亿至720亿美元,而2026年该数字将显著攀升,达到上述大型同行企业的水平。 宏观经济情绪同样构成风险,尤其当其导致广告支出放缓时。事实上,Meta比谷歌或亚马逊更易受此影响,原因在于Meta高度依赖广告收入,而Alphabet拥有云业务,亚马逊则兼具电商与云服务。 最后是老生常谈的监管风险。作为处理海量数据的全球性企业,Meta始终面临数据泄露风险。几年前我们已目睹过类似情形。 估值 Meta当前约24倍市盈率的估值仍具吸引力——低于其他Mag 7同行。原因之一在于尽管投入巨资,Meta在人工智能竞赛中仍被视为落后者。 这反而是利好因素:低估值形成支撑位,而任何AI领域的积极进展都将推动估值重估。若市盈率重估至30倍,结合10%的谨慎每股收益增长预期,公司目标价可较当前水平提升30%。 立刻体验 原文链接
lg
...
TradingKey
10-30 17:06
Consensys荣耀之旅:从ETH生态建设者到资本市场焦点
go
lg
...
脚步。诸如Ionic Digital、
Gemini
Space Station, Inc.、BitGo, Inc.等公司都提交了IPO申请。Circle、Coinbase成功的IPO之路正在为加密企业提供参照。 2.监管政策持续宽松 在特朗普政府的领导下,美国对加密货币的态度变得更加友好。SEC 批准了现货比特币ETF,并驳回多起针对加密公司的诉讼。同时,国会正在推进稳定币立法,为整个行业奠定更清晰的合规框架。5天前,特朗普还刚刚任命Mike Selig担任CFTC主席,推进美国加密货币监管现代化。 另外,特朗普本人“以身作则”,是加密货币的既得利益者。据英国《金融时报》调查报道,特朗普及其家族在过去一年中通过加密货币业务获得超10亿美元税前利润。 调查显示,特朗普家族的加密货币帝国包括数字交易卡、Meme 币、稳定币、代币和去中心化金融平台等多个项目。 3.传统金融机构入场 贝莱德、Visa 等巨头不仅支持加密货币公司,还主动推出与加密货币相关的业务。如贝莱德曾计划参与Circle 的 IPO,金额为1.5 亿美元以上,贝莱德的动作不仅为 Circle 带来大额资金信任背书,也向市场释放“传统金融愿意并准备介入加密资产公司”的信号。昨天,Visa刚发布计划为四种不同区块链上的四种稳定币提供支持的消息;7月30日,Visa(V.N)首席执行官表示:使用稳定币消费的最佳方式是通过Visa。传统金融机构的入场有助于加密叙事从边缘至主流的演变,并且可以为加密公司降低融资难度,利好行业发展。 三、结语 Circle 上市带来的轰动效应可以被视为加密金融与传统金融真正融合的成功案例。在过去一年中,Circle、Galaxy Digital、eToro和Exodus等加密货币原生公司相继上市,标志着数字资产业务正在进入主流金融领域。 对于普通投资者而言,这一浪潮带来了更多的投资机遇。如今的市场涵盖了公开交易的交易所、自托管钱包、机构基础设施提供商以及集成加密货币交易和质押功能的金融科技应用程序。这种多元化反映了加密货币行业的日趋成熟,其发展不再以投机交易为主导,而是以真正的商业模式和长远的战略愿景为核心。 重要的是,上市也带来了更高的问责制。上市公司必须满足更高的财务报告、合规和治理标准,这反过来又使它们对机构资本更具吸引力。上市使这些公司能够在监管机构和公众股东的监督下,以负责任的方式获得资金并扩大规模。简而言之,加密货币企业进入公开股票市场标志着在建立机构信誉、市场纪律和实现可持续增长方面迈出了关键一步。
lg
...
金色财经
10-30 16:17
点击加载更多
24小时热点
【黄金收评】发生了什么!?金价巨震68美元 中国重磅消息一度引发金价暴跌
lg
...
白宫爆发激烈争论!美媒曝“一场被取消的谈判”:特朗普临时叫停英伟达对华芯片计划
lg
...
中俄突发重磅!中国国家主席习近平寻求促进投资 扩大与俄经济联系
lg
...
中美突发重磅!白宫:美国将于下周开始暂停向中国船只收取港口费
lg
...
【直击亚市】美联储官员最新信号吓坏市场!Palantir引爆不安,美元连涨5天
lg
...
最新话题
更多
#AI热潮:从芯片到资本的竞赛#
lg
...
16讨论
#SFFE2030--FX168“可持续发展金融企业”评选#
lg
...
36讨论
#VIP会员尊享#
lg
...
1989讨论
#比特日报#
lg
...
11讨论
#Web3项目情报站#
lg
...
6讨论