抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造

愤怒的蜗牛

2024-07-03 606阅读 0评论

就在刚刚，法国创业团队抢先OpenAI发布端到端实时音频模型——Moshi。

官方直接秀了段现场演示：

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造

好家伙，感觉语速比真人还快！甚至还学会了抢答：

很多时候我甚至还没问完它就回答了我的问题！

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

Moshi主打发布即公开（免费），PyTorch之父也来祝贺，并透露团队成员来自他在FAIR的前同事。

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

是的，Moshi也将走开源路线，网友们齐聚一堂呐喊：

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

终于有了能直接上手的东西，网友们自然也是火速开启试玩。

这不，有网友就发现打工人Moshi竟主动抱怨：

工作太忙了，我累了

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

看来天下的打工人都一样。[doge]

所以，喊累的Moshi究竟都会干啥？干的咋样？

Moshi技能拉满

首先，Moshi能够带着70种情绪和风格讲话。

比如，用浓重的法国口音朗诵诗歌、假扮船长冒险，或者凉飕飕地讲鬼故事……

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造

而且谷歌DeepMind研究员、ViT作者Lucas Beyer还观察到：

Moshi基本没有延迟，甚至还打断了演讲者几次

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

不过Beyer也指出，在苹果电脑（MacBook）上的模型偶尔会错误地拒绝一些实时请求。

也许Kyutai对安全调整有点太急切了。
然而，这也证实了演示确实是实时的，甚至可能是自由发挥的。

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

另外，Moshi作为一款完全端到端的音频模型，能在普通笔记本上使用。

Hugging Face联合创始人Thomas Wolf点出了其中关键：

模型训练流程和架构设计简单且极具可扩展性，像Kyutai这样只有8人以上的小团队也能在4个月内建成。合成数据在这里起到了巨大的推动作用。

专注于本地设备，Moshi将无处不在。前沿模型构建者没有动机让你在本地运行较小的模型（按令牌计价……），但像Kyutai这样的非营利组织有着非常不同的动机。

在保持Llama 8B或以上答案质量的同时，将延迟降至300毫秒以下，是提升交互性的关键因素，这是颠覆性的。

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

Kyutai的CEO Patrick Pérez也提到：

Moshi可以“边说话边思考”。
我们相信Moshi具有巨大潜力，可以改变我们与机器交流的方式。

不过也有网友试过后“质疑”发布会是否造假：

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

在他的演示中，Moshi已处于“精神崩溃”边缘，一直在向小哥抱怨压力大，导致小哥完全插不进话。

，时长02:31

这一抱怨也引来马斯克的围观：

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

在小哥的评论区，网友竟纷纷对Moshi表示同情。

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

好的，只有小哥受伤的世界达成了。

谁发布了Moshi？

Moshi背后的团队是Kyutai，一家位于巴黎的人工智能研究实验室（非营利）。

Kyutai成立于2023年11月，致力于研究通用AI，投资主要来自欧洲实业资本。

公开资料显示，Kyutai由Xavier Niel（法国亿万富翁、法国电信集团Iliad首席执行官）、Rodolphe Saadé （法国物流巨头达飞集团CEO）和Eric Schmidt （前谷歌CEO）各出资1亿欧元共同创立。

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

关于Moshi，官方介绍它由该实验室的8人研究团队耗时6个月从零开发。

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

在Kyutai官网，其团队显示有6位成员。

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

首席执行官Patrick Pérez，曾在微软担任研究员，谷歌学术主页显示其文章被引用4w+，研究领域包括计算机视觉、图像处理、机器学习和人工智能。

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

Edouard Grave，职位名称为Chief Scaling Officer（CSO），可能是一个专为大模型时代设置的职位了。谷歌学术显示，他的主要研究领域包括机器学习、自然语言处理和人工智能。

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

首席科学家Hervé Jégou，加入Kyutai前先后在Facebook AI（8年3个月）和Meta（4年）担任研究科学家，其研究领域涉及机器学习、人工智能、计算机视觉等。

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

首席技术官Laurent Mazaré，GitHub收获了1.9K关注者，曾在DeepMind工作过1年，研究领域涉及深度学习、金融数学、理论计算机科学、密码学和安全等。

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

Neil Zeghidour，职位名称为Chief Modelling Officer（CMO），这也不是一个常见的企业高层管理职位。加入Kyutai前，他先后在Facebook（3年5个月，语音识别方向）和谷歌（4年9个月，一开始是Google Brain团队的研究科学家）工作，研究领域包括机器学习、语音识别和音频理解等。

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

Alexandre Défossez，职位名称为Founding Scientist，加入Kyutai前是巴黎FAIR的一名研究科学家。研究重点是多模态LLMs，领导了音乐生成研究，并共同领导了AudioCraft框架（涉及Meta开源的一系列音频模型和训练方法）开发。他还与Jean Rémi King博士合作，研究非侵入性脑成像的脑活动解码。

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

One More Thing

当Moshi已经飞入百姓家时，鸽王OpenAI再次推迟上线ChatGPT语音助手。

OpenAI表示，需要确保它能安全有效地处理来自数百万用户的请求，还需要一个月才能达到公司的发布标准。

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

嗯，估计要到7月底了！对此网友打趣道：

Kyutai推出Moshi基本上等于，把OpenAI还没公开发布的客户产品开源了，向Kyutai致敬。

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造图片

愣着干啥？

试玩地址：https://moshi.chat/?queue_id=talktomoshi参考链接：
[1]https://x.com/soumithchintala/status/1808593284010213422[2]https://x.com/Thom_Wolf/status/1808532365720834085[3]https://x.com/benhylak/status/1808611023123067357[4]https://x.com/giffmana/status/1808482848808010149

8人小团队单挑OpenAI，半年仿出GPT-4o，还开源了

全球AI面临6000亿美元难题，人工智能泡沫正在接近临界点！

相关阅读

ACL 2025 | 基于Token预算感知的大模型高效推理技术

OpenAI久违发了篇「正经」论文：线性布局实现高效张量计算

被疯传的“恶趣味”：看Copilot这款“熊孩子”把微软工程师逼疯！Agent 刚上线就翻车？网友：微软工程师成了“人肉保姆” 译文

1步碾压250步！何恺明新作祭出MeanFlow，一行公式让 FID 狂降近 70%

奥特曼：Codex 让我感到 AGI！最新谈话罕见透露下一代“完美模型”，大胆预测 Agent 明年突破边界！

OpenAI深夜宣布ChatGPT支持MCP、会议记录，万物互联时代来了！

使用Claude 4提升程序员生产力的五种高级方式译文

AI+数字经济的核心三要素

您需要登录账户后才能发表评论

发表评论取消回复

评论列表（暂无评论，606人围观）

还没有评论，来说两句吧...

目录[+]

微信二维码

微信二维码

支付宝二维码