OpenAI 寻求合作伙伴生成用于训练 AI 模型的数据集

愤怒的蜗牛

2023-11-10 611阅读 0评论

OpenAI 寻求合作伙伴生成用于训练 AI 模型的数据集

IT之家 11 月 10 日消息，OpenAI 发文宣布，将与组织合作生成用于训练 AI 模型的公共 / 私有数据集，数据合作伙伴关系旨在“让更多组织能够帮助引导 AI 的未来”并“从更有用的模型中受益”。

IT之家从博客获悉，OpenAI 称：“为了最终使 AI 变得更加安全且造福于全人类，我们希望 AI 模型能够深入理解所有主题、行业、文化和语言，这需要尽可能广泛的训练数据集。”

作为数据合作伙伴计划的一部分，OpenAI 表示，它将收集“反映人类社会”且目前不易在线访问的“大规模”数据集。虽然该公司计划跨多种模式开展工作，包括图像、音频和视频，但它特别寻求跨不同语言、主题和格式“表达人类意图”（例如长篇写作或对话）的数据。

OpenAI 表示，如有必要，它将与组织合作，结合使用光学字符识别和自动语音识别工具，对训练数据进行数字化，并在必要时删除敏感或个人信息。

OpenAI 希望创建两种类型的数据集：一个可供任何人在 AI 模型训练中使用的公开开源数据集，以及一组用于训练专有 AI 模型的私有数据集。

OpenAI 表示，私有集适用于希望保持数据私密性但希望 OpenAI 的模型更好地理解其领域的组织；到目前为止，OpenAI 与冰岛政府和 Miðeind ehf 合作，提高了 GPT-4 说冰岛语的能力，并与自由法律项目合作，提高其模型对法律文件的理解。

OpenAI 寻求合作伙伴生成用于训练 AI 模型的数据集

出于安全考虑微软限制员工使用OpenAI ChatGPT

AI生成巴以冲突虚假图片，以假乱真被媒体引用

相关阅读

ACL 2025 | 基于Token预算感知的大模型高效推理技术

OpenAI久违发了篇「正经」论文：线性布局实现高效张量计算

被疯传的“恶趣味”：看Copilot这款“熊孩子”把微软工程师逼疯！Agent 刚上线就翻车？网友：微软工程师成了“人肉保姆” 译文

1步碾压250步！何恺明新作祭出MeanFlow，一行公式让 FID 狂降近 70%

奥特曼：Codex 让我感到 AGI！最新谈话罕见透露下一代“完美模型”，大胆预测 Agent 明年突破边界！

OpenAI深夜宣布ChatGPT支持MCP、会议记录，万物互联时代来了！

使用Claude 4提升程序员生产力的五种高级方式译文

AI+数字经济的核心三要素

您需要登录账户后才能发表评论

发表评论取消回复

评论列表（暂无评论，611人围观）

还没有评论，来说两句吧...

目录[+]

微信二维码

微信二维码

支付宝二维码