2025年有望成为AI真正落地的一年,AI为企业带来具体且切实的利益。
然而,根据AI开发平台Vellum发布的一份最新《AI发展状态报告》,我们离这一目标还有一段距离:仅有25%的企业已将AI部署到生产环境中,而其中只有四分之一的企业看到了可衡量的影响。
这似乎表明,许多企业尚未找到AI的可行应用场景,因此它们(至少目前)仍处于预构建阶段的持币观望状态。
“尽管外界炒作和讨论不断,但这强化了一个事实,即我们仍处于非常早期的阶段,”Vellum的CEO Akash Sharma告诉记者,“行业里噪音很多,新的模型和模型提供商层出不穷,新的检索增强生成(RAG)技术也不断涌现,我们只是想了解一下,企业实际将AI部署到生产环境中的情况。”
企业必须找到具体的应用场景才能取得成功
Vellum采访了超过1250名AI开发者和构建者,以真实了解AI领域的现状。
企业在AI之旅中处于不同阶段——制定和评估战略及概念验证(PoC)(53%)、进行beta测试(14%),以及在最低层次上,与用户沟通并收集需求(7.9%)。
Vellum表示,迄今为止,大多数企业都专注于构建文档解析和分析工具以及客户服务聊天机器人,但它们也对结合自然语言分析、内容生成、推荐系统、代码生成与自动化、研究自动化等应用感兴趣。
迄今为止,开发者报告称,他们看到的最大影响包括竞争优势(31.6%)、成本和时间节省(27.1%)以及更高的用户采用率(12.6%),然而,有趣的是,24.2%的开发者表示,他们尚未看到投资带来的任何有意义的影响。
Sharma强调了从一开始就确定优先级应用场景的重要性。“我们常听到人们说,他们只是想为了使用AI而使用AI,”他说,“这与实验预算相关。”
他指出,虽然这让华尔街和投资者感到高兴,但并不意味着AI实际做出了任何贡献。“大家普遍应该思考的是,‘我们如何找到合适的应用场景?通常,一旦企业能够确定这些应用场景,将其投入生产并看到明确的投资回报,它们就会获得更多动力,超越炒作阶段,这将带来更多的内部专业知识、更多的投资。”
OpenAI仍领先,但未来将是多种模型的混合
在使用的模型方面,OpenAI保持领先地位(这并不奇怪),尤其是其GPT 4o和GPT 4o-mini,但Sharma指出,2024年提供了更多选择,无论是直接来自模型创建者,还是通过Azure或AWS Bedrock等平台解决方案。此外,提供托管开源模型(如Llama 3.2 70B)的供应商也越来越受欢迎,例如Groq、Fireworks AI和Together AI。
“开源模型正在变得越来越好,”Sharma说,“在质量方面,OpenAI的闭源竞争对手正在迎头赶上。”
然而,他预测,最终企业不会仅局限于使用一种模型,而是将越来越多地依赖多模型系统。
“人们将为手头的每项任务选择最佳模型,”Sharma说,“在构建代理时,你可能会有多个提示,对于每个单独的提示,开发者都希望获得最佳质量、最低成本和最低延迟,而这可能来自也可能不来自OpenAI。”
同样,AI的未来无疑是多模态的,Vellum看到能够处理各种任务的工具采用率激增。文本是无可争议的首要应用场景,其次是文件创建(PDF或Word)、图像、音频和视频。
此外,在信息检索方面,检索增强生成(RAG)是首选,超过一半的开发者使用向量数据库来简化搜索。顶级的开源和专有模型包括Pinecone、MongoDB、Quadrant、Elastic Search、PG vector、Weaviate和Chroma。
全员参与(不仅限于工程部门)
有趣的是,AI正在超越IT领域,并在企业中实现民主化(类似于“众人拾柴火焰高”的道理)。Vellum发现,虽然工程部门在AI项目中的参与度最高(82.3%),但领导层和高管(60.8%)、主题专家(57.5%)、产品团队(55.4%)和设计部门(38.2%)也在参与其中。
Sharma指出,这主要是因为AI易于使用(以及人们对它的普遍兴奋)。
“这是我们第一次看到软件以非常跨职能的方式开发,尤其是因为提示可以用自然语言编写,”他说,“传统软件通常更倾向于确定性,而这是非确定性的,因此吸引了更多人参与开发。”
2025年将是克服关键挑战的“AI工具年”
尽管如此,企业仍面临重大挑战——尤其是AI幻觉和提示问题、模型速度和性能、数据访问和安全性,以及获得重要利益相关者的支持。
同时,Sharma指出,虽然更多非技术用户正在参与其中,但企业内部仍然缺乏纯粹的技术专业知识。“连接所有不同部分的方式仍然是一项技能,而今天并没有那么多开发者具备这项技能,”他说,“因此,这是一个共同的挑战。”
然而,Sharma指出,许多现有挑战可以通过工具或平台和服务来克服,这些工具或平台和服务可以帮助开发者评估复杂的AI系统。开发者可以在内部或使用第三方平台或框架进行工具化;然而,Vellum发现,近18%的开发者在定义提示和编排逻辑时完全没有使用任何工具。
Sharma指出,“当你有合适的工具引导你完成开发过程时,技术专业知识的缺乏就不再是一个[那么大的]问题了。”除Vellum外,调查参与者使用的框架和平台还包括LangChain、Llama Index、Langfuse、CrewAI和Voiceflow。
评估和持续监控至关重要
克服常见问题(包括幻觉)的另一种方法是进行评估,或使用特定指标来测试响应的正确性。“但尽管如此,[开发者]并没有像他们应该的那样一致地进行评估。”Sharma说。
他表示,特别是在涉及高级代理系统时,企业需要可靠的评估流程。Sharma指出,AI代理具有高度非确定性,因为它们会调用外部系统并执行自主操作。
“人们正试图构建相当先进的系统、代理系统,而这需要大量测试用例和某种自动化测试框架,以确保其在生产中可靠运行。”Sharma说。
虽然一些开发者正在利用自动化评估工具、A/B测试和开源评估框架,但Vellum发现,超过四分之三的开发者仍在进行手动测试和审查。
“手动测试只是需要时间,对吧?而且手动测试中的样本量通常远低于自动化测试所能做到的,”Sharma说,“可能在技术意识方面存在挑战,即如何进行自动化、大规模评估。”
最后,他强调了拥抱云到应用程序编程接口(API)等协同工作的系统组合的重要性。“建议将AI视为工具包中的一种工具,而不是解决一切问题的神奇方案。”他说。
还没有评论,来说两句吧...