你对AI未来的数据战略是什么？

随着企业变得更加数据驱动，古老的计算谚语垃圾输入，垃圾输出(GIGO)从未像现在这样正确。将AI应用于许多业务流程只会加速确保所用数据的准确性和及时性的需要，无论是内部生成的数据还是外部来源的数据。

不良数据的代价

Gartner估计，企业因使用质量不佳的数据而平均每年损失1290万美元。IBM计算出，糟糕的数据每年给美国经济造成的损失超过3万亿美元，其中大部分费用涉及企业内部在数据通过和跨部门传递时检查和更正数据的工作。IBM认为，知识工作者有一半的时间被浪费在这些活动上。

除了这些内部成本外，客户、监管机构和供应商之间的声誉损害也是一个更大的问题，这些问题来自基于不良或误导性数据而行为不当的组织。《体育画报》及其CEO最近发现了这一点，当时该杂志被披露发表了由虚假作者撰写的文章，并使用AI生成的图像。虽然CEO丢掉了工作，但母公司Arena Group的市值损失了20%。也有几起备受瞩目的律师事务所通过提交虚假的AI生成的案件作为法律纠纷中优先地位的证据而陷入困境。

AI黑匣子

尽管成本高昂，但检查和更正企业决策和业务运营中使用的数据已成为大多数企业的既定做法，然而，考虑到幻觉的发生率越来越高，了解一些大型语言模型(LLM)是如何训练的，以及关于哪些数据和输出是否可信，则是另一回事。例如，在澳大利亚，一位当选的地区市长威胁要起诉OpenAI，因为该公司的ChatGPT虚假地声称，他曾因贿赂而入狱，而事实上，他一直是犯罪活动的举报人。

对LLM进行可信数据培训，并采用迭代查询、检索增强生成或推理等方法，是显著减少幻觉危险的好方法，但不能保证它们不会发生。

关于合成数据的培训

随着企业通过部署AI系统寻求竞争优势，回报可能会流向那些能够获得足够和相关的专有数据来训练他们的模型的人，但是，无法获得这些数据的大多数企业怎么办?研究人员预测，如果目前的趋势继续下去，用于训练LLM模型的高质量文本数据将在2026年前耗尽。

解决这个迫在眉睫的问题的一个办法是增加对合成训练数据的使用。Gartner估计，到2030年，AI模型中合成数据将超过真实数据的使用，然而，回到GIGO的警告，过度依赖合成数据可能会加速产出不准确和决策失误的危险。此类数据只能与创建它的模型一样好。数据混乱可能会带来更长期的危险，因为AI模型是在不符合标准的合成数据上进行训练的，这些数据产生的输出然后被反馈到后来的模型中。