尽管大多数受访者(59.4%)已经制定了明确的事件管理流程,并且自动化水平能够满足他们的需求(71.1%),但公司仍在努力应对激增的事件,并且仍在努力快速处理这些事件。
66.5%的公司报告称,在过去12个月中,影响其客户的事件的频率有所增加,比2022年的调查增加了3.6%。
据63%的受访者称,这些导致停机的事件(例如应用程序中断、服务质量下降)使公司面临平均每小时损失高达499999美元的风险,比2022年增加了近5%。46.6%的受访者还表示,停机造成的损失从10万美元到200万美元不等。
公司发现当前的事件管理效率低下
研究指出,GenAI是解决事件管理中存在的问题的一种手段,84.5%的人要么认为AI可以显著简化他们的事件管理流程并提高整体效率,要么对AI为事件管理的某些方面提供的自动化机会感到兴奋。
“我们在研究中发现的洞察力突显了对适应性的、基于LLM的自动化的迫切需求,这种自动化超越了单纯的任务重复,而是通过实时吸收线索和上下文来动态适应不断变化的环境。”Transposet的CEO Divanny Lamas说。
“传统的、基于规则的自动化工具已不足以满足现代运营团队的需求。尽管许多公司内部有强大的事件管理流程,但事件的持续激增及其对客户和财务的影响要求采取变革性的方法。前进的道路在于利用像GenAI这样的创新解决方案,通过自动化增强,并在人类判断的指导下,不仅加快事件处理,而且在潜在问题升级之前主动发现和先发制人。”
在事件管理领域,可靠性工程团队面临着巨大的障碍。73.9%的可靠性工程负责人在尝试解决事故时遇到了挑战,包括脆弱的自动化脚本(59.7%)、太多的手动流程(47.8%)以及获取专业知识的困难(47.2%)。
此外,42.5%的公司表示,由于文档混乱(41.3%)、工具可获得性有限(40.4%)以及对机构知识的依赖(39.7%),他们当前的事件管理流程无效或仅供部分团队成员使用。
61.5%的公司还表示,在过去一年中,处理事件所需的时间有所增加,79.8%的公司表示,从第一次警报到缓解问题,解决事件平均需要长达六个小时。除了延长的事件解决时间之外,组建合适的团队成员还增加了一层复杂性,71.3%的受访者表示这一过程可能需要长达30分钟的时间。
此外,相当一部分团队成员发现,要理解和例行公事地应用公司定义的程序是一件具有挑战性的事情。37.4%的公司报告称,只有选定的团队成员全面了解已定义的事件管理流程,并始终如一地遵守该流程。
自动化中存在的障碍增加了事件的复杂性
公司不仅要努力解决事件处理效率低下的问题,还要克服在实施自动化方面遇到的障碍。33.3%的受访者表示,他们的事件管理任务或工作流中只有11%-25%是自动化的,这表明公司的事件管理流程有机会实现更多自动化。
深入研究后,受访者对自动化事件生命周期的关键方面表现出浓厚的兴趣,例如事件设置(50.0%)、通信协议(44.2%)、调查流程(30%)和补救(29%)。
尽管对实施自动化感兴趣,但受访者列举了实现自动化的四大障碍:
领导层或管理层没有足够的支持(57.1%)。
知识共享不够(54.3%)。
对机构知识和现有程序的记录不足(54%)。
不清楚要自动化的内容(52.4%)。
使用SaaS工具时,公司能够更快地创建自动化。74.6%的受访者接受SaaS工具,82.0%的受访者确认他们能够在不编写代码的情况下创建自动化。84.3%的受访者报告只花了11分钟到一小时,这突显了SaaS解决方案在事件管理方面的效率。
公司使用基于AI的应用程序和自动化工具增强技术堆栈
在接下来的12个月里,72.1%的团队希望扩大他们的技术堆栈。为加强事件管理流程并缩短平均解决/修复时间(MTTR),各公司计划实施新工具,包括:
基于AI或ML的工具或应用程序(60.0%)。
自动化工具或应用程序(53.1%)。
通信/协作工具或应用程序(48.1%)。
SRE和平台工程在实现AI和自动化方面发挥着至关重要的作用。在过去的一年里,61.5%的受访者增加了对SRE实践的关注,打算聘请更多的现场可靠性工程师,而57.5%的受访者加强了平台工程工作,计划引入更多的平台工程师。这些战略举措突显了公司致力于加强其事件管理能力。
调查结果为事件响应生命周期指明了一条明确的前进道路,强调了对SaaS工具或平台的需求,该工具或平台可无缝集成公司使用的所有事件管理工具,利用人工数据洞察力,并利用GenAI来提高运营效率和决策。
AI重塑工作体验
90.4%的受访者认为,系统地从人类数据中挖掘洞察力(如归档的松懈通信、回溯性访谈、小组反馈等)可以改进未来的事件响应并提高运营质量,然而,90.2%的人认为自动化应该让人类在关键决策点使用他们的判断力,以使其更可靠、更有效,比2022年的研究增加了近10%。
89.8%的人发现,将GenAI功能集成到事件管理工具或平台中,可以减少创建新自动化所需的时间,为其他高价值工作腾出时间。96.3%的人认为,如果他们的公司在事故期间使用的所有工具都通过一个工具或平台进行集成,这将是有益的。
对于在其技术堆栈中采用AI的79.5%的公司来说,其影响是显著的。51%的人认为AI正在让他们的工作变得更好,显示出人类工作生活的改善,63.5%的人使用它来提高数据的准确性和质量,50.7%的受访者表示解决事件的速度更快,49.4%的人使用它来更快、更轻松地识别问题、潜在威胁和漏洞的根本原因,48%的人使用它自动执行重复性任务或流程,有效地简化了他们的操作。
Lamas总结道:“鉴于对现代运营团队不断变化的需求,很明显,这些团队需要的是基于LLM的自适应自动化和事件管理解决方案。这种统一、智能的方法不仅仅是简化流程,它使团队能够利用自动化和AI来增强其公司的事件管理流程,并开发更高效的自动化工作流。通过确保人类继续积极参与这一过程,这种方法对于无缝事件解决和减少MTTR变得越来越重要。最终,它使团队能够将他们的努力集中在真正重要的事情上——为复杂的问题提供高效和有效的解决方案。
还没有评论,来说两句吧...