42岁软件工程师,因AI裁员!千份简历石沉大海,送外卖维生

愤怒的蜗牛

AI造成的失业大潮来势汹汹。

OpenAI前研究员预测27年会开发出比人更快、更便宜的超级智能体,全面超越人类。

而一位名叫肖恩的软件工程师的故事,似乎只是这场变革的开始。

42岁软件工程师,因AI裁员!千份简历石沉大海,送外卖维生

在纽约州中部高地的荒野里,42岁的肖恩蜷缩在房车拖车里。 

作为失业一年的软件工程师,他投出了近千份简历,却没能找到一份工作。

每天花6小时送外卖(DoorDash),累得半死,才赚不到200美元。

晚上睡前,他最后看一眼邮箱,上周投的简历(都是能胜任甚至超资格的岗位)杳无音讯。

AI,成了倒推他人生多米诺骨牌的第一块。

因AI裁员后,什么都没了

说起来挺魔幻的,他其实有三套房:纽约州北部大学城一套待翻新的小房子,还有一片偏远农田,上面有两间小木屋。

以前有工作的时候,养这些房子不难。市区那套房的房贷,靠室友的租金就能cover;木屋的房贷,大部分由租客承担,剩下的肖恩妈妈那点微薄的政府补助刚好补上。

那时,肖恩的年薪15万美元,除了供房、养车,每年还能剩个四五千,偶尔去露个营,买点股票、搞点投资。

这样的生活简单却不失体面,也是他努力奋斗了20多年才达到的。这20年来,肖恩不断磨练专业技能,并做长远规划和思考。

但这两年半,社会好像突然变了。

公司业绩明明很好,他和整个开发团队却被裁了;投简历就像往黑洞里扔纸,连个响都没有;技术面试更是折磨。

这一切,都和那个才刚刚起步,却已经渗透到生活方方面面的东西有关——AI。

42岁找工作太难,筛简历的都是AI

这一年,他面试了快10家公司,两次进了终面,好几次到二面、三面,但最后都没下文。

为了这些面试,肖恩花了几十小时准备,结果全是白忙活。

他在五六个求职网站上泡了几百小时,给领英上250个联系人一个个发消息求内推了。

能拿到面试机会,简直像中彩票。

肖恩怀疑他的简历被某个半吊子的AI求职者搜索服务筛选掉了,因为简历中没有提到足够多花里胡哨的AI术语。

就算通过了筛选,还有上千名竞争者,包括机器人和同样被AI挤掉工作的同行。

好不容易进了面试,又得面对各种终极挑战。

那些25岁的湾区年轻人,每个人都觉得自己是乔布斯转世,一听42岁,眼神里全是嫌弃。

提到肖恩做过PHP开发,他们直接皱眉头——好像他现在不会用新工具似的。

但肖恩觉得,自己实际上比他们更懂岗位需要的AI技能,但就因为年龄,直接被pass了。

42岁软件工程师,因AI裁员!千份简历石沉大海,送外卖维生

2022年,是这一切的开始

自学AI花光精力,但没用

有人说:「现在这个年代,你得学最新的AI知识才行。」

肖恩做了。

过去一年,他每天都会花2-5个小时看AI新闻、论文和播客,不断思考和反思最新的AI趋势。

并且,还构建了大约10个100%由AI生成的小型代码库,一有新工具就去试,几乎每天都在用Cursor等AI编程工具。

有人说:「那你为啥不去Substack写文章,做YouTube博主呢?」

在刚失业那会儿,肖恩其实就是这么干的。

每周,他都会在YouTube发几个AI相关的视频。而且为了尽可能省下每一分钱(网费),他甚至会特地跑到超市的休息区去上传。

结果是,粉丝涨了150个,好评收了一些,但工作机会却一个都没等来。

而且,由于AI发展太快,比如几个月之前还是前沿的观点,现在可能就已经过时了。他担心潜在的雇主会觉得自己跟不上节奏,于是一口气删掉了95%的内容。

降薪、转行、开货车,通通碰壁

3年前AI还没火的时候,肖恩就想从工程师转到管理岗位。

刚失业时,他还挺有信心,结果投了两个月管理岗,连个面试都没拿到。简历上没有相关经历,人家根本不看。

没办法,肖恩开始投和以前同等级别、但工资更低的岗位,还是没结果。

6个月后,他甚至去投2008年就能干的WordPress开发岗,工资不到以前的一半,还是石沉大海。

实在没合适的工作,他甚至想过做现场开发。肖恩申请了当地大学的一个现场开发职位,资历远远超过了要求,而且提供的薪水比他2009年的还低,结果却被拒绝了。

唯一能找到的工作只有卡车司机、仓库工人、超市收银员,时薪18美元。

绝望之下,他甚至开始研究正规大学的工程经理证书项目,说不定能让自己的简历好看一点,然后借此捞到一个面试的机会。

然而,这些收费高达3000到8000美元的课程,主要内容竟然是看YouTube视频。甚至在结业之后,还不保证能找到工作……

肖恩没钱,所以就此作罢。

他考虑过转行,从事一份至少几年内不受AI影响的工作,比如去开起重机或者当无人机测量员。

但做这些工作前,都得先花7000-15000美元参加培训,入职后的时薪也只有25美元。

肖恩根本拿不出这笔钱,而且这点工资也并不够他花的。

现在他只好硬着头皮,贷了几千美元搞了个高压清洗公司。至少,这比去超市打工挣得多,还能自己安排时间。

42岁软件工程师,因AI裁员!千份简历石沉大海,送外卖维生

靠租房和送外卖续命

为了还上高额的房贷,他把自己在市区的房子租给了一个长租客,才勉强cover住。

肖恩本来想翻新后整套出租赚点钱,但没钱了,只能先租一半。要是有钱完成翻新,就能多赚点租金。

小木屋则挂在Airbnb上出租,虽然评价都是五星,但地方太偏,冬天又冷,只有一两个月旺季能赚点钱。

肖恩还在eBay上卖闲置,旧电脑卖300美元,旧衣服卖20美元,能赚一点是一点。

本来想在农业区摆个摊位卖农产品,但连搭摊位、买设备的钱都没有,只好再次作罢。

今年冬天,肖恩开始送外卖。

注册的时候,因为姓氏和系统不兼容,花了50小时和马来西亚、印度的客服沟通,才注册上DoorDash,其他平台到现在还没搞定。

现在只要有力气,他就去送外卖,有时时薪比超市高,但偶尔也会亏。

刚失业时,肖恩还申请了失业救济。

纽约州的失业系统简直是最烂的官僚机构,一堆破手续,每月不到2000美元,还只给6个月,根本不够花。

后来他们知道肖恩在做Airbnb(其实肖恩早就告知过),直接发了一封律师函,逼他还钱。这要是执行了,肖恩的房子全得被收走,直接原地破产。最终他不得不通过上诉才解决。

6个月后,肖恩收到一封邮件说「救济结束」,啥都不管了。没有进一步的推荐资源,没有社区建议,甚至连一句祝你好运都没有。

总有人说:「你有三套房,卖了不就有钱了?」

哪有那么简单:

  • 母亲残疾,没地方去。申请政府住房得排两年队,住在肖恩这里,他还能照顾一下。

  • 房子没翻新,卖了就亏。而且因为没有工作,没法申请新房贷,卖了房还要交20%的税,根本不划算。等以后翻新好了,卖了还能换套更好的房子,现在卖了就真的血本无归了。

  • 就算卖了,扣掉房租,每月也只能省几百块,却把唯一的资产搞没了,以后可能再也买不起房了。

42岁软件工程师,因AI裁员!千份简历石沉大海,送外卖维生

近千份简历无音讯

写完这篇文章,肖恩还得继续把简历投给那些发了也白发的AI机器人,争取把技术岗申请的数量刷到900到920份。

然后,再去搞搞自己正在烧钱的清洗生意,靠着不知道怎么还的贷款。

之后可能还得跑几个小时外卖,让自己累到身心俱疲。

因为以前得过抑郁症,肖恩知道不能消极,所以每天都强迫自己乐观一点,但有时候真的很难。

一个干了20年的软件工程师,怎么短短一两年就被AI逼到这一步。

42岁软件工程师,因AI裁员!千份简历石沉大海,送外卖维生

肖恩知道他不是一个人,这只是个开始,AI带来的失业潮迟早会影响所有人。

现在大家还觉得这是未来的事,其实它已经发生了。

肖恩生气,不是因为丢了工作,而是因为这个社会告诉我们:不工作就没法活。

既然AI能干活,为什么不能把它创造的价值分给大家?

超级AI智能体来袭

大公司在试着扩大强化学习的规模,让AI更加自主。

OpenAI前研究员Daniel Kokotajlo预测到2027年初,AI可以在无人干预的情况下,完全自主地长时间编写代码,且编程能力足够好。

42岁软件工程师,因AI裁员!千份简历石沉大海,送外卖维生

但与人类相比,AI的数据效率还不够高,缺乏研究品位,以及与现实世界交互的能力。

如果AI擅长代码,就可以加快AI的开发进程,加速算法进步,甚至出现智能爆炸。

42岁软件工程师,因AI裁员!千份简历石沉大海,送外卖维生

很快,AI会接管一切,彻底改变经济。

42岁软件工程师,因AI裁员!千份简历石沉大海,送外卖维生

李晓熙目前就读于中国人民大学高瓴人工智能学院,博士二年级,导师为窦志成教授,研究方向主要包括检索增强生成、大语言模型推理等。在国际顶级会议和期刊如 AAAI,SIGIR,TOIS 等发表多篇论文,代表工作包括 Search-o1, WebThinker, RetroLLM, GenIR-Survey, CorpusLM, UniGen 等。共同第一作者还包括人大高瓴博士生金佳杰和董冠廷。本文的通信作者为人大窦志成教授。

大型推理模型(如 OpenAI-o1、DeepSeek-R1)展现了强大的推理能力,但其静态知识限制了在复杂知识密集型任务及全面报告生成中的表现。为应对此挑战,深度研究智能体 WebThinker 赋予 LRM 在推理中自主搜索网络、导航网页及撰写报告的能力。WebThinker 集成了深度网页探索器,使 LRM 能自主搜索、导航并提取信息;自主思考 - 搜索 - 写作策略无缝融合推理、信息收集与实时报告写作;并结合强化学习训练优化工具调用。实验表明,WebThinker 在 GPQA、GAIA、WebWalkerQA、HLE 等复杂推理基准及 Glaive 研究报告生成任务中展现出强大性能,显著提升了 LRM 在复杂场景下的适用性与可靠性,为构建更强大、通用的深度研究系统奠定了坚实基础。

42岁软件工程师,因AI裁员!千份简历石沉大海,送外卖维生

  • 论文标题: WebThinker: Empowering Large Reasoning Models with Deep Research Capability

  • 论文链接: https://arxiv.org/abs/2504.21776

  • 代码仓库: https://github.com/RUC-NLPIR/WebThinker

Demo

1. OpenAI 有哪些模型?它们有什么区别?

42岁软件工程师,因AI裁员!千份简历石沉大海,送外卖维生

2. 2025 年我能投稿哪些 AI 顶会?

42岁软件工程师,因AI裁员!千份简历石沉大海,送外卖维生

研究动机:赋予推理模型深度研究能力

大型推理模型如 OpenAI-o1 和 DeepSeek-R1 在数学、编程和科学等领域展现了卓越的推理能力。然而,当面对需要广泛获取实时网络信息的复杂任务时,这些仅依赖内部参数知识的模型往往力不从心。特别是在需要深度网络信息检索和生成全面、准确的科学报告时,这一局限性尤为明显。

WebThinker 应运而生,它是一个深度研究智能体,使 LRMs 能够在推理过程中自主搜索网络、导航网页,并撰写研究报告。这种技术的目标是革命性的:让用户通过简单的查询就能在互联网的海量信息中进行深度搜索、挖掘和整合,从而为知识密集型领域(如金融、科学、工程)的研究人员大幅降低信息收集的时间和成本。

推理中自主调用工具:摆脱传统预定义 RAG 工作流

现有的开源深度搜索智能体通常采用检索增强生成(Retrieval-Augmented Generation, RAG)技术,依循预定义的工作流程,这限制了 LRM 探索更深层次网页信息的能力,也阻碍了 LRM 与搜索引擎之间的紧密交互。

42岁软件工程师,因AI裁员!千份简历石沉大海,送外卖维生

WebThinker 突破了传统 RAG 工作流的限制,实现了范式的升级:

1. 传统 RAG: 仅进行浅层搜索,缺乏思考深度和连贯性

2. 进阶 RAG: 使用预定义工作流,包括查询拆解、多轮 RAG 等,但仍缺乏灵活性

3. WebThinker: 在连续深思考过程中自主调用工具,实现端到端任务执行

WebThinker 使 LRM 能够在单次生成中自主执行操作,无需遵循预设的工作流程,从而实现真正的端到端任务执行。

WebThinker 框架:自主的深度搜索与报告撰写

42岁软件工程师,因AI裁员!千份简历石沉大海,送外卖维生

WebThinker 框架包含两种主要运行模式:

1. 问题解决模式:赋予 LRM 深度网页探索器(Deep Web Explorer)功能,当遇到知识缺口时,LRM 可以自主发起网络搜索,通过点击链接或按钮导航网页,并在继续推理前提取相关信息。

2. 报告生成模式:实现自主思考 - 搜索 - 写作(Autonomous Think-Search-and-Draft)策略,将推理、信息搜索和报告撰写无缝整合。LRM 可以使用专门的工具来草拟、检查和编辑报告部分,确保最终报告全面、连贯且基于收集的证据。

整个过程是端到端的,LRM 可以在思考过程中自主搜索、深度探索网页和撰写研究报告,摆脱了传统预定义工作流的局限。

核心组件:

1. 深度网页探索:解决复杂推理问题

这一模块使 LRM 能够进行网络搜索和导航,深度收集、遍历和提取网页上的高质量信息:

  • 搜索能力:能够基于当前查询生成搜索意图,从搜索引擎获取初步结果

  • 导航能力:能够点击链接或按钮,深入探索初始搜索结果之外的内容

  • 信息提取:基于当前查询的搜索结果,LRM 可以发起后续搜索并遍历更深层次的链接,直到收集所有相关信息

2. 自主的思考 - 搜索 - 写作:生成完整的研究报告

该策略将报告撰写与 LRM 的推理和搜索过程深度整合:不同于在搜索后一次性生成整个报告,WebThinker 使模型能够实时撰写和寻求必要知识。具体来说,WebThinker 为 LRM 配备三种专门工具:(1)撰写特定章节内容;(2)检查当前报告已写内容;(3)编辑 / 修改报告。这些工具使 LRM 能够通过保持全面性、连贯性和对推理过程中新发现信息的适应性来自主增强报告质量

3. 基于强化学习的训练策略:全面提升 LRM 调用研究工具的能力

为了进一步释放 LRM 骨干模型的深度研究潜力,WebThinker 开发了基于强化学习的训练策略:

  • 利用配备工具的 LRM 从复杂任务中采样大规模推理轨迹

  • 根据推理的准确性、工具使用准确性、以及最终输出答案或报告的质量,构建在线直接偏好优化(DPO)训练的偏好对

  • 通过迭代、在线策略训练,模型逐步提高感知、推理和有效交互研究工具的能力

实验结果

42岁软件工程师,因AI裁员!千份简历石沉大海,送外卖维生

实验结果:真实世界的复杂推理任务

WebThinker 在四个知识密集型复杂推理基准上进行了评估:

1. GPQA:PhD 级别的科学问题回答数据集,覆盖物理、化学和生物学

2. GAIA:评估 AI 助手在复杂信息检索任务上的能力

3. WebWalkerQA:专注于深度网络信息检索,需要导航和提取信息

4. 人类最终考试(HLE):极具挑战性的跨学科问题数据集

42岁软件工程师,因AI裁员!千份简历石沉大海,送外卖维生

42岁软件工程师,因AI裁员!千份简历石沉大海,送外卖维生

从实验结果中可以发现:

1. 基础推理模型和传统 RAG 的局限:基础推理模型虽然在某些任务上表现不错,但在需要实时外部知识的场景中明显力不从心;传统 RAG 方法虽有改进,但在复杂任务中提升有限;

2. 自主搜索的优势:而引入自主搜索能力的模型则带来了显著提升。WebThinker 凭借其深度网页探索器,能够更全面地获取和整合网络信息,在所有基准测试中都取得了明显优势。

3. RL 训练的改进:特别是经过强化学习训练的 WebThinker-32B-RL 版本,不仅在同等参数量模型中达到了最佳表现,甚至在某些任务上超越了参数量更大的专有模型。

实验结果:科学研究报告生成

42岁软件工程师,因AI裁员!千份简历石沉大海,送外卖维生

在 Glaive 科学报告生成任务的评估中:

1. 生成报告的质量:从完整性、彻底性、事实性和连贯性四个维度评估,WebThinker 生成的研究报告均获得高分,整体表现优于传统 RAG 方法和其他先进的深度研究系统;

2. 生成报告的信息边界:特别在报告的完整性和彻底性方面表现尤为突出,通过 t-SNE 可视化分析可见,WebThinker 生成的报告内容覆盖更广,视角更多元,能够从多个维度深入探索和综合信息,为用户提供更全面、更深入的调研。

实验结果:适配 DeepSeek-R1 系列模型

42岁软件工程师,因AI裁员!千份简历石沉大海,送外卖维生

通过在不同规模的 DeepSeek-R1 模型上进行实验(7B, 14B, 32B),验证了 WebThinker 框架的适应性。在不同模型规模下,都能显著提升各类任务的性能,远超直接推理和标准 RAG 方法,展现了该框架在增强 LRM 深度研究能力方面的通用性和有效性。

实验结果:消融实验

42岁软件工程师,因AI裁员!千份简历石沉大海,送外卖维生

消融实验评估了 WebThinker 各关键组件的贡献。结果显示,深度网页探索器以及自主 「思考 - 搜索 - 写作」 策略中的报告生成组件(尤其是自主报告起草)是确保高性能问题解决和高质量报告生成的基石,其缺失会导致性能显著下降。强化学习训练则主要增强了问题解决能力,对报告生成的影响相对有限。

总结与未来展望

WebThinker 框架成功地赋予了大型推理模型深度研究能力,解决了它们在知识密集型真实世界任务中的局限性。通过深度网页探索器和自主思考 - 搜索 - 写作策略,WebThinker 使 LRM 能够自主探索网络并通过连续推理过程生成全面输出。

未来,为持续提升深度研究模型的能力,仍有很多方向值得探索:

1. 多模态深度搜索:WebThinker 基于文本推理模型,难以处理图像等其他模态的信息。未来可以扩展到图像、视频等多模态内容的深度研究,来利用网页中的多模态信息。

2. 工具学习与扩展:当前支持有限的研究工具,未来可以通过工具学习来不断优化工具使用策略,并扩展更多工具,来支持更复杂的任务。

3. GUI 网页探索:通过 GUI 网页探索能力,让模型能够更好地理解和操作网页界面,实现更复杂的交互任务,如订机票、指定旅游路线图、等等。


您需要 登录账户 后才能发表评论

发表评论

快捷回复: 表情:
AddoilApplauseBadlaughBombCoffeeFabulousFacepalmFecesFrownHeyhaInsidiousKeepFightingNoProbPigHeadShockedSinistersmileSlapSocialSweatTolaughWatermelonWittyWowYeahYellowdog
评论列表 (暂无评论,47人围观)

还没有评论,来说两句吧...

目录[+]

取消
微信二维码
微信二维码
支付宝二维码