当流行科幻小说描述“机器智能的崛起”时,它通常伴随着激光、爆炸,或者在一些温和的例子中,伴随着轻微的哲学恐惧。 但毫无疑问,人们对人工智能 (AI) 和机器学习 (ML) 在现实生活中应用的可能性的兴趣正在与日俱增,而且新的应用程序每天都在涌现。
全球数百万用户已经使用 ChatGPT、Bard 和其他 AI 界面与 AI 互动。 在印度,75% 的办公桌员工正在使用人工智能工具来提高生产力。 但这些用户中的大多数并没有意识到,他们与好奇的人工智能助手进行的舒适桌面交流实际上是由世界各地的大型数据中心驱动的。
企业正在其数据中心内投资人工智能集群,构建、训练和完善其人工智能模型,以适应其业务战略。 这些 AI 核心由机架上的 GPU(图形处理单元)组成,这些 GPU 提供了 AI 模型对其算法进行详尽训练所需的令人难以置信的并行处理能力。
导入数据集后,推理人工智能会分析该数据并理解它。 这是根据对猫而非狗共有的特征的训练来确定图像中是否包含猫或小狗的过程。 然后,生成人工智能可以处理该数据以创建全新的图像或文本。
正是这种“智能”处理吸引了世界各地的人们、政府和企业的想象力,但创建有用的人工智能算法需要大量数据用于训练目的,这是一个昂贵且耗电的过程。
高效培训从这里开始
数据中心通常维护离散的人工智能和计算集群,它们一起处理训练人工智能算法的数据。 这些耗电的 GPU 产生的热量限制了给定机架空间中可以容纳的 GPU 数量,因此必须优化物理布局,以减少热量并最大限度地减少链路延迟。
AI集群需要新的数据中心架构。 GPU 服务器需要服务器之间有更多的连接,但由于功率和热量限制,每个机架的服务器数量较少。 这导致我们的机架间布线比传统数据中心更多,而铜线无法支持距离上需要 100G 到 400G 的链路。
人们普遍认为,在训练大规模人工智能时,大约 30% 的所需时间消耗在网络延迟上,其余 70% 花费在计算时间上。 由于训练一个大型模型的成本高达 1000 万美元,因此这段网络时间是一笔巨大的成本。 即使节省 50 纳秒或 10 米光纤的延迟也很显著,而且 AI 集群中几乎所有链路都限制在 100 米范围内。
微调米、纳秒和瓦特
运营商应仔细考虑他们将在人工智能集群中使用哪些光收发器和光缆,以最大限度地降低成本和功耗。
需要考虑的一些重要要点:
• 利用具有并行光纤的收发器来避免用于波分复用的光复用器和解复用器的需求
• 收发器成本节省远远抵消了多光纤电缆而非双工光纤电缆成本的小幅增加
• 单模和多模光纤可支持长达 100 米的链路。 虽然多模光纤的成本略高于单模光纤,但由于电缆成本主要由 MPO 连接器控制,因此两种多光纤电缆之间的差异较小
• 此外,高速多模收发器的功耗比单模收发器低一到两瓦。 这看起来似乎很小,但对于人工智能集群来说,任何节省电力的机会都可以在训练和操作期间带来显着的节省
收发器与有源光缆
许多 AI/ML 集群使用有源光缆 (AOC),这是一种两端带有集成光发射器和接收器的光缆,用于互连 GPU 和交换机。 然而,AOC 中的发射器和接收器可能与类似收发器中的相同,但通常是废弃品。
AOC 发射器和接收器大多只需要与连接到电缆另一端的特定单元一起操作。 由于安装人员无法接触到光纤连接器,因此不需要清洁和检查光纤连接器所需的技能。 此外,安装 AOC 可能是一项耗时且精细的操作,因为它需要使用连接的收发器来布线,并且正确安装带分线的 AOC 尤其具有挑战性。
总体而言,AOC 的故障率是同等收发器的两倍。 当 AOC 发生故障,或者需要升级网络链路时,必须通过网络路由新的 AOC,这会占用计算时间。 对于收发器,光纤布线是基础设施的一部分,并且可以保持几代数据速率。
数据中心的人工智能和机器学习时代
人工智能/机器学习已经到来,它只会成为人们、企业和设备相互交互方式中更加重要和集成的一部分。 根据 Salesforce 的一份报告,大约 95% 的印度 IT 领导者认为生成式 AI 模型很快将在他们的组织中发挥重要作用,这表明需求不断增长。
虽然与人工智能服务的接口实际上可以在你的手掌中发生,但它仍然依赖于大规模的数据中心基础设施和驱动它的所有动力,而快速有效地训练人工智能的企业将在我们快速变化的超级互联世界中占据重要地位。仔细考虑AI集群的布线将有助于节省成本、电力和安装时间。正确的光纤布线将使组织充分受益于人工智能。今天投资于推动人工智能培训和运营的先进光纤基础设施,明天将带来令人难以置信的结果。
还没有评论,来说两句吧...