截至2023年底,任何关于生成式人工智能需要多少能源的预测都是不准确的。
头条新闻倾向于猜测“人工智能需要5倍、10倍、30倍的电力”和“足够运行10万个家庭的电力”等。与此同时,数据中心新闻等专业出版物的报道称,功率密度将上升到每机架50千瓦或100千瓦。
为什么生成式人工智能如此需要资源?正在采取哪些措施来计算其潜在的能源成本和碳足迹?或者正如一篇研究论文所写道,“训练这些庞然大物的巨大计算成本”是多少?如今,大部分信息都不容易获得。
分析师已经对特定工作负载场景进行了自己的估计,但由于模型构建最前沿的云超大规模提供商很少披露数据,因此目前几乎没有可靠的数据。
经过分析,人工智能模型构建从训练到推理的碳成本产生了一些发人深省的数字。根据《哈佛商业评论》的一份报告,研究人员认为,训练“单一大型语言深度学习模型”,例如OpenAI的GPT-4或Google的PaLM预计消耗约300吨二氧化碳……其他研究人员计算出,使用“神经架构搜索”技术训练一个中型生成式AI模型所消耗的电力和能源相当于62.6万吨二氧化碳排放量。
那么,到底是什么让人工智能如此耗电呢?
是数据集,即数据量吗?使用了多少个参数?变压器型号?编码、解码和微调?处理时间?答案是,以上所有内容的组合。
数据
人们常说GenAI大型语言模型(LLM)和自然语言处理(NLP)需要大量的训练数据。然而,从传统数据存储的角度来看,实际情况并非如此。
例如,ChatGPT使用www.commoncrawl.com数据。Commoncrawl表示,它是每个LLM的主要训练语料库,并且提供了用于训练GPT-3的82%的原始代币:“我们让研究人员可以大规模提取、转换和分析开放网络数据……超过2500亿美元跨越16年的页面。每个月都会添加3-50亿个新页面。”
据认为,ChatGPT-3是在45 TB的Commoncrawl明文上进行训练的,过滤后为570 GB的文本数据。作为对开源AI数据的贡献,它免费托管在AWS上。
但存储量、从网络、维基百科和其他地方抓取的数十亿网页或数据标记,然后进行编码、解码和微调,以训练ChatGPT和其他模型,应该不会对数据中心产生重大影响。同样,训练文本到语音、文本到图像,或文本到视频模型,所需的TB或PB数据不会对数据中心的电源和冷却系统造成太大压力,这些数据中心是为托管存储和处理数百或数千PB数据的IT设备而构建的。
文本到图像模型的一个例子是LAION(大规模人工智能开放网络)——一个拥有数十亿图像的德国人工智能模型。其模型之一名为LAION 400m,是一个10 TB的网络数据集。另外,LAION5B拥有58.5亿个剪辑过滤的文本图像对。
训练数据量保持在可控范围内的原因之一是,大多数AI模型构建者普遍使用预训练模型(PTM),而不是从头开始训练的搜索模型。我们所熟悉的两个PTM示例是,是来自变压器(BERT)的双向编码器表示和生成预训练变压器(GPT)系列,如ChatGPT。
参数
数据中心运营商感兴趣的人工智能训练的另一个衡量标准是,参数。
生成式AI模型在训练期间使用AI参数。参数的数量越多,对预期结果的预测就越准确。ChatGPT-3是基于1750亿个参数构建的。但对于AI来说,参数的数量已经在快速上升。中国LLM第一个版本WU Dao使用了1.75万亿个参数,还提供文本到图像和文本到视频的服务。因此,预计这一数字将继续增长。
由于没有可用的硬数据,可以合理地推测,运行一个有1.7万亿参数的模型所需的计算能力将是巨大的。随着我们进入更多的人工智能视频生成领域,模型中使用的数据量和参数数量将会激增。
变压器
变压器是一种神经网络架构,旨在解决序列转导或神经机器翻译问题。这意味着将输入序列转换为输出序列的任何任务。变压器层依赖于循环,因此当输入数据移动到一个变压器层时,数据会循环回其上一层,并输出到下一层。这些层提高了对下一步的预测输出。其有助于提高语音识别、文本到语音转换等。
多少电量才足够?
S&P Global发布的一份题为《人工智能的力量:来自人工智能的电力需求的疯狂预测》的报告引用了多个来源。Indigo Advisory Group的董事总经理David Groarke在最近的电话采访中表示:“就美国的电力需求而言,确实很难量化像ChatGPT这样的东西需要多少需求。从宏观数据来看,到2030年,人工智能将占全球电力需求的3%至4%。Google表示,目前人工智能占其用电量的10%到15%,即每年2.3 TWh。“
S&P Global继续道:“由阿姆斯特丹自由大学商业与经济学院博士候选人Alex de Vries进行的学术研究,引用了SemiAnalysis的研究。在10月10日发表在《Joule》杂志上的一篇评论中,估计每次Google搜索中的使用ChatGPT等生成式AI都需要超过50万台Nvidia A100 HGX服务器,总计410万个图形处理单元或GPU。如果每台服务器的电力需求为6.5 kW,则日耗电量为80 GWh,年耗电量为29.2 TWh。”
瑞典研究所RI.SE提供了用于训练AI模型的实际功率的计算结果。其表示:“训练像GPT-4这样的超大型语言模型,具有1.7万亿个参数,并使用13万亿个标记(单词片段),是一项艰巨的任务。OpenAI透露,该项目花费了1亿美元,耗时100天,使用了2.5万个NVIDIA A100 GPU。配备这些GPU的服务器每台大约消耗6.5 kW,因此在训练期间估计消耗50 GWh的能源。”
这一点很重要,因为人工智能使用的能源正在迅速成为公众讨论的话题。
数据中心已经出现在地图上,关注生态的组织正在注意到这一点。据80billiontrees网站称,目前还没有公布对人工智能行业总足迹的估计,而且人工智能领域的发展如此迅速,以至于几乎不可能获得准确的数字。查看单个人工智能模型的碳排放是目前的黄金标准……大部分能源都用于为超大规模数据中心供电和冷却,所有的计算都在这里进行。”
总结
当我们等待机器学习和人工智能过去和现有的电力使用数据出现时,很明显,一旦模型投入生产和使用,我们的计算规模将达到EB和EB级。对于数据中心的电力和冷却而言,事情就变得有趣,也更具挑战性。
还没有评论,来说两句吧...