用全球最快GPU做这件事要花355年

用全球最快GPU做这件事要花355年

前不久,人工智能研究组织OpenAI发布了语言模型GPT-3,让人惊讶的是,这个模型实在太大,即便是地球上最快的GPU(图形处理器),也需要300多年才能完成训练。

据海外科技网站lambdalabs介绍,GPT-3拥有1750亿个参数模型,如果用全世界最快的GPU——Tesla V100来训练,那么整个培训周期需要355年。

相比之下,使用全球首款光线追踪GPU——QUADRO RTX 8000进行训练,那么周期将长达665年。

用全球最快GPU做这件事要花355年

Tesla V100是英伟达的顶级GPU,采用全新一代Volta架构,可在单个GPU中提供高达100个CPU的性能,其32GB版本售价接近6万元人民币。

更惊人的是,利用云端的Lambda GPU Cloud训练GPT-3,其全部成本将高达460万美元。

事实上,时间不是唯一的敌人,1750个参数需要700GB的内存,这比显存最大的GPU—— quadrortx 8000还高出一个数量级。

用全球最快GPU做这件事要花355年

那么,究竟什么是GPT-3模型?

据analyticsindiamag介绍,GPT-3是目前最先进的AI语言模型,可以生成以假乱真的新闻、进行语言翻译或者回答标准化测试问题。

研究人员发现,GPT-3在翻译、问答和完形填空等任务中表现出较强的性能,在词汇解读和三位数运算方面也表现不俗。

用全球最快GPU做这件事要花355年