品牌时报网 > 热点关注> 正文

H100推理性能最高提升8倍，英伟达发布TensorRT-LLM

2023-09-10 13:11来源：IT之家阅读量：14219

感谢IT之家网友 OC_Formula 的线索投递！

，英伟达今天宣布推出名为 TensorRT-LLM，是一个深度优化的开源库，能够在 Hopper 等 AI GPU 上加速所有大语言模型的推理性能。

英伟达目前已经和开源社区合作，利用 SmoothQuant、FlashAttention 和 fMHA 等尖端技术，实现 AI 内核来优化其 GPU，可以加速 GPT-3，Llama Falcom(180 B)和 Bloom 模型。

TensorRT-LLM 的亮点在于引入了名为 In-Flight batching 的调度方案，允许工作独立于其他任务进入和退出 GPU。

该方案允许同一 GPU 在处理大型计算密集型请求时，动态处理多个较小的查询，提高 GPU 的处理性能，可以让 H100 的吞吐量加快 2 倍。

在性能测试中，英伟达以 A100 为基础，对比了 H100 以及启用 TensorRT-LLM 的 H100，在 GPT-J 6B 推理中，H100 推理性能比 A100 提升 4 倍，而启用 TensorRT-LLM 的 H100 性能是 A100 的 8 倍。

在 Llama 2 中，H100 推理性能是 A100 的 2.6 倍；而启用 TensorRT-LLM 的 H100 性能是 A100 的 4.6 倍。

IT之家在此附上报告原文，感兴趣的用户可以深入阅读。

广告声明:文内含有的对外跳转链接，用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

责任编辑：叶知秋

最新阅读

全国夏播粮食播种面积已过八成主产区夏种正加快推进

2023-07-03 09:26

2023-07-03 09:26
预计发送旅客7.6亿人次！2023年全国铁路暑期运输今日启动

2023-07-03 09:25

2023-07-03 09:25
《中国水资源公报》发布：2022年全国用水效率进一步提升用水结构不断优化

2023-07-03 09:25

2023-07-03 09:25
水利部：9省50条河流发生超警洪水科学调度做好洪水防御工作

2023-07-03 09:25

2023-07-03 09:25
现代化产业体系重要性日益凸显专家：须以实体经济为基础

2023-05-22 17:28

2023-05-22 17:28
特斯拉CEO埃隆・马斯克弟弟：我们兄弟俩都不迷恋财

，据外媒报道，特斯拉与SpaceX首席执行官埃隆?马斯克已经是世界首富，但他的弟弟金巴尔?马斯克(KimbalMusk)表示，他们两人都不痴迷于财富。最近接受媒体采访时，金巴尔强调，他和哥哥都没有过度...

2022-03-04 10:49
昔日最强机皇宣告终结：鼎盛期苹果也不是对手！

编辑:Wallace小雷搜了一下之前写过的文章，发现原来早在2018年市场上就有消息存传出，三星可能会将旗下的顶级产线GalaxyNote系列“砍掉”，由其他产品取而代之。时间来到2020年前后，眼看...

2022-03-04 10:43
智能自动化在能源和公用事业行业的作用

随着世界对清洁、安全、可承受和可持续的电力的迫切需求，各国对于绿色能源的需求和新应用不断增长，从而希望采用可再生能源替代化石能源。能源行业正从监管转向创新，而其客户也从被动消费者转向需求旺盛的买家。以...

2022-03-04 10:42
小鹏汽车投资碳化硅半导体领域公司瞻芯电子

企查查APP显示，近日，上海瞻芯电子科技有限公司发生工商变更，新增股东广州小鹏汽车投资咨询合伙企业(有限合伙)，同时公司注册资本由4921.88万元人民币增加至5111.46万元人民币。企查查信息显示...

2022-03-04 10:41
微软智能云Azure在华的第五个数据中心区域正式启

，微软联合世纪互联正式宣布，自2022年3月1日起，全新的Azure在华数据中心区域将正式启用，客户可以不受限制地对其进行访问。这是微软智能云在中国市场的第五个Azure数据中心区域，由其合作伙伴世纪...

2022-03-04 10:39