比HuggingFace快24倍！伯克利神级LLM推理系统开源，碾压SOTA，让GPU砍半

【新智元导读】打「排位赛」的大模型们背后秘密武器曝光!UC伯克利重磅开源神级LLM推理系统——vLLM，利用PagedAttention，比HuggingFace/Transformers快24倍，GPU数量减半。

(相关资料图)

过去2个月，来自UC伯克利的研究人员给大语言模型们安排了一个擂台——Chatbot Arena。

GPT-4等大语言模型玩家打起了「排位赛」，通过随机BATtle，根据Elo得分来排名。

这一过程中，每当一个用户访问并使用网站，就需要同时让两个不同的模型跑起来。

他们是如何做到的?

这不，就在今天，UC伯克利重磅开源了世界最快LLM推理和服务系统vLLM。

简之，vLLM是一个开源的LLM推理和服务引擎。它利用了全新的注意力算法「PagedAttention」，有效地管理注意力键和值。

配备全新算法的vLLM，重新定义了LLM服务的最新技术水平:

值得一提的是，「小羊驼」Vicuna在demo中用到的就是FastChat和vLLM的一个集成。

正如研究者所称，vLLM最大的优势在于——提供易用、快速、便宜的LLM服务。

这意味着，未来，即使对于像LMSYS这样计算资源有限的小型研究团队也能轻松部署自己的LLM服务。

项目地址:https://github.com/vllm-project/vllm

现在，所有人可以在GitHub仓库中使用一个命令尝试vLLM了。论文随后也会发布。

性能全面碾压SOTA

今天，这个由UC伯克利创立的开放研究组织LMSYS介绍道:

「一起来见证vLLM:Chatbot Arena背后的秘密武器。FastChat-vLLM的集成使LMSYS使用的GPU数量减少了一半，同时每天平均提供3万次请求。」

vLLM的性能具体如何?

UC伯克利团队将vLLM的吞吐量与最受欢迎的LLM库HuggingFace Transformers（HF），以及HuggingFace文本生成推理(TGI)，先前的最新技术水平进行了比较。

团队在两个设置中进行评估:在NVIDIA A10G GPU上运行LLaMA-7B模型，在NVIDIA A100GPU（40GB）上运行LLaMA-13B模型。

然后，研究人员从ShareGPT数据集中抽样请求的输入/输出长度。

在实验中，vLLM的吞吐量比HF高达24倍，并且比TGI高达3.5倍。

在每个请求只需要一个输出完成时的服务吞吐量。vLLM比HF的吞吐量高出14倍-24倍，比TGI的吞吐量高出2.2倍-2.5倍

在每个请求需要3个python并行输出完成时的服务吞吐量。vLLM比HF的吞吐量高出8.5倍-15倍，比TGI的吞吐量高出3.3倍-3.5倍

秘密武器:PagedAttention

在vLLM中，团队发现LLM服务的性能受到内存的限制。

在自回归解码过程中，LLM的所有输入token都会生成注意力键（key）和值(value)张量，并且这些张量被保留在GPU内存中以生成下一个token。

这些缓存的键和值张量通常被称为KV缓存。KV缓存具有以下特点:

1. 内存占用大:在LLaMA-13B中，单个序列的KV缓存占用高达1.7GB的内存。

2. 动态化:其大小取决于序列长度，而序列长度高度易变，且不可预测。

因此，有效管理KV缓存是一个重大挑战。对此，研究团队发现现有系统由于碎片化和过度保留而浪费了60%至80%的内存。

用团队的导师Joey Gonzalez的一句话来讲:GPU内存碎片化=慢。

为了解决这个问题，团队引入了PagedAttention，一种受到操作系统中虚拟内存和分页经典概念启发的注意力算法。

与传统的注意力算法不同，PagedAttention允许在非连续的内存空间中存储连续的键和值。

具体来说，PagedAttention将每个序列的KV缓存分为若干块，每个块包含固定数量token的键和值。在注意力计算过程中，PagedAttention内核能够高效地识别和提取这些块。

PagedAttention:KV缓存被分割成块，这些块在内存中不需要连续

由于这些块在内存中不需要连续，因此也就可以像操作系统的虚拟内存一样，以更灵活的方式管理键和值——将块看作页，token看作字节，序列看作进程。

序列的连续逻辑块通过块表映射到非连续的物理块。随着生成新的token，物理块会按需进行分配。

使用PagedAttention的请求生成过程示例

PagedAttention将内存浪费控制在了序列的最后一个块中。

在实践中，这带来了接近最优的内存使用——仅有不到4%的浪费。

而这种内存效率的提升，能让系统将更多的序列进行批处理，提高GPU利用率，从而显著提高吞吐量。

此外，PagedAttention还具有另一个关键优势:高效的内存共享。

比如在并行采样中，就能从相同的提示生成多个输出序列。在这种情况下，提示的计算和内存可以在输出序列之间共享。

并行采样的示例

PagedAttention通过块表自然地实现了内存共享。

类似于进程共享物理页的方式，PagedAttention中的不同序列可以通过将它们的逻辑块映射到相同的物理块来共享块。

为了确保安全，PagedAttention会跟踪物理块的引用计数，并实现了写时复制机制。

采样多个输出的请求示例生成过程

PagedAttention的内存共享极大减少了复杂采样算法（如并行采样和束搜索）的内存开销，将它们的内存使用量减少了高达55%。这可以将吞吐量提高多达2.2倍。

总结而言，PagedAttention是vLLM的核心技术，它是LLM推断和服务的引擎，支持各种模型，具有高性能和易于使用的界面。

GitHub上，团队也介绍了vLLM能够无缝支持的HuggingFace模型，包括以下架构:

- GPT-2（gpt2、gpt2-xl等）

- GPTNeoX（EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b等）

- LLaMA（lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b等）

- OPT（facebook/opt-66b、facebook/opt-iml-max-30b等）

小羊驼和排位赛的「幕后英雄」

4月初，UC伯克利学者联手UCSD、CMU等，最先推出了一个开源全新模型——130亿参数的Vicuna，俗称「小羊驼」。从那时起，Vicuna已在Chatbot Arena为数百万用户提供服务。

最初，LMSYS的FastChat采用基于HF Transformers的服务后端来提供聊天demo。

但随着demo变得越来越受欢迎，峰值流量猛增了好几倍，而HF后端也因此成了一个重大的瓶颈。

为了解决这一挑战，LMSYS与vLLM团队紧密合作，全力开发出了全新的FastChat-vLLM集成——通过将vLLM作为新的后端，来满足不断增长的需求（最多增加5倍的流量）。

根据LMSYS内部微基准测试的结果，vLLM服务后端可以实现比初始HF后端高出30倍的吞吐量。

4月-5月期间，Chatbot Arena的后端已经部落了FastChat-vLLM的集成。实际上，有超过一半的Chatbot Arena请求都使用FastChat-vLLM集成服务的

自4月中旬以来，最受欢迎的语言模型，如Vicuna、Koala和LLaMA，都已成功使用FastChat-vLLM集成提供服务。

FastChat作为多模型聊天服务前端，vLLM作为推理后端，LMSYS能够利用有限数量的GPU（学校赞助的），以高吞吐量和低延迟为数百万用户提供Vicuna服务。

现在，LMSYS正在将vLLM的使用扩展到更多的模型，包括Databricks Dolly、LAION的OpenAsssiant和Stability AI的StableLM等。

vLLM使用教程

使用以下命令安装vLLM（另可查看安装指南了解更多信息）:

$pipinstallvllm

vLLM可用于离线推理和在线服务。要使用vLLM进行离线推理，你可以导入vLLM并在python脚本中使用LL编程客栈M类:

fromvllmimportLLMprompts=["Hello，mynameis"，"ThecapitalofFranceis"]#Sampleprompts.llm=LLM（model="lmsys/vicuna-7b-v1.3"）#CreateanLLM.outputs=llm.generatejavascript(prompts)#Generatetextsfromtheprompts.

要使用vLLM进行在线服务，你可以通过以下方式启动与OpenAI API兼容的服务器:

$python-mvllm.entrypoints.openai.api_server--modellmsys/vicuna-7b-v1.3

你可以使用与OpenAI API相同的格式查询服务器:

$curlhttps://localhost:8000/v1/completions\-H"Content-Type:application/json"\-d"{"model":"lmsys/vicuna-7b-v1.3"，"prompt":"SanFranciscoisa"，"max_tokens":7，"temperature":0}"

有关使用vLLM的更多方法，请查看快速入门指南:

https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html

团队介绍

李卓翰

Zhuohan Li（李卓翰）是加州大学伯克利分校计算机科学专业的博士生，研究兴趣是机器学习和分布式系统的交叉领域。

在此之前，他在北京大学获得了计算机科学学士学位，指导老师是王立威和贺笛。

Woosuk Kwon

Woosuk Kwon是加州大学伯克利分校的博士生，研究兴趣是为大语言模型等新兴应用建立实用、灵活和高性能的软件系统。

团队其他成员包括庄思源、盛颖、郑怜悯、Cody Yu。团队导师包括Joey Gonzalez，Ion Stoica和张昊。

其中，团队的大部分成员同时也是LMSYS成员。

参考资料:

https://vllm.ai

比HuggingFace快24倍！伯克利神级LLM推理系统开源，碾压SOTA，让GPU砍半

高中数学40条秒杀公式！_全球即时

【速看料】郑州：重点针对耐用家电产品发放家电消费券2000万元

天天头条：天宫空间站电推进发动机首次实现在轨“换气”

滨江集团：受让杭州北鸿置业有限公司 100% 股权及对应债权-世界信息

微动态丨双星新材：签订PET复合铜箔订单

每日看点!为什么春季大扫除时不应该忘记汽车后备箱

卡耐基有什么习惯（卡耐基有哪些书）|天天速看料

若似月轮终皎洁不辞冰雪为卿热典故_若似月轮终皎洁不辞冰雪为卿热_全球微头条

蒙牛乳业(02319.HK)6月20日斥937.53万港元回购30万股

如何让孩子说话声音大点_如何让孩子说话算数

有害废弃物污染防治(对于有害废弃物污染防治简单介绍)

八旬老人为何冒着狂风暴雨出行？真相令人沉默……|观热点

00后男生网购新型毒品想掺进奶茶给室友喝被发现，获刑半年

钒钛股份：6月20日融资买入1266.43万元，融资融券余额9.99亿元 世界播报

葫芦丝怎么吹气_葫芦丝怎么吹

天天滚动:演讲技巧六种方法_演讲的六种方法和技巧

啊？Mills的推特账号已被封禁 昨日表示要公开与锡安的爱爱视频 全球实时

中际旭创现4.09亿元折价大宗交易-环球热点

气温“爆表” 极端天气，今年重现厄尔尼诺可能性增加

当前观察：图形的旋转ppt课件初三_图形的旋转ppt

信息：北京54.8亿元挂牌昌平2宗宅地 7月20日入市竞拍

全球今头条！无氧铜和纯铜的区别_无氧铜

德勤：港交所上半年IPO融资额全球排名第六 预计四季度转趋活跃_焦点短讯

【播资讯】到底谁在害怕ChatGPT？

下午好日语怎么说 下午好日语 世界今日讯

进口意大利糖果代理清关，糖果进口报关单据清单【一般贸易报关攻略】

跑完步励志的短句_最火励志的跑步句子 跑起来_环球新消息

港澳入籍10年可甄选志愿役？台军退役少将批：病急乱投医

黎巴嫩的风能开发

专业“上新”促人才“出新”

环球微动态丨签约近1万平方米！第七届进博会招展正式启动

世界简讯:27金4银1铜，中国残疾人自行车队亚锦赛收获颇丰

GGII：到2030年中国锂电正极材料添加剂市场规模有望超40亿元|全球时讯

迈入消费级市场！飞腾CPU成功护航京东618|环球新视野

今日热讯：以监督实效擦亮金字招牌——纪检监察先进集体的工作新气象

牛排怎么腌制才嫩才好吃（牛排怎么腌制才嫩）

世界今日报丨乙肝疫苗会失效，没有抗体需及时补种

成人高考作文范文与技巧_成人高考作文范文-环球热门

全球焦点！珠光控股（01176.HK）：6月19日南向资金减持3.2万股

tfboys短篇小说集（tfboys小说大全话本）

圆锥的表面积公式六年级 圆锥的表面积公式 焦点播报

200余万失而复得-视焦点讯

【环球聚看点】国际观察：福岛核污染水危害不可估量 日本强推排海计划违反国际法

天天资讯：加强农业强国金融供给

焦点速讯：双柜台模式开启，人民币可以买港股

异动快报：西子洁能 0025349月7日13点0分触及涨停板

市城市管理委员会2023年第二次会议召开：提升精细化管理水平 持续改善城市环境品质

微信备用金怎样申请 微信备用金怎样申请的|世界聚焦

【天天聚看点】喜报！南财理财通斩获第六届（2023）数字金融创新大赛数据治理金奖！

甘州区南街街道泰安社区：党建引领促就业 织牢民生服务网

《梦中的那片海》贺红玲家庭事业双失败，原生家庭注定了她的结局

前沿热点：弘宇股份(002890.SZ)：董事、高管柳秋杰及张立杰减持期届满未减持

中国国家领导人是否会见布林肯？外交部回应

白夜极光6月21日更新公告 白夜极光6月21日更新内容

工业富联盘中涨停

1158万人！今年高校毕业生数量再创历史新高！找工作更难了...

当前焦点!我是羔羊你是狼简谱_我是羔羊你是狼

“她影时代”到来，陈可辛为何喜欢强悍女性角色｜上影节_微动态

怀孕多久会感觉出来_怀孕多久有感觉出来

AOXMED瑷科缦绿安缦生机绿植园限时快闪店空降北京_每日信息

关注：跟队记者：阿尔瓦雷斯、帕雷德斯和洛塞尔索将首发出战印尼

联合集团(00373.HK)继续停牌 待公布内幕消息-观热点

世界热文：世界观焦点：停息挂账几个小时处理逾期会怎么样？停息挂账容易申请吗？

网络与新媒体专业课程有哪些 都学什么

初级经济师报考条件是什么（初级经济师报考条件）_世界热头条

世界首个合成人类胚胎引发伦理争议_每日速递

【世界速看料】毕业生在沈阳首次购房可享补贴

每日观点：河北科技大学专科有什么专业（河北科技大学专科）

什么是最高额抵押（最高额抵押是什么意思）_世界动态

是直肠癌的症状吗？

Amazfit GTR和Amazfit GTS更新带来了白天小睡监控

反渗透阻垢剂成分分析_反渗透阻垢剂成分

描写情人节的句子

祝福爸爸的话（精彩3篇）|全球独家

蝶豆花的功效与禁忌和作用_蝶豆花的功效与禁忌-焦点快看

环球即时：打脸质疑者！陈雨菲夺冠太燃 5场2-0打破心魔 赛后霸气庆祝

“色诱”多名高官，留下神秘录像带后，卢嘉丽携款88亿潜逃_当前动态

环球快资讯丨1月30日Gloria Vanderbilt的童年住宅以5000万美元的价格上市

感动！青岛初三男生中考前一天摔骨裂 老师、民警齐上阵暖心护考_世界球精选

钒钛股份：6月20日融资买入1266.43万元，融资融券余额9.99亿元世界播报

啊？Mills的推特账号已被封禁昨日表示要公开与锡安的爱爱视频全球实时

德勤：港交所上半年IPO融资额全球排名第六预计四季度转趋活跃_焦点短讯

下午好日语怎么说下午好日语世界今日讯

跑完步励志的短句_最火励志的跑步句子跑起来_环球新消息

圆锥的表面积公式六年级圆锥的表面积公式焦点播报

【环球聚看点】国际观察：福岛核污染水危害不可估量日本强推排海计划违反国际法

市城市管理委员会2023年第二次会议召开：提升精细化管理水平持续改善城市环境品质

微信备用金怎样申请微信备用金怎样申请的|世界聚焦

甘州区南街街道泰安社区：党建引领促就业织牢民生服务网

白夜极光6月21日更新公告白夜极光6月21日更新内容

联合集团(00373.HK)继续停牌待公布内幕消息-观热点

网络与新媒体专业课程有哪些都学什么

环球即时：打脸质疑者！陈雨菲夺冠太燃 5场2-0打破心魔赛后霸气庆祝

感动！青岛初三男生中考前一天摔骨裂老师、民警齐上阵暖心护考_世界球精选

免疫荧光法检测过敏源_免疫荧光法独家焦点

《星露谷物语像素谷》penny温泉事件不能触发问题解决方法

他从第一变老三　蔡正元：高虹安现象已发生-世界热门

董承非最新观点：结构性行情成常态，目前主要配置运营商、火电、半导体全球快看

sofia歌曲歌词_sofia歌曲信息

医疗三等释义是什么全球热头条

天天视点！30多万买一套港人涌向惠州海景房

每日速讯：借条怎么写有法律效力范本（借条怎么写）

白敬亭宋轶新剧《长风渡》官宣定档6月18日！世界视讯

鲁西西外传读后感140字（鲁西西外传注音版）

深交所：北海银河生物产业投资股份有限公司股票终止上市世界头条

九死一生打一生肖最佳答案是什么_九死一生打一生肖每日快看

扬子洲中学南昌康桥绿城属于哪个社区

管理层疯狂减持，总裁套现超2亿港元，新东方在线不值500亿？环球今日讯

中手游（00302.HK）：6月16日南向资金增持132.8万股环球精选

普京：俄罗斯在未来5年将大幅更新商船队将建造至少260艘船|全球今热点

ST龙席拟向银行申请1000万授信以公司不动产作为该笔授信业务的抵押担保环球新动态

【和美城乡四大行动】重安镇清水江村：以“四个着力点” 引领庭院美化新风尚_全球今热点

羽泉我是歌手全部歌曲_羽泉我是歌手

浙江6月17日进入主汛期目前主要江河站水位均低于警戒水位每日热讯

中国银行定期存款利率是多少？利息如何计算？视讯

庆元县百山祖镇：守护基层防疫净土文化礼堂冲在一线|全球快播