XM外汇中文网

全球领先的互联网券商

[XM外汇中文网]月之暗面与清华新论文:LLM预填充可跨数据中心,1T模型吞吐升54%

币界网报道:币界网消息,4 月 18 日(UTC+8),据 动察 Beating 监测,月之暗面(Moonshot AI)与清华大学 4 月 16 日在 arXiv 挂出新论文《Prefill-as-a-Service》,提出让大模型推理的预填充阶段(prefill)跨数据中心运行。 大模型推理分两步:prefill 先把输入一次性读进来、生成一份 KV 缓存;decode 再根据这份缓存逐字吐出结果。两步需要的硬件特性完全不同,prefill 吃算力,decode 吃显存带宽。业界主流做法是把两步拆到不同机器上(PD 分离),但这要求两边在同一个数据中心里用 RDMA 互联,因为密集 attention 模型的 KV 缓存每秒几十 Gbps 地吐,一旦传慢 GPU 就空转。 转折来自新一代 hybrid attention 模型。论文实测 Kimi Linear、MiMo-V2-Flash、Ring-2.5-1T 等模型通过少量完整 attention 层加大量线性层的组合,把 KV 缓存吞吐量砍掉了约一个数量级,Ring-2.5-1T 的综合压缩比达到 36 倍。这时 KV 缓存可以从 RDMA 专网搬到普通以太网上传。 PrfaaS 的具体做法:组建独立的「预填充集群」,只把长上下文、未命中前缀缓存的请求路由过去,短请求留在本地 PD 集群;预填充完成后通过以太网把 KV 缓存回传本地集群做 decode。配套引入长度阈值路由、带宽感知调度器和混合前缀缓存池。论文用内部 1T 参数 hybrid 模型(基于 Kimi Linear 架构)做了一组实测,整体服务吞吐比同构 PD 部署高 54%,比朴素异构方案高 32%,每台机器只占适中的跨数据中心带宽。

法律: 此网站由XM Global Limited运行,注册地址是:Suite 404, The Matalon, Coney Drive, 伯利兹市, 伯利兹。

XM Global Limited受伯利兹金融服务委员会(FSC)授权和监管(牌照号: 000261/397),Trading Point of Financial Instruments Limited受塞浦路斯证券交易委员会(CySEC)授权和监管(牌照号:120/10),并均是Trading Point Group旗下公司。

风险提示: 外汇和差价合约交易对于您的投资资本含有风险。请确保您已通读并完全理解我们的风险披露。

受限地区: XM Global Limited无法为特定国家/地区的居民提供服务,例如: 美国, 加拿大, 以色列 和 伊朗伊斯兰共和国。

XM的网站和服务,均严禁开放提供给任何受国家/地区法律法规禁止使用的任何个体。因此,若选择从该国访问本公司网站,无论该国是否禁止使用本网站,用户在使用本网站时,均有责任确保自己遵守当地法律或法规。XM不保证本公司网站上的信息,适用于所有的司法管辖区域。