别再迷信一个“万能大模型”了:用多专家 LLM 提升电商多语言搜索相关性
在跨境电商搜索里,多语言相关性一直是个又重要又难搞的问题。
英语模型强,不代表它懂泰语;
懂泰语的模型,可能又看不懂东南亚常见的“混合语言 query”;
而现实世界的用户,偏偏就爱这么搜。
最近一篇来自 Lazada 的论文给了一个非常工程化、可落地的答案:
与其训练一个越来越大的“万能模型”,不如让多个各有所长的大模型协同工作。
这篇文章,我想用尽量少的公式、尽量多的直觉,讲清楚他们到底做了什么,以及为什么这套方案值得做搜索/推荐/广告的团队认真看一眼。
一、问题背景:一个大模型,真的能覆盖所有语言吗?
在多国家、多语言电商平台中,搜索 query 往往有这些特点:
- 语言混杂(本地语言 + 英文品牌)
- 低资源语言多(泰语、越南语、印尼语等)
- query 很短,语义高度依赖文化和习惯
现实中的情况是:
- Qwen 这类模型英文、中文很强
- Sailor 这种模型在东南亚语言上更有优势
- Gemma 在某些商品理解上又更稳
👉 没有一个模型在所有语言、所有市场都同时最强。
那直觉上的做法就来了:
那我多用几个模型,一起算不就好了?
问题是:“一起算”这件事,其实非常容易做错。
二、为什么「简单模型融合」反而会翻车?
很多工程实践里的“多模型融合”,是这么干的:
- 多个模型各自算一个 embedding
- 然后 加权平均(weighted sum)
- 再拿去做打分或分类
这在同构模型(同结构、同 tokenizer)下可能还凑合,但在这篇论文的设定里:
每个专家模型,结构不同、训练数据不同、embedding 空间完全不对齐
作者用了一个非常形象的比喻:
- 模型 A 的 x 轴表示「颜色」
- 模型 B 的 x 轴表示「材质」
- 你把这两个 x 轴直接加起来 —— 语义直接乱套
结果就是:
- 有用特征互相抵消
- embedding 变得“糊成一团”
- 效果甚至 不如用单一模型
👉 这篇论文一个非常重要的观点是:
多模型 ≠ 简单 ensemble,异构模型必须尊重“表示空间不同”这个事实。
三、核心思路:多位 LLM 专家 + 智能调度 + 保持各自表达
他们的整体方案可以概括成一句话:
冻结多个大模型作为“专家”,用一个轻量路由器挑人干活,再用“拼接而非加权”的方式融合专家意见。
拆开来看,有三步。
1️⃣ 多个冻结的 LLM 专家
先准备好几位“专家模型”,比如:
- Qwen2.5-14B
- Gemma2-9B
- Sailor2-20B
它们:
- 用同一份搜索数据各自微调一轮
- 然后 参数全部冻结
- 后续不再改动模型本体
这样做的好处是:
- 模型稳定、可控
- 不需要搞复杂的 MoE-aware 微调
- 非常适合已有多个 LLM 资产的团队
2️⃣ 请求级稀疏路由:只找最合适的专家
不是每个 query 都要叫上所有专家。
作者设计了一个轻量路由器,输入是:
- 用户 query
- 商品标题
- 国家 / 地区信息
输出是:
- top-k(比如 2 个)最合适的专家
关键点:
- 路由是 端到端训练的
- 使用 Hard Routing(训练和推理一致)
- 加了 负载均衡损失,防止所有流量都挤到一个专家上
结果是:
- 每条请求只激活少数专家
- 效果更好、延迟更低
- 吞吐率明显提升
👉 实验表明:
“挑对人干活”,比“所有人都发言”更重要。
3️⃣ 关键创新:拼接,而不是加权融合
这是全文最有价值、也最容易被忽略的一点。
流程是:
- 每个被选中的专家输出一个向量
- 各自先做线性投影(只对齐维度,不强行对齐语义)
- 直接拼接(concatenation) 成一个大向量
- 用一个小 MLP 学“怎么综合这些意见”
直觉理解是:
- 向量前一段:专家 A 的世界观
- 向量后一段:专家 B 的世界观
- 两者互不干扰
- 决策层来学:什么时候信谁、怎么联合判断
论文用 t-SNE 可视化清楚地展示了这一点:
- 拼接后的 embedding:正负样本清晰分离
- 加权融合的 embedding:纠缠在一起,边界模糊
👉 这在工程上非常重要的启示是:
不要强迫异构模型共享一个语义坐标系。
四、工程落地:离线 MoE,当“超级老师”
当然,现实世界里你不可能:
- 在线对每个 query 调多个 10B+ 的大模型
他们的解法非常务实:
- 离线用 MoE / LLM 做高质量相关性打分
- 用这些打分作为 teacher
- 蒸馏训练一个小而快的学生模型(ColBERT)
- 线上只跑学生模型
结果是:
- MoE 不仅自己效果好
- 作为 teacher 反而比单一 LLM 更稳健
- 学生模型在真实线上流量中:
- Bad Ratio 更低
- AUC 更高
👉 多专家 MoE 的价值,不只是“直接上线”,
而是提升整个检索系统的知识上限。
五、这篇论文真正值得抄的地方
如果你在做搜索 / 推荐 / 广告相关性,我认为有三条非常实用的结论:
✅ 不要迷信“一个更大的模型”
在多语言、多区域场景下,
专家协同 > 单模型扩规模
✅ 异构模型融合,几何结构比参数更重要
- Weighted sum 很可能是错的
- 拼接 + 小 MLP 是一个简单但有效的工程解法
✅ 把复杂留在离线,把简单留给线上
- 离线:多专家 + 路由 + 融合
- 在线:蒸馏后的小模型
- 是一条非常可复制的工业路径
六、写在最后
这篇论文最难得的地方在于:
- 问题来自真实业务
- 方法不过度理想化
- 工程细节说得足够清楚
- 指标提升有实际业务意义
它传递了一个很重要的信号:
在大模型时代,
如何组织和协作已有模型,可能比继续堆参数更重要。
如果你手上已经有多个微调过的 LLM,
这篇论文,真的值得你认真读一遍。