别再迷信一个“万能大模型”了：用多专家 LLM 提升电商多语言搜索相关性

在跨境电商搜索里，多语言相关性一直是个又重要又难搞的问题。

英语模型强，不代表它懂泰语；
懂泰语的模型，可能又看不懂东南亚常见的“混合语言 query”；
而现实世界的用户，偏偏就爱这么搜。

最近一篇来自 Lazada 的论文给了一个非常工程化、可落地的答案：
与其训练一个越来越大的“万能模型”，不如让多个各有所长的大模型协同工作。

这篇文章，我想用尽量少的公式、尽量多的直觉，讲清楚他们到底做了什么，以及为什么这套方案值得做搜索/推荐/广告的团队认真看一眼。

一、问题背景：一个大模型，真的能覆盖所有语言吗？

在多国家、多语言电商平台中，搜索 query 往往有这些特点：

语言混杂（本地语言 + 英文品牌）
低资源语言多（泰语、越南语、印尼语等）
query 很短，语义高度依赖文化和习惯

现实中的情况是：

Qwen 这类模型英文、中文很强
Sailor 这种模型在东南亚语言上更有优势
Gemma 在某些商品理解上又更稳

👉 没有一个模型在所有语言、所有市场都同时最强。

那直觉上的做法就来了：

那我多用几个模型，一起算不就好了？

问题是：“一起算”这件事，其实非常容易做错。

二、为什么「简单模型融合」反而会翻车？

很多工程实践里的“多模型融合”，是这么干的：

多个模型各自算一个 embedding
然后 加权平均（weighted sum）
再拿去做打分或分类

这在同构模型（同结构、同 tokenizer）下可能还凑合，但在这篇论文的设定里：

每个专家模型，结构不同、训练数据不同、embedding 空间完全不对齐

作者用了一个非常形象的比喻：

模型 A 的 x 轴表示「颜色」
模型 B 的 x 轴表示「材质」
你把这两个 x 轴直接加起来 —— 语义直接乱套

结果就是：

有用特征互相抵消
embedding 变得“糊成一团”
效果甚至 不如用单一模型

👉 这篇论文一个非常重要的观点是：

多模型 ≠ 简单 ensemble，异构模型必须尊重“表示空间不同”这个事实。

三、核心思路：多位 LLM 专家 + 智能调度 + 保持各自表达

他们的整体方案可以概括成一句话：

冻结多个大模型作为“专家”，用一个轻量路由器挑人干活，再用“拼接而非加权”的方式融合专家意见。

拆开来看，有三步。

1️⃣ 多个冻结的 LLM 专家

先准备好几位“专家模型”，比如：

Qwen2.5-14B
Gemma2-9B
Sailor2-20B

它们：

用同一份搜索数据各自微调一轮
然后 参数全部冻结
后续不再改动模型本体

这样做的好处是：

模型稳定、可控
不需要搞复杂的 MoE-aware 微调
非常适合已有多个 LLM 资产的团队

2️⃣ 请求级稀疏路由：只找最合适的专家

不是每个 query 都要叫上所有专家。

作者设计了一个轻量路由器，输入是：

用户 query
商品标题
国家 / 地区信息

输出是：

top-k（比如 2 个）最合适的专家

关键点：

路由是 端到端训练的
使用 Hard Routing（训练和推理一致）
加了 负载均衡损失，防止所有流量都挤到一个专家上

结果是：

每条请求只激活少数专家
效果更好、延迟更低
吞吐率明显提升

👉 实验表明：
“挑对人干活”，比“所有人都发言”更重要。

3️⃣ 关键创新：拼接，而不是加权融合

这是全文最有价值、也最容易被忽略的一点。

流程是：

每个被选中的专家输出一个向量
各自先做线性投影（只对齐维度，不强行对齐语义）
直接拼接（concatenation） 成一个大向量
用一个小 MLP 学“怎么综合这些意见”

直觉理解是：

向量前一段：专家 A 的世界观
向量后一段：专家 B 的世界观
两者互不干扰
决策层来学：什么时候信谁、怎么联合判断

论文用 t-SNE 可视化清楚地展示了这一点：

拼接后的 embedding：正负样本清晰分离
加权融合的 embedding：纠缠在一起，边界模糊

👉 这在工程上非常重要的启示是：

不要强迫异构模型共享一个语义坐标系。

四、工程落地：离线 MoE，当“超级老师”

当然，现实世界里你不可能：

在线对每个 query 调多个 10B+ 的大模型

他们的解法非常务实：

离线用 MoE / LLM 做高质量相关性打分
用这些打分作为 teacher
蒸馏训练一个小而快的学生模型（ColBERT）
线上只跑学生模型

结果是：

MoE 不仅自己效果好
作为 teacher 反而比单一 LLM 更稳健
学生模型在真实线上流量中：
- Bad Ratio 更低
- AUC 更高

👉 多专家 MoE 的价值，不只是“直接上线”，
而是提升整个检索系统的知识上限。

五、这篇论文真正值得抄的地方

如果你在做搜索 / 推荐 / 广告相关性，我认为有三条非常实用的结论：

✅ 不要迷信“一个更大的模型”

在多语言、多区域场景下，
专家协同 > 单模型扩规模

✅ 异构模型融合，几何结构比参数更重要

Weighted sum 很可能是错的
拼接 + 小 MLP 是一个简单但有效的工程解法

✅ 把复杂留在离线，把简单留给线上

离线：多专家 + 路由 + 融合
在线：蒸馏后的小模型
是一条非常可复制的工业路径

六、写在最后

这篇论文最难得的地方在于：

问题来自真实业务
方法不过度理想化
工程细节说得足够清楚
指标提升有实际业务意义

它传递了一个很重要的信号：

在大模型时代，
如何组织和协作已有模型，可能比继续堆参数更重要。

如果你手上已经有多个微调过的 LLM，
这篇论文，真的值得你认真读一遍。