别着急,坐和放宽
Self-Attention 3. Causal attention
2024 年 11 月 11 日 星期一
(已编辑)
技术
/
Concept
56
这篇文章上次修改于 2024 年 11 月 13 日 星期三,可能部分内容已经不适用,如有疑问可询问作者。
阅读此文章之前,你可能需要首先阅读以下的文章才能更好的理解上下文。
Self-Attention 1. attention weight
Self-Attention 2. trainable weights
Self-Attention 4. Single-head Attention to Multi-head Attention
Implement a GPT model 1. LLM architecture
Self-Attention 3. Causal attention
转换到旧版评论
免登录评论
Loading...
Loading...
Loading...
Loading...
Loading...
AI 生成的摘要
该文本介绍了如何在大型语言模型任务中应用因果注意力机制(又称遮罩注意力)来限制模型计算注意力得分时只能考虑当前输入及之前的序列,而不是标准的注意机制允许访问整个序列。通过PyTorch的tril方法创建mask并进行重新归一化,利用softmax属性提高遮罩计算效率。文中描述了在因果注意力掩码中使用dropout技术防止过拟合,包括在计算完注意力权重和应用权重到向量之后的两个步骤。最后提到计划扩展因果注意力机制到多头注意力用于LLM。