别着急，坐和放宽

关于关于本站关于我关于此项目

更多时间线友链监控

联系写留言发邮件 GitHub

© 2024-2025 carotadream. | RSS | 站点地图 | | Stay hungry. Stay foolish.

Powered by Mix Space&. | 萌ICP备20241880号 |

Self-Attention 3. Causal attention

2024 年 11 月 11 日星期一(已编辑)

/

58

这篇文章上次修改于 2024 年 11 月 13 日星期三，可能部分内容已经不适用，如有疑问可询问作者。

阅读此文章之前，你可能需要首先阅读以下的文章才能更好的理解上下文。

Self-Attention 1. attention weight
Self-Attention 2. trainable weights
Self-Attention 4. Single-head Attention to Multi-head Attention
Implement a GPT model 1. LLM architecture

Self-Attention 3. Causal attention

Loading...

Loading...

Loading...

Loading...

Loading...

AI 生成的摘要

该文本介绍了如何在大型语言模型任务中应用因果注意力机制（又称遮罩注意力）来限制模型计算注意力得分时只能考虑当前输入及之前的序列，而不是标准的注意机制允许访问整个序列。通过PyTorch的tril方法创建mask并进行重新归一化，利用softmax属性提高遮罩计算效率。文中描述了在因果注意力掩码中使用dropout技术防止过拟合，包括在计算完注意力权重和应用权重到向量之后的两个步骤。最后提到计划扩展因果注意力机制到多头注意力用于LLM。