微博
加入微博一起分享新鲜事
登录
|
注册
140
【Self-Attention中Dot-Product为什么要Scale(为什么要除以根号d)】在自注意力机制(Self-Attention)中,缩放点积(Scaled Dot-Product Attention)用于计算查询(Query)和键(Key)之间的相似性得分。缩放点积的公式如下: 其中, 是查询矩阵, 是键矩阵, 是值矩阵, 是键向量的维度。 为什么要
请登录并选择要私信的好友
300
【Self-Attention中Dot-Product为什么要Scale(为什么要除以根号d)】在自注意力机制(Self-Attention)中,缩放点积(Scaled Dot-Product Attention)用于计算查询(Query)和键(Key)之间的相似性得分。缩放点积的公式如下: 其中, 是查询矩阵, 是键矩阵, 是值矩阵, 是键向量的维度。 为什么要
已选择
0
张,还能选择
1
张
来自互联网
赞一下这个内容
公开
分享
获取分享按钮
正在发布微博,请稍候