liangzhh25 最近的时间轴更新
liangzhh25

liangzhh25

V2EX 第 662433 号会员,加入于 2023-11-14 17:11:48 +08:00
今日活跃度排名 29581
liangzhh25 最近回复了
103 天前
回复了 LeeReamond 创建的主题 Python Transformer 是不是缺乏跨维度关系捕捉能力?
再补充一点,一般注意力结构后面都会再接个 mlp 或者 ffn ,这里会有通道维度上的全连接,通过多个 attn-mlp 结构,应该是能实现 op 说的跨维度信息捕捉的能力。
103 天前
回复了 LeeReamond 创建的主题 Python Transformer 是不是缺乏跨维度关系捕捉能力?
发现说的有点不对,transformer 的注意力确实是两个词的 q 和 k 在各自的维度相乘,求和计算得到的,这个注意力本身就有点类似 cv 的空间注意力。也能理解,要是维度之间还要计算相关的话,attention 计算量就要爆炸了。以上是个人理解。
103 天前
回复了 LeeReamond 创建的主题 Python Transformer 是不是缺乏跨维度关系捕捉能力?
@neopenx 我理解 op 的问题也是你说的那样 hhh
苏神博客里面 Transformer 升级之路系列里面有好些关于位置编码的文章,推荐看看,我也是刚学的小白。
按我的理解,绝对位置编码是给序列位置相关项,而相对位置编码是在绝对位置编码的推导下使 位置相关项 转化为 相对位置相关项。具体可以看 https://www.kexue.fm/archives/8130 的(3)式和(4)式
支持支持
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1180 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 22:53 · PVG 06:53 · LAX 15:53 · JFK 18:53
Developed with CodeLauncher
♥ Do have faith in what you're doing.