🔔科技频道[奇诺分享-ccino.org]⚡️
00:35 · 2025年3月29日 · 周六
知乎热榜 - 全站
为什么transformer的FFN需要先升维再降维?
Telegraph
|
原文
Telegraph
为什么transformer的FFN需要先升维再降维? - 知乎热榜 - 全站
W_2矩阵一般是4d\times d的,那么它的rank最高为d,也就是说至少有3d行可以被其他行线性表出,假设某个inputx\in R^{1\times d}在经过W_1以及激活函数后的hidden state为h\in R^{1\times 4d}那么FFN的outputh\cdot W_2可以看作是对W_2的4d行进行一个加权求和\sum_{i=1}^{4d}{h_i}W_{2,i},其中h_i代表h的第i个分量,W_{2,i}代表W_2的第i行。由于W_2的低秩特性,我总可以在W_2找到n(n\leq…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia