微博
加入微博一起分享新鲜事
登录
|
注册
140
Albert是A Lite Bert的缩写,确实Albert通过词向量矩阵分解,以及transformer block的参数共享,大大降低了Bert的参数量级。在我读Albert论文之前,因为Albert和蒸馏,剪枝一起被归在模型压缩方案,导致我一直以为A… https://kz.cx/archives/16129.html
请登录并选择要私信的好友
300
Albert是A Lite Bert的缩写,确实Albert通过词向量矩阵分解,以及transformer block的参数共享,大大降低了Bert的参数量级。在我读Albert论文之前,因为Albert和蒸馏,剪枝一起被归在模型压缩方案,导致我一直以为A… https://kz.cx/archives/16129.html
赞一下这个内容
公开
分享
获取分享按钮
正在发布微博,请稍候