北师大珠海校区校长学院开班仪式举行

11月13日,北京师范大学珠海校区乡长学院和中国乡村振兴与发展研究中心揭牌暨乡村振兴领军人才培训工程(第一期)开班典礼在珠海校区励教楼举行。中央农办、农业农村部乡村振兴专家咨询委员会副秘书长宋洪远,文化和旅游部资源开发司副司长徐海军,珠海市政府党组副书记刘嘉文,国维集团董事长史维学;北京师范大学党委常委、副校长、珠海校区管委会主任王守军,校长助理、珠海校区管委会副主任郑国民,珠海校区党委书记韦蔚,珠海校区管委会副主任戴伟、傅爱兰,珠海校区党委副书记张献斌等出席典礼,来自全国各地的66名乡镇长学员以及北师大部分科研院所和职能部处相关负责人参加典礼。

王守军在致辞中表示,今年是脱贫攻坚决战之年,是全面建成小康社会决胜之年,更是向第二个百年奋斗目标进军的启动之年。在这样的历史关键时期,北京师范大学秉承与国家同呼吸、共命运的优良传统,于今年9月成立北京师范大学珠海校区乡长学院,致力于贯彻落实国家乡村振兴战略、致力于推动农业农村新时代发展、致力于全面提升乡镇治理体系和治理能力现代化。乡长学院要为实现乡村振兴战略的“产业兴旺、生态宜居、乡风文明、治理有效、生活富裕”总目标提供人才支持和智力保障,力争把“北京师范大学珠海校区乡长学院”办成在全国有影响力、知名的标志性公益培训品牌,形成乡镇经济可持续发展诊断与跟踪服务新生态。

三是明确推广范围建设领域。《意见》明确,将采取以工代赈方式实施项目的范围,全面拓展到农村生产生活基础设施、农村交通基础设施、水利基础设施、文化旅游基础设施、林业草原基础设施等5大领域。特别是增加了灾毁水毁农村小型基础设施恢复重建,因灾损毁营造林附属配套工程复建,防止因灾致贫返贫。

除了采用巧妙的缓存策略,这种对长距离上下文的惩罚项使得跨度自适应 Transformer 可以使用使用高达 8k 个字符的注意力跨度,同时仍然保持模型的总体计算开销较低。此外,模型在基准对比测试中的性能仍然很高,在 Enwiki8 数据集上达到每字符占用 0.98 比特,在 text8 数据集上则达到每字符 1.07 比特。

在上面的公式中,              表示基于内容的注意力在位置 i 处的词例的嵌入 ,              是词例 j 的位置编码嵌入。其中,每一项的含义如下:

另外,Transformer-XL 的原始论文测量了有效上下文长度对困惑度(perplexity,交叉熵的指数形式)的影响。作者发现,增加上下文长度(上下文长度高达九百个词例)会得到更好的困惑度分数(预测样本更准确),这进一步证明了循环机制不仅理论上可行,而且实际上也十分有效。

在实验中,他们设置压缩内存的大小为 512,正规内存的大小为 512,滑动窗口大小为  512,压缩率为 2(这意味着最早的 2 个内存状态会在压缩步骤中被压缩到单个状态中)。在这样的实验环境下,他们取得了目前最好的实验结果——在 WikiText-103 数据集上取得了 17.1 的困惑度。

“新时代乡村振兴领军人才——乡镇长培训工程”首批学员将在10天内完成首次研修,采用名师主讲、朋辈交流、理论教学、实践观摩等八大模式,由国家部委农业农村领域政策制定专家、高校经济领域专家、优秀基层干部担任主讲人,围绕农业农村政策解读、新型城镇化建设、产业融合与发展、推动基层治理与管理创新等一系列问题进行深入解读,与学员们分享农业农村改革新动向、探索基层乡镇建设、新型城镇化等的新策略、新路径。

他们应用了一个学习到的z值的               惩罚项,以鼓励模型仅在有益的情况下使用额外的上下文。

图 3:BERT 学到的注意力模式示意图,线的深度表明了注意力权重的强度(其中有一些注意力权重太小,以至于线变成了透明的)

二是进一步深化政策内涵。《意见》突出强调了以工代赈方式实施的建设项目中“赈”的作用,要求尽量动员当地农村劳动力参与,最大可能提供就业岗位。没有对劳务报酬发放比例限定上限,而是要根据当地实际情况在依法合规的前提下,尽量提高项目资金中劳务报酬发放比例,真正突出按劳取酬的作用。鼓励村集体经济组织或其领办的合作社,组织当地农村劳动力组建施工队伍进行建设,回归了以工代赈本源,深化了以工代赈政策内涵。

一是准确把握实施范围。《意见》对推广以工代赈方式的实施范围进行了细化,包括农村生产生活基础设施、农村交通基础设施、水利基础设施、文化旅游设施、林业草原基础设施五个方面。在项目选择上,提出投资规模小、技术门槛低、前期工作简单、务工技能要求不高的基本要求。

第一,计算注意力矩阵所要求的每秒浮点运算数(FLOPs)与序列长度的平方成正比,导致单个序列上的自注意力运算的计算复杂度为              ,其中 h 是注意力头的数量,d 是键向量和查询向量的维数,n 是序列的长度。

图 8:在前面 640 个词例上的平均注意力,其中每行对应于一个注意力头,每列对应于一个相对位置。图中共有 160 个注意力头,每十个注意力头同属于同一层。颜色越深代表注意力值越大。

然而,可变跨度大小的注意力在并行性方面并不理想,因为我们通常希望使用密集、大小一致的矩阵,从而获得最佳性能。虽然这种方法可以显著减少在预测时计算前向传播所需的每秒浮点运算次数,但作者只给出了模糊的性能估计,声明自适应跨度的实现使我们可以以与 2,048 个上下文词例的上下文大小固定的模型相近的速率处理长达 8,192 个词例的上下文。

三是建立健全工作机制。《意见》要求,建立部门协同联动和激励表扬机制,加强投入保障、督促指导和宣传引导。以工代赈方式在农业农村基础设施建设领域的推广,需要发展改革和农业农村、交通、水利、文化旅游、林草、扶贫等多部门参与,政策协调配套,形成工作合力。在投入保障上,将农业农村基础设施建设项目纳入地方政府专项债券和抗疫特别国债支持,大力推广以工代赈方式。同时,将这项工作纳入相关督促检查范围,对工作积极主动、成效明显的地方予以表扬激励。(作者:农业农村部农村经济研究中心 刘锐)

图  9:压缩 Transformer 保留了过去的激活值的细粒度内存,它们随后被压缩到粒度较粗的压缩内存中。上图中的模型有一个三层的结构:(1)一个长度为 3 的序列(2)一个长度为 6 的内存(3)长度为 6 的压缩内存。高亮显示的内存在每层中被一种压缩函数 f_c 压缩到单个压缩内存中,而不是直接被接下来的序列忽略。在本例中,压缩比为 c=3。

Transformer-XL 还引入了一种新的位置编码方案,即“相对位置编码”。这种方案不再简单地将内容和绝对位置嵌入的总和作为网络输入,而是对每层的注意力操进行分解,其中一部分基于内容执行注意力,另一部分基于相对位置执行注意力。因此,块中的第 512 个词例会注意到第 511 个词例,在这里会采用 相对位置 -1 相应的嵌入。

图 11:通过词频刻画的离散特征桶(bucket)的困惑度

《意见》出台具有四方面重要意义

一半的注意力头只关注较短的局部上下文中的项,而剩余的一半注意力头关注的是预先指定好的在整个序列中均匀分布的索引。通过根据这些聚合索引确定信息流动路径,网络仍然能够使得相距较远的词例间传递信息,并使用长距离上下文,同时将时间和内存复杂性降低到              。重要的是,它只需要两层就可以让任意词例考虑来自任何其它词例的信息。

《意见》内容突出四个亮点

多头自注意力机制扩展到长文本序列的能力很差,原因有二:

3、对注意力的思考和实验结果

图 5:注意力跨度随层数变化的示意图

一是充分突出以人民为中心的发展思想。习近平总书记指出,要充分尊重广大农民意愿,调动广大农民积极性、主动性、创造性,把广大农民对美好生活的向往化为推动乡村振兴的动力。乡村是广大农民群众的家园,通过以工代赈方式激发广大农民增收致富的内生动力,积极参与巩固拓展脱贫攻坚成果和实施乡村振兴战略,共享发展成果。

四是有利于补齐“三农”领域短板,全面推进乡村振兴。尽管今年脱贫攻坚任务将全面完成,但“三农”短板依然存在,需要加大投入力度。项目的实施范围全部围绕农业农村基础设施建设,对于补齐“三农”领域基础设施建设短板、夯实农业生产基础、持续改善农村人居环境、推动休闲农业和乡村旅游配套设施提档升级、丰富乡村文化生活也具有重要意义。

Transformer XL 通过强制地使段落被串行处理来解决这一限制。处理完成第一个段之后,先前段的激活值将作为上下文传递给后续段的注意力,因此始终有 512 个紧邻的字符的上下文被记录。这意味着跨度为 N 个上下文大小 * L 层的信息可以传播到给定的词例。假设上下文大小为 640,并且模型有 16 层,那么 Transformer XL 理论上至多可以考虑 10,240 个字符的信号。

a)基于键内容的查询内容“寻址”

今年是决胜全面建成小康社会、决战脱贫攻坚之年。站在“两个一百年”历史交汇期,面向实现乡村振兴和农业农村现代化出发的新起点,出台《意见》具有重要意义。

要在自己的项目中使用固定注意力kernel,请查看OpenAI的blocksparse库和作者作为开源发布的附带示例。

二是有利于提升农民技能,拓展农村就业空间。《意见》明确,将在农业农村基础设施建设的五个领域,围绕投资规模小、技术门槛低、前期工作简单、务工技能要求不高的农业农村基础设施项目,积极推广以工代赈方式,广泛组织动员农村劳动力参与工程建设。有针对性地开展实训和以工代训,帮助参与务工的群众掌握实际操作技能,并优先吸纳就业,延伸扩大就业容量。

2、对注意力的思考和实验结果

值得注意的是,分解后的注意力结构似乎不会对语言建模的性能产生负面影响,反而惊人地令每个字符需要的比特数比密集的注意力机制(原始 Transformer)在 Enwiki8 语料环境下要少一些,并且可以在包含多达 12,228 个词例的上下文中得到高效的注意力。

图 2:稀疏 Transformer 的固定注意力变体。最深的蓝色方块代表「查询」向量,较浅的蓝色方块代表被奇数层注意的「键」向量索引,最浅的蓝色方块代表被偶数层注意的「键」向量索引。

遵循着 Transformer-XL 的设定,序列可以注意到一组存储下来的之前段的激活值。 另外,在相同的多头注意里操作中,当前段中的词例可以注意到存储在「压缩内存」中的第二组状态。

可以想象的到,稀疏 transformer 之所以起作用,部分原因是它学到的的注意力模式与实际学习的密集注意力模式并没有什么不同。在 Kevin Clark 等人发表的文章”What Does BERT Look At? An Analysis of BERT’s Attention”(论文地址:https://arxiv.org/abs/1906.04341)中,作者探索了密集注意力学习到的模式,想要找到注意力在transformer 中起什么作用。他们发现关注紧密相连的前面的词例(类似于稀疏注意力机制中的局部注意力模式)以及关注特定聚合词例(如 [SEP] 和句号)的注意力头有重要作用。因此,可能编码在稀疏  transformer 注意模式中的归纳偏置是有积极作用的。

我们用 BERT-Base 中的一些具体数字来解释一下复杂度到底有多高。BERT-Base 序列输入的最大长度为 512,768 个的隐藏维度和 12 个注意力头,这意味着每个注意力头有 64 维(768/12)。在这种设定下,需要 393,216 个浮点数(约为 1.5MB)(12 个注意力头* 64 注意力头的维度* 512 序列长度)来存储键和值,而存储所有注意力头得到的标量注意力值所需的内存将达到 3,145,728 个浮点数(12 * 512 * 512)或约 12MB 的设备内存,这里所需的内存几乎是将键存储在长度为 512 个词的上下文时的 10 倍。

在典型的自注意力机制中,其输入序列中的每一项都要计算与输入序列中的其它项之间形成的注意力,从而得到如下所示的注意力模式:

DeepMind 的研究团队尝试使用了各种各样的压缩操作(包括平均池化、最大池化、学习到的卷积操作等对比基线),但是他们最终决定训练一个辅助网络,该网络被用于重建基于内容的被压缩的内存的注意力矩阵。换而言之,他们学习了一种函数              ,该函数通过最小化压缩内存上的注意力              与被压缩的常规内存中状态的注意力之间的差异,将最早的 n 个内存状态压缩到了单个压缩后的内存状态中:

为贯彻落实党中央、国务院关于以工代赈工作的部署要求,进一步巩固拓展脱贫攻坚成果、做好脱贫攻坚与乡村振兴有效衔接,近日,国家发展改革委联合中央农办、财政部、交通运输部、水利部、农业农村部、文化和旅游部、国家林草局、国务院扶贫办等部门和单位印发实施了《关于在农业农村基础设施建设领域积极推广以工代赈方式的意见》(以下简称《意见》)。现从三个方面对《意见》进行政策解读。

图7:Transformer-XL 中的词例注意力模式,其中端的长度为 4

对于包含在查询的位置中的项(c 和 d),我们使用两个新的可学习参数 u 和 v 替代了               矩阵。这些向量可以被理解为两个偏置,它们并不依赖于查询的特征。c 促使模型对某些项的注意力程度比对其它项更高,而 d 促使模型对某些相对位置的注意力程度比对其它位置更高。这种替代的方式受到了下面这一事实的启发:查询相对于自己的相对位置始终保持不变。

为了使相对位置编码易于处理,他们将生成注意力权重的操作和键和生成查询向量、键向量的操作分离。对于典型的密集注意力机制,进行 softmax 计算之前的注意力可以被分解如下:

由于这些限制,大多数注意力头只关注少于100 字符的上下文,而只有少数(主要是在网络的后几层)选择添加一个              惩罚项,从而学习大于 1000 个字符的上下文。

由于让状态容易被压缩与减小语言模型的损失是相矛盾的,他们选择在一个独立的优化循环中更新压缩网络,而不是同时训练这种压缩操作和主要的语言模型。

为了使 Transformer-XL 模型能够使用长距离的上下文,每层中至少有一个注意力头必须利用其注意力跨度内的全部上下文。平均注意权重图显示,每一层都有一些注意力头,注意到先前许多的位置。

乡长学院是北京师范大学珠海校区二级学院,依托中组部全国干部教育培训高校基地—北京师范大学基地,由北京师范大学中国乡村振兴与发展研究中心和北京师范大学继续教育与教师培训学院(珠海)提供高端智库和培训服务支撑。乡长学院的服务对象是以乡镇长为代表的农业农村基层干部及后备干部等。乡长学院将整合北京师范大学北京校区和珠海校区在各相关学科的资源优势,根据产业兴旺、生态宜居、乡风文明、治理有效、生活富裕的总要求,传播乡村振兴先进理念和方法,提升以乡镇长为主体的基层干部的现代化管理能力和综合治理能力,搭建东西协作、城乡融合的桥梁,共创农业强、农村美、农民富的新型现代“产学研、校企研”合作共赢平台,为培养造就一支懂农业、爱农村、爱农民的“三农”工作队伍贡献力量。

三是有利于激发内生动力,改变乡村生产生活条件。让农民群众通过自身劳动获取报酬,激发其脱贫致富内生动力是以工代赈项目的初衷,也是1984年政策实施以来一直保持活力的原因。农民既是项目建设者也是项目受益者,广大农民通过自己的双手,改变生产生活条件,让产业更兴旺、生态更宜居、村庄更美好,进一步坚定了用辛勤劳动创造美好生活的信心和决心,汇聚了乡村发展的强大动力。

学院将通过开展多样化、高效优质的培训,提升乡村基层干部的现代化管理能力和治理能力;学院将搭建东西协作、城乡融合的桥梁,共创农业强、农村美、农民富的新型现代“产学研”合作共赢平台;学院将建设成为北京师范大学服务国家脱贫攻坚战略和乡村振兴战略的重要智库、教学实践和培训基地。

会上宣读了北京师范大学珠海校区乡长学院和中国乡村振兴与发展研究中心成立批文,并举行了学院和中心的揭牌仪式。

二是严格落实工作要求。在项目谋划、资金安排、工程实施中要将以工代赈作为一项重要因素统筹考虑,积极谋划采取以工代赈方式实施的项目,并重点做好务工组织、报酬发放和技能培训等工作。务工组织方面,要积极动员本地农村劳动力参与,尽可能多的提供本地就业岗位;报酬发放方面,要根据当地实际情况,合理确定劳务报酬标准,确保及时足额发放,尽量提高劳务报酬比例;技能培训方面,有针对性地开展实训和以工代训,并优先吸纳就业。

《意见》对在农业农村基础设施建设领域推广以工代赈方式提出了具体要求,为更好的发挥以工代赈功能作用,促进政策有效实施,需要把握三个关键点。

图 1:以一种自回归的形式组织的传统自注意力机制的连接模式。深蓝色方块代表「查询」向量,而浅蓝色方块代表「键」向量。

使用相对位置嵌入时,公式被改写为:

四是建立部门协同联动机制。为更好的推动政策落地并取得实效,《意见》进一步完善考核激励机制。要求各级政府建立由发展改革部门牵头,其他部门参与的部际沟通协调机制,明确责任分工,形成工作合力。同时,将这项工作纳入相关督促检查范围,对工作积极主动、成效明显的地方予以表扬激励。通过健全机制,调动地方推广以工代赈方式的积极性,真正发挥“赈”的作用。

为了进行梯度运算,必须在训练过程中缓存激活值,除非使用诸如梯度检查点之类的重计算策略,因此对于每个示例来说,存储所有 12 层 BERT base 的注意力矩阵就需要大概 150MB 的内存。当序列长度为 1024 时,内存需求则变为约 600MB,而序列长度为 2048 时,对于每个示例的注意矩阵而言,内存需求就已达到约 2.4GB。这意味着在训练时可以使用的批处理规模较小,并行性较差,并会进一步阻碍我们训练该模型处理长上下文的能力。 

标准 transformer 的上下文大小是固定的,要想处理长的输入需要将输入分成块(段落),并分别处理每个块(段落)。

b)基于键位置的查询内容位置偏置

另一件糟糕的事是:点积自注意力运算的空间复杂度也与序列长度的平方成正比。计算注意力矩阵的空间复杂度为              ,其中 hdn 是存储键和查询所需的内存的阶,而              是指存储每个注意力头产生的标量注意力值所需内存的阶。

传统自我注意力机制的一大好处是,高度的连通性使词例 (token) 之间的信息容易流通,仅需一层即可聚合来自任何两个词例的信息。但是,如果放宽此约束,并确保任意两个词例之间的信息只能在经过两层之后才可以流通,则可以极大地降低长序列带来的复杂性。稀疏 Transformer 通过编写利用固定注意力模式的自定义核来实现此目标。

一是有利于持续增加农民收入,巩固拓展脱贫攻坚成果。对于采取以工代赈方式实施的农业农村基础设施项目,按照就地就近原则,优先吸纳脱贫不稳定户、边缘易致贫户、其他农村低收入群体参与工程建设,拓宽农民就业增收渠道,增加了农民收入特别是低收入农民收入,有利于防范化解返贫风险,巩固拓展脱贫攻坚成果。

图 10:将过去存储的内存逐渐压缩到压缩内存中。

由于通过利用更长的序列所获得的收益往往是符合长尾分布的,他们专门关注了由词频刻画的离散特征的困惑度,并指出最稀有的词例带来的收益是最显著的:

值得注意的是,尽管密集注意力机制让每个注意力头可以关注整个上下文,但很多注意力头只考虑局部上下文,而其它注意力头则考虑了整个可用序列。他们建议通过使用一种自注意力的变体来利用这种观察结果,这种变体允许模型选择它的上下文大小。

为了避免存储先前所有段的激活值,作者阻止了梯度流向前面的段。

然而,这种方法存在一个限制:前面段落的信息不能流向当前的词例。这种段与段之间的独立性在某种程度上有益于高效地对段落进行批处理,但从长距离一致性的角度出发,这又变成了一个主要限制因素。

在每一个时间步上,最早的一个压缩内存会被丢弃,压缩内存的索引会回退一位。接着,常规的内存段中最早的 n 个状态会被压缩,并且被转移到压缩内存中新开的槽中。       

d)根据键的位置的查询位置偏置

Adaptive Span Transformer 通过实现这一点的方式是:通过对序列进行掩模运算,使得学习到的每个注意力头的上下文之外的词例的贡献迅速降为零。mask(M)与 softmax 操作的分对数相乘,从而将某些词例对当前隐藏状态 x 的贡献归零,超参数 R 控制最小跨度的大小。

《意见》是对以工代赈政策的延续和发展,并着眼于巩固拓展脱贫攻坚成果、全面推进乡村振兴的新形势,让这项老政策获得新的生命力。具体看,《意见》有四大亮点。

c)根据键的内容的查询位置偏置

接下来,我们继续关注由 Nikita Kitaev 等人完成的工作「Reformer:The Efficient Transformer」(论文地址:https://arxiv.org/abs/2001.04451)。Reformer 对于长度增长的序列采用了另一种策略,他们选择通过局部敏感哈希技术将每个词例的注意力范围变窄,而不是引入循环机制或压缩内存。

贯彻落实《意见》需要把握的三个关键点