首页 国际新闻 正文

NAACL19 | 无监管循环系统神经网络文法 (URNNG)-www.betvictor31.com_伟德国际手机版_bv1946

AI 科技谈论按,本文作者韦阳,本文首发于知乎专栏自然言语处理与深度学习,AI 科技谈论获其授权转载。

韦阳知乎主页:

https://www.zhihu.com/people/godweiyang/posts

知乎专栏地址:

https://zhuanlan.zhihu.com/godweiyang

论文:Unsupervised Recurrent Neural Network Grammars

论文地址:http://arxiv.org/abs/19lse04.03746

github代码地址:

https://github.com/harvardnlp/urnng

介绍

这篇是新鲜出炉的 NAANAACL19 | 无监管循环系统神经网络文法 (URNNG)-www.betvictor31.com_伟德国际手机版_bv1946CL19 的关于无监督循环神经网络文法(URNNG)的论文,在言语模型和无监督成分句法分析上都取得了十分不错的成果,首要选用了变分推理和 RNNG。本文公式量较大粤菜,因而我也推了良久,算法也挺多的,首要上一张我推导的公式笔记:

我这篇博客就不依照论文的次序来讲了,就依照我上面这张笔记讲一讲我的了解吧李宗利少将,许多细节可能会疏忽,请拜见原文吧。

首要关于无监督成分句法分析,惯例做法便是学习一个生成模型,就比方 RNNG 便是一个生成模型,可是短少句法树 z 的监督iggcas信号怎样办呢?现在给你的输入只需语句 x,那么只能用言语模型来做监督了。习惯上咱们喜爱取疯人院宥怎样读对数,也便是:

这儿就存在几个问lolmh题,比方 z 的状况空间太大了,不可能穷举一切的,所以接下来按过程解说怎样求解。

URNNG模型

先上一张模型图,让咱们对全体模型有个大约的认知:

左面是一个推理网络(Inference Network),用来依据输入 x 推理出隐变量也便是句法树 z 的概率散布。绯红女巫右边是一个生成模型(Generative Model),用来核算从推理网络中采样出来的句法树 z 的联合概率,终究依据上面言语模型算出语句的概率,最大化这个概率即可。

接下来别离解说这两个部分和详细的优化办法。

首要将词向量和方位向量拼接,作为推理网络 LSTM 的输入:

然后算出的得分,核算办法和以往相同,用 BiLSTM 前后向输出做差,然后经过一个前馈神经网络得到分数:

接下来就需求核算句法树的概率散布了,这儿不直接核算句法树 z,而是核算它的邻接矩阵 B 的概率散布,秒速5厘米这个邻接矩阵意思便是假如存在,那么,NAACL19 | 无监管循环系统神经网络文法 (URNNG)-www.betvictor31.com_伟德国际手机版_bv1946否则的话。然后就能够用 CRF 核算出邻接矩阵 B 对应的概率:

其间

是配分函数,也便是用来将概率归约到 0 到 1 之间的:

留意这儿的并不是一切的 01 矩阵调集,而是有必要满意能发生合法句法树的矩阵,状况也许多,不能穷举求解,在这儿选用经典的 inside 算法来求解这个配分函数:

不过我觉得这儿是错的!便是这儿的两处应该改成。不过详细代码完成的时分并没有这么做,初始值相同都是,可是递推的时分选用了如下式子:

其实便是用来替代了,化简后便是代码完成这个式子,应该是为了避免数值溢出。

然后便是采样了,推理网络的意图便是核算出句法树的概率散布,然后依据这个散布采样出若干个句法树,那么现在给定一棵句法树能够依据上面的算法核算出它的概率了,那怎样采样呢?其实仍是能够经过刚刚核算得出的数组来采样,采样算法如下:

其实便是自顶向下的依据概率散布来采样每个 span 的 split,用一个行列来保存一切还没有采样出 split 的 span,然后把一切采样出NAACL19 | 无监管循环系统神经网络文法 (URNNG)-www.betvictor31.com_伟德国际手机版_bv1946的 span 在邻接矩阵中的对应值标为1。

终究推理网络采样出了若干个句法树 z,然后依据 CRF 核算出每个句法树的概率

,后边的工作就交给生成网络了。

上面的推理网络采样出了若干个句法树 z,生成网络的意图便是核算它的联合概率

。这个其实不难,在之前的 RNNG 论文笔记中,我现已大致讲过了,能够去温习一下:Recurrent Neural Network Grammars,这cn里稍稍做了一hnd169些改善。

首要需求界说一个栈用来寄存搬运的前史状况,这儿界说栈里放的元素为二元组(h, g),NAACL19 | 无监管循环系统神经网络文法 (URNNG)-www.betvictor31.com_伟德国际手机版_bv1946一个是 stack-LSTM 编码的输出,一个是子树的结构表明。首要需求猜测退休教授性情大变下一步的 action 是什么,所以取出栈顶的元素,猜测 action 的时分只需用到隐含层输出:

然后依据这个概率猜测 action 是 SHIFT 仍是 REDUCE,下面分两种状况评论。

假如是 SHIFT,那么由于是生成模型,所以需求猜测下一个移进的单词是什么:

然后将单词 x 的词向量输入到 stack-LSTM 中得到下一个时间的隐含层输出:

终究将

推动栈里。

假如是 REDUCE,那么首要需求取出栈顶的两个元素和,然后用 TreeLSTM NAACL19 | 无监管循环系统神经网络文法 (URNNG)-www.betvictor31.com_伟德国际手机版_bv1946核算出两个子结点兼并后的子树的表明维基我国解密梁光烈:

接着仍是核算 stack-LSTM 下一个时间的隐含层输出:

终究将

推动栈里。

为了避免数值溢出,惯例上咱们核算联合概率的对数:

从这个式NAACL19 | 无监管循环系统神经网络文法 (URNNG)-www.betvictor31.com_伟德国际手机版_bv1946子能够看出,联合概率界说为一切给定某段单词和 acti东京绅士物语on 猜测下一个单词和给定某段单词和 action 猜测下一个 action 的概率之积政治面貌怎样填。

假如是监督使命夏津天气预报比方 RNNG,那么只需求最大化这个联合概率就足够了,可是现在要做无监督,没有 z,留意别搞混了,推理网络采样出的 z 可不能用来监督哦,由于那本来就不是正确的,所以接下来要选用言语模型来作为终究的方针函数。

Variational Inference

语句 x 的对数概率界说为:

其间是一切合法句法树的调集,可是这儿不可能穷举一切的句法树,所以就要用到变分推理,详细的理论常识不细心介绍了,能够去查阅变分推理相关常识,下面直接推导。

其间终究一行叫做先验的依据下界(ELBO),要想最大化先验,能够最大化这个 ELBO,假如咱们对这个 ELBO 改变一下方式能够得到:

所以这个 ELBO 和先验就相差了一个 KL 散度,最大化 ELBO 的话等价于最小化 KL 散度,也便是使推理网络发生句法树的概率散布和生成模型尽量挨近。

可是这个 ELBO 仍是欠好算,虽然它把移到了求和符号也便是希望里边,所以转化一下方式:

由于模型一共有两组参数,一个是推理网络的参数,一个是生成网络的参数,所以下面别离对两个参数求导。

首要刘之冰前妻冯丽萍相片对求偏导,由于只需第一项有这个参数,所以偏导为:

这个偏导能够按NAACL19 | 无监管循环系统神经网络文法 (URNNG)-www.betvictor31.com_伟德国际手机版_bv1946照概率

采样得到:

然后对求偏导,由于有两项含有这个参数,别离求偏导。第二项是熵,它的值其实能够用之前的数组算出来,算法如下:

然后偏导能够交给深度学习库的主动微分,就不用你自己求啦。

至于第一项的偏导能够用相似于战略梯度的办法处理:

这儿终究也是转化为了采样,和战略梯度做法相似,这儿参加 baseline 来提高功能:

其间界说为一切其他的对数联合概率的均值:

至此一切偏导都已求出来了,两个经过采样得到,一个经过 inside 算法成果主动微分得到,所以去掉导数符号并相加就得到了终究的丢失函数:

必定要留意,这儿的在代码完成的时分不能传入梯度,否则的话对的偏导就会多出这一项的偏导了!

试验

试验成果这儿就不多说了,细节详细看论文吧,就贴两个成果,一个是言语模型:

能够看出在规范的 PTB 数据集上,URNNG 作用只比监督学习的 RNNG 和用 URNNG 丢失函数微调后的 RNNG 作用略差一点,可是在大数据集上,URNNG 的优势就体现出来了。

另一个是无监督成分句法分析,这儿是用的悉数长度的测验集:

这个使命上 URNNG 作用是最好的。

定论

和之前两篇言语模型做无监督成分句法分析相似,这篇论文用推理网络学习句法树的概率散布并采样句法树,再用生成网络核算这些句法树和语句的联合概率,终究用变分推理最大化语句的概率,也便是学习出一个好的言语模型。

2019 全球人工智能与机器人峰会

由我国核算机学会主办、雷锋网和香港中文大学(深圳)联合承办的 2019 全球人工智膜组词能与机器人峰会( CCF-GAIR 2019),将于 2019 年 7 月 12 日至 14 日在深圳举办。

到时,诺贝尔奖得主JamesJ. Heckman、中外院士、国际顶会主席、闻名Fellow,多位重磅嘉宾将亲身坐阵,一同评论人工智能和机器人范畴学、产、投等杂乱的生计态势。

点击阅览原文,参加NLP 论文评论体彩七位数开奖成果小组,与同行商讨沟通

相关推荐

  • 暂无相关文章