ShowMeAI研究中心

作者：韩信子@ShowMeAI，路遥@ShowMeAI，奇异果@ShowMeAI
教程地址：http://www.showmeai.tech/tutorials/36
本文地址：http://www.showmeai.tech/article-detail/238
声明：所有版权，请联系平台和作者，注明来源
收藏ShowMeAI查看更多精彩内容

ShowMeAI为斯坦福CS224n自然语言处理与深度学习(Natural Language Processing with Deep Learning)》课程的所有课件都完成了中文翻译和注释，并制作成了GIF动图！

本讲内容的深入总结教程可以在这里查看。视频、课件等资料的获取方式见文末。

引言

本文涵盖了内容

1.句法结构：成分与依赖

1.1 语言结构的两种观点：无上下文语法

句子是由逐渐嵌套的单元构建的
短语结构将单词组织成嵌套成分
起步单元：单词被赋予一个类别
- part of speech = pos 词性
单词组合成不同类别短语
短语可递归地组合成更大的短语
Det 指的是 Determiner，语言学中的含义是限定词
NP 指的是 Noun Phrase，语言学中的含义是名词短语
VP ****指的是 Verb Phrase，语言学中的含义是动词短语
P 指的是 Preposition，语言学中的含义是介词
PP 指的是 Prepositional Phrase，语言学中的含义是介词短语

1.2 语言结构的两种观点：无上下文语法

1.3 语言结构的两种观点：依赖结构

它不是使用各种类型的短语，而是通过单词与其他单词的关系直接表示句子的结构，显示哪些单词依赖于其他单词（修改或参数）

补充讲解

look 是整个句子的根源，look 依赖于 crate (或者说 crate 是 look 的依赖)
- in，the，large 都是 crate 的依赖
- in the kitchen 是 crate 的修饰
- in，the 都是 kitchen 的依赖
- by the door 是 crate 的依赖

1.4 为什么我们需要句子结构？

为了正确地解释语言，我们需要理解句子结构
人类通过将单词组合成更大的单元来传达复杂的含义，从而交流复杂的思想
我们需要知道什么是相关的
- 除非我们知道其他单词的参数或修饰词是什么，否则我们不知道句子是什么意思

1.5 介词短语依附歧义

San Jose cops kill man with knife

警察用刀杀了那个人
- cops 是 kill 的 subject (subject 指主语)
- man 是 kill 的 object (object 指宾语)
- knife 是 kill 的 modifier (modifier 指修饰符)
警察杀了那个有刀的人
- knife 是 man 的 modifier (名词修饰符，简称 nmod)

1.6 介词短语依附歧义

补充讲解

from space 这个介词短语修改了前面的动词 count 还是名词 whales？
- 这就是人类语言和编程语言的区别

1.7 介词短语附加歧义成倍增加

关键的分析决策是如何依赖各种成分
- 介词短语、状语或分词短语、不定式、协调等。

补充讲解：

上述句子中有四个介词短语

board 是 approved 的主语，acquisition 是 approved 的谓语
by Royal Trustco Ltd. 是修饰 acquisition 董事会批准了该公司的收购
of Toronto 可以修饰 approved，acquisition，Royal Trustco Ltd. 经过分析，可以知道是修饰 Royal Trustco Ltd.，这意味着该公司的位置
for $$27 a share 修饰 acquisition
at its monthly meeting 修饰 approved，即表示批准的时间和地点

补充讲解：

面对如此复杂的句子结构，我们需要考虑指数级这个序列称为可能的结构卡特兰数/Catalan numbers

Catalan numbers

C n = ( 2 n ) ! / [ ( + 1 ) ! n ! ] C_{n}=(2 n) ! /[(n+1) ! n !] Cn=(2n)!/[(n+1)!n!]

1.8 协调范围模糊

补充讲解

Shuttle veteran and longtime NASA executive Fred Gregory appointed to board

一个人：[[Shuttle veteran and longtime NASA executive] Fred Gregory] appointed to board
两个人：[Shuttle veteran] and [longtime NASA executive Fred Gregory] appointed to board

1.9 协调范围模糊

例句：Doctor: No heart，cognitive issues

1.10 形容词修饰语歧义

补充讲解

Students get first hand job experience

first hand 表示第一手的，直接的，即学生获得了直接的工作经验
- first 是 hand 的形容词修饰语(amod)
first 修饰 experience，hand 修饰 job

1.11 动词短语(VP)依存歧义

补充讲解

Mutilated body washes up on Rio beach to be used for Olympic beach volleyball

to be used for Olympic beach volleyball 是动词短语 (VP)
修饰的是 body 还是 beach

2.依赖语法与树库

2.1 #论文解读# 依赖路径识别语义关系

2.2 依存文法和依存结构

关联语法假设句法结构包括词汇项之间的关系，通常是二元不对称关系(“箭头”)，称为依赖关系

Dependency Structure有两种表现形式

1.一种是直接在句子上标出依存关系箭头及语法关系

2.另一种是将其做成树状机构(Dependency Tree Graph)

箭头通常标记(type)为语法关系的名称(主题、介词对象、apposition等)
箭头连接头部(head)(调速器，上级，regent)和一个依赖(修饰词，下级，下属)
- A → A \to A→ 的事情
通常，依赖关系形成一棵树(单头，无环，连接图)

2.3 依存语法/解析历史

2.4 依存语法/解析历史

依赖结构的概念可以追溯到很久以前

Paṇini的语法(公元前5世纪)
一千年，阿拉伯语的语法的基本方法

选区/上下文无关文法是一个新奇的发明

20世纪发明(R.S.Wells,1947; then Chomsky)

现代依赖工作经常源于 L. Tesnière(1959)

是20世纪“东方”的主导方法(俄罗斯，中国，…)
- 有利于更自由的语序语言

NLP中最早类型的解析器在美国
- David Hays 是美国计算语言学的创始人之一，他很早就(第一个?)构建了依赖解析器(Hays 1962)

2.5 依存语法和依赖结构

人们对箭头指向的方式不一致：有些人把箭头朝一个方向画；有人是反过来的
- Tesnière 从头开始指向依赖，本课使用此种方式
通常添加一个伪根指向整个句子的头部，这样每个单词都精确地依赖于另一个节点

2.6 带注释数据的兴起：通用依存句法树库

补充讲解

Universal Dependencies：我们想要拥有一个统一的、并行的依赖描述，可用于任何人类语言

从前手工编写语法然后训练得到可以解析句子的解析器
用一条规则捕捉很多东西真的很有效率，但是事实证明这在实践中不是一个好主意
- 语法规则符号越来越复杂，并且没有共享和重用人类所做的工作
句子结构上的 treebanks 支持结构更有效

2.7 带注释数据的兴起

从一开始，构建 treebank 似乎比构建语法慢得多，也没有那么有用

但是 treebank 给我们提供了许多东西

可重用性
- 许多解析器、词性标记器等可以构建在它之上
- 语言学的宝贵资源
广泛的覆盖面，而不仅仅是一些直觉
频率和分布信息
一种评估系统的方法

2.8 依赖条件首选项

依赖项解析的信息来源是什么？

1.Bilexical affinities (两个单词间的密切关系)
- [discussion → issues] 是看上去有道理的
2.Dependency distance 依赖距离
- 主要是与相邻词
3.Intervening material 介于中间的物质
- 依赖很少跨越介于中间的动词或标点符号
4.Valency of heads
- How many dependents on which side are usual for a head?

2.9 依赖关系分析

通过为每个单词选择它所依赖的其他单词(包括根)来解析一个句子
通常有一些限制
- 只有一个单词是依赖于根的
- 不存在循环 A→B，B→A
这使得依赖项成为树
最后一个问题是箭头是否可以交叉(非投影的 non-projective)
- 没有交叉的就是non-projectice

2.10 射影性

定义：当单词按线性顺序排列时，没有交叉的依赖弧，所有的弧都在单词的上方
与CFG树并行的依赖关系必须是投影的
- 通过将每个类别的一个子类别作为头来形成依赖关系
但是依赖理论通常允许非投射结构来解释移位的成分
- 如果没有这些非投射依赖关系，就不可能很容易获得某些结构的语义

2.11 依存分析方法

1.Dynamic programming

Eisner(1996)提出了一种复杂度为 O(n3) 的聪明算法，它生成头部位于末尾而不是中间的解析项

2.Graph algorithms

为一个句子创建一个最小生成树
McDonald et al.’s (2005) MSTParser 使用ML分类器独立地对依赖项进行评分(他使用MIRA进行在线学习，但它也可以是其他东西)

3.Constraint Satisfaction

去掉不满足硬约束的边 Karlsson(1990), etc.

4.“Transition-based parsing” or “deterministic dependency parsing”

良好的机器学习分类器 MaltParser(Nivreet al. 2008) 指导下的依存贪婪选择。已证明非常有效。

3.基于转换的依存分析模型

3.1 #论文解读# Greedy transition-based parsing [Nivre 2003]

贪婪判别依赖解析器一种简单形式
解析器执行一系列自底向上的操作
- 大致类似于shift-reduce解析器中的“shift”或“reduce”，但“reduce”操作专门用于创建头在左或右的依赖项
解析器如下：
- 栈 σ \sigma σ 以 ROOT 符号开始，由若干 w i w_i wi 组成
- 缓存 β \beta β 以输入序列开始，由若干 w i w_i wi 组成
- 一个依存弧的集合 A A A ，一开始为空。每条边的形式是 ( w i , r , w j ) (w_i,r,w_j) (wi,r,wj)，其中 r r r 描述了节点的依存关系
- 一组操作

3.2 基本的基于转换的依存关系解析器

最终目标是 σ = [ R O O T ] \sigma = [ROOT] σ=[ROOT]， β = ϕ \beta = \phi β=ϕ， A A A 包含了所有的依存弧

补充讲解

state之间的transition有三类：

1.SHIFT：将buffer中的第一个词移出并放到stack上。
2.LEFT-ARC：将 ( w j , r , w i ) (w_j,r,w_i) (wj,r,wi) 加入边的集合 A A A，其中 w i w_i wi 是stack上的次顶层的词， w j w_j wj 是stack上的最顶层的词。
3.RIGHT-ARC：将 ( w i , r , w j ) (w_i,r,w_j) (wi,r,wj) 加入边的集合 A A A，其中 w i w_i wi 是stack上的次顶层的词， w j w_j wj 是stack上的最顶层的词。

我们不断的进行上述三类操作，直到从初始态达到最终态。

在每个状态下如何选择哪种操作呢？
当我们考虑到 LEFT-ARC 与 RIGHT-ARC 各有 ∣ R ∣ \left|R\right| ∣R∣( ∣ R ∣ \left|R\right| ∣R∣为 r r r 的类的个数)种类，我们可以将其看做是class数为 2 ∣ R ∣ + 1 2\left|R\right|+1 2∣R∣+1 的分类问题，可以用SVM等传统机器学习方法解决。

3.3 基于Arc标准转换的解析器

还有其他的 transition 方案
Analysis of I ate fish

3.4 #论文解读# MaltParser [Nivre and Hall 2005]

我们需要解释如何选择下一步行动
- Answer：机器学习
每个动作都由一个有区别分类器(例如softmax classifier)对每个合法的移动进行预测
最多三种无类型的选择，当带有类型时，最多 ∣ R ∣ × 2 + 1 \left|R\right|×2+1 ∣R∣×2+1 种
Features：栈顶单词，POS；buffer中的第一个单词，POS；等等
在最简单的形式中是没有搜索的
- 但是，如果你愿意，你可以有效地执行一个 Beam search 束搜索(虽然速度较慢，但效果更好)：你可以在每个时间步骤中保留 k k k 个好的解析前缀
该模型的精度略低于依赖解析的最高水平，但它提供了非常快的线性时间解析，性能非常好