CS224N WINTER 2022(1)词向量(附)Assignment1答案) CS224N WINTER 2022(2)反向传播、神经网络、依存分析(附件)Assignment2答案) CS224N WINTER 2022(三)RNN、语言模型、梯度消失和梯度爆炸Assignment3答案) CS224N WINTER 2022年(4)机器翻译注意力机制subword模型(附Assignment4答案) CS224N WINTER 2022(五)Transformers详解(附Assignment5答案)
序言
-
CS224N WINTER 2022课件可从https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1224/下载,也可从以下网盘获取:
https://pan.baidu.com/s/1LDD1H3X3RS5wYuhpIeJOkA 提取码: hpu3
本系列博客的开头还将提供下载链接,总结相应的课件。
-
(Updating):GitHub@cs224n-winter-2022
-
:
-
作者根据自己的情况记录更有用的知识点,并提出少量的意见或扩展延伸,而不是slide内容完整笔注;
-
CS224N WINTER 2022年共五次作业,作者提供自己完成的参考答案,不保证其正确性;
-
由于CSDN限制博客字数,作者不能在博客中发表完整内容,只能分篇发布,可以从我身上发布GitHub Repository获得完整的笔记,(Updating):
CS224N WINTER 2022(1)词向量(附)Assignment1答案)
CS224N WINTER 2022(2)反向传播、神经网络、依存分析(附件)Assignment2答案)
CS224N WINTER 2022(三)RNN、语言模型、梯度消失和梯度爆炸Assignment3答案)
CS224N WINTER 2022年(4)机器翻译注意力机制subword模型(附Assignment4答案)
CS224N WINTER 2022(五)Transformers详解(附Assignment5答案)
-
文章目录
- 序言
-
- lecture 1 词向量
-
- slides
- notes
- suggested readings
- gensim word vectors example
- assignment1 参考答案
- lecture 2 词向量和词窗分类
-
- slides
- notes
- suggested readings
- additional readings
- python review session
lecture 1 词向量
slides
[slides]
-
:slides p.15
-
很难区分单词之间的细微差异:同义词列表缺乏适当的语境范围标记。
-
缺失单词的最新含义;
-
主观编写;
-
更新和应用需要人力;
-
准确计算单词相似度难以应用;
-
-
(Distributional semantics):slides p.18
单词的含义可以由经常出现在附近的单词推定,即通过上下文语境建模单词。
-
:slides p.21
-
足标语言的足量语料库和给定的词汇表;
-
目的是将给定词汇表中的每个单词表示为一个向量;
-
语料库中的每个单词 c c c(称为),获取上下文语境 o o o(若干构成);
-
使用单词 c c c的词向量与语境 o o o中各个单词的词向量的相似度来计算在给定 c c c的条件下出现 o o o的概率(或反过来在给定 o o o的条件下出现 c c c的概率,即mask的思想);
-
不断调整词向量使得④中的条件概率尽可能的大;
-
-
:slides p.25 minimize { u w i , v w i } i = 1 ∣ v ∣ J ( θ ) = − 1 T ∑ t = 1 T ∑ − m ≤ j ≤ m , j ≠ 0 log P ( w t + j ∣ w t ; θ ) (1.1) \text{minimize}_{\{u_{w_i},v_{w_i}\}_{i=1}^{|v|}}\quad J(\theta)=-\frac1T\sum_{t=1}^T\sum_{-m\le j\le m,j\neq0}\log P(w_{t+j}|w_t;\theta)\tag{1.1} minimize{ uwi,vwi}i=1∣v∣J(θ)=−T1t=1∑T−m≤j≤m,j=0∑logP(wt+j∣wt;θ)(1.1)
其中概率 P P P(称为预测函数)的计算方式如下:
P ( o ∣ c ) = exp ( u o ⊤ v c ) ∑ w ∈ V exp ( u w ⊤ v c ) (1.2) P(o|c)=\frac{\exp(u_o^\top v_c)}{\sum_{w\in V}\exp(u_w^\top v_c)}\tag{1.2} P(o∣c)=∑w∈Vexp(uw⊤vc)exp(uo⊤vc)(1.2)
根据assignment2中的说法,这个结果可以理解为是真实的单词概率分布 y y y向量与预测的单词概率分布 y ^ \hat y y^向量之间的交叉熵。
式中变量说明:
① T T T表示语料库规模(即文本长度);
② V V V表示词汇表;
③ m m m表示上下文窗口大小;
④ w i w_i wi表示在第 i i i个位置上的单词;
⑤ v w v_w vw表示单词 w w w作为中心词的词向量;
⑥ u w u_w uw表示单词 w w w作为语境词的词向量;
⑦ θ \theta θ表示超参数;
Word2Vec模型中每个单词都有两个词向量,最终将两个词向量取均值作为模型输出的词向量。
因此式 ( 1.1 ) (1.1) (1.1)中决策变量总数为 2 d ∣ V ∣ 2d|V| 2d∣V∣,其中 d d d为给定的词向量嵌入维度。
由于变量数量非常多,因此通常选择随机梯度下降法求解Word2Vec模型。
-
:slides p.29-32 ∂ P ( o ∣ c ) ∂ v c = ∂ ∂ v c log exp ( u o ⊤ v c ) ∑ w ∈ V exp ( u w ⊤ v c ) = ∂ ∂ v c log exp ( u o ⊤ v c ) − ∂ ∂ v c log ( ∑ w ∈ V exp ( u w ⊤ v c ) ) = ∂ ∂ v c u o ⊤ v c − 1 ∑ w ∈ V exp ( u w ⊤ v c ) ⋅ ∂ ∂ v c ∑ x ∈ V exp ( u x ⊤ v c ) = u o − 1 ∑ w ∈ V exp ( u w ⊤ v c ) ⋅ ∑ x ∈ V ∂ ∂ v c exp ( u x ⊤ v c ) = u o − 1 ∑ w ∈ V exp ( u w ⊤ v c ) ⋅ ∑ x ∈ V exp ( u x ⊤ v c ) ∂ ∂ v c u x ⊤ v c = u o − 1 ∑ w ∈ V exp ( u w ⊤ v c ) ∑ x ∈ V exp ( u x ⊤ v c ) u x = u o − ∑ x ∈ V exp ( u x ⊤ v c ) ∑ w ∈ V exp ( u w ⊤ v c ) u x = u o − ∑ x ∈ V P ( x ∣ c ) u x = observed − expected (1.3) \begin{aligned} \frac{\partial P(o|c)}{\partial v_c}&=\frac{\partial}{\partial v_c}\log\frac{\exp(u_o^\top v_c)}{\sum_{w\in V}\exp(u_w^\top v_c)}\\ &=\frac{\partial}{\partial v_c}\log\exp(u_o^\top v_c)-\frac{\partial}{\partial v_c}\log\left(\sum_{w\in V}\exp(u_w^\top v_c)\right)\\ &=\frac{\partial}{\partial v_c}u_o^\top v_c-\frac{1}{\sum_{w\in V}\exp(u_w^\top v_c)}\cdot\frac{\partial}{\partial v_c}\sum_{x\in V}\exp(u_x^\top v_c)\\ &=u_o-\frac{1}{\sum_{w\in V}\exp(u_w^\top v_c)}\cdot\sum_{x\in V}\frac{\partial}{\partial v_c}\exp(u_x^\top v_c)\\ &=u_o-\frac{1}{\sum_{w\in V}\exp(u_w^\top v_c)}\cdot\sum_{x\in V}\exp(u_x^\top v_c)\frac{\partial}{\partial v_c}u_x^\top v_c\\ &=u_o-\frac{1}{\sum_{w\in V}\exp(u_w^\top v_c)}\sum_{x\in V}\exp(u_x^\top v_c)u_x\\ &=u_o-\sum_{x\in V}\frac{\exp(u_x^\top v_c)}{\sum_{w\in V}\exp(u_w^\top v_c)}u_x\\ &=u_o-\sum_{x\in V}P(x|c)u_x\\ &=\text{observed}-\text{expected} \end{aligned}\tag{1.3} ∂vc∂P(o∣c)=∂vc∂log∑w∈Vexp(uw⊤vc)exp(uo⊤vc)=∂vc∂logexp(uo⊤vc)−∂vc∂log(w∈V∑exp(uw⊤vc))=∂vc∂uo⊤vc−∑w∈Vexp(uw⊤vc)1⋅∂vc∂x∈V∑exp(ux⊤vc) 标签: y27a2024tj圆形连接器撕裂传感器限位开关zwn