CS224N WINTER 2022(1)词向量(附)Assignment1答案） CS224N WINTER 2022(2)反向传播、神经网络、依存分析(附件)Assignment2答案） CS224N WINTER 2022（三）RNN、语言模型、梯度消失和梯度爆炸Assignment3答案） CS224N WINTER 2022年(4)机器翻译注意力机制subword模型（附Assignment4答案） CS224N WINTER 2022（五）Transformers详解（附Assignment5答案）

序言

CS224N WINTER 2022课件可从https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1224/下载，也可从以下网盘获取:
```
https://pan.baidu.com/s/1LDD1H3X3RS5wYuhpIeJOkA 提取码: hpu3 
```
本系列博客的开头还将提供下载链接，总结相应的课件。
课件、作业答案、学习笔记（Updating）：GitHub@cs224n-winter-2022
本系列博客内容说明：
- 作者根据自己的情况记录更有用的知识点，并提出少量的意见或扩展延伸，而不是slide内容完整笔注；
- CS224N WINTER 2022年共五次作业，作者提供自己完成的参考答案，不保证其正确性；
- 由于CSDN限制博客字数，作者不能在博客中发表完整内容，只能分篇发布，可以从我身上发布GitHub Repository获得完整的笔记，本系列其他分篇博客发布（Updating）：
  
  CS224N WINTER 2022(1)词向量(附)Assignment1答案）
  
  CS224N WINTER 2022(2)反向传播、神经网络、依存分析(附件)Assignment2答案）
  
  CS224N WINTER 2022（三）RNN、语言模型、梯度消失和梯度爆炸Assignment3答案）
  
  CS224N WINTER 2022年(4)机器翻译注意力机制subword模型（附Assignment4答案）
  
  CS224N WINTER 2022（五）Transformers详解（附Assignment5答案）

文章目录

序言
- lecture 1 词向量
- - slides
  - notes
  - suggested readings
  - gensim word vectors example
  - assignment1 参考答案
- lecture 2 词向量和词窗分类
- - slides
  - notes
  - suggested readings
  - additional readings
  - python review session

lecture 1 词向量

slides

[slides]

以WordNet以词库存缺陷为例：slides p.15

很难区分单词之间的细微差异：同义词列表缺乏适当的语境范围标记。
缺失单词的最新含义；
主观编写；
更新和应用需要人力；
准确计算单词相似度难以应用；

分布语义学（Distributional semantics）：slides p.18

单词的含义可以由经常出现在附近的单词推定，即通过上下文语境建模单词。

Word2Vec(2013年)词向量1模型的思想：slides p.21

足标语言的足量语料库和给定的词汇表；
目的是将给定词汇表中的每个单词表示为一个向量；
语料库中的每个单词 c c c（称为中心词），获取上下文语境 o o o（若干语境词构成）；
使用单词 c c c的词向量与语境 o o o中各个单词的词向量的相似度来计算在给定 c c c的条件下出现 o o o的概率（或反过来在给定 o o o的条件下出现 c c c的概率，即mask的思想）；
不断调整词向量使得④中的条件概率尽可能的大；

Word2Vec模型的目标函数：slides p.25 minimize { u w i , v w i } i = 1 ∣ v ∣ J ( θ ) = − 1 T ∑ t = 1 T ∑ − m ≤ j ≤ m , j ≠ 0 log ⁡ P ( w t + j ∣ w t ; θ ) (1.1) \text{minimize}_{\{u_{w_i},v_{w_i}\}_{i=1}^{|v|}}\quad J(\theta)=-\frac1T\sum_{t=1}^T\sum_{-m\le j\le m,j\neq0}\log P(w_{t+j}|w_t;\theta)\tag{1.1} minimize{ uwi,vwi}i=1∣v∣J(θ)=−T1t=1∑T−m≤j≤m,j=0∑logP(wt+j∣wt;θ)(1.1)

其中概率 P P P（称为预测函数）的计算方式如下：

P ( o ∣ c ) = exp ⁡ ( u o ⊤ v c ) ∑ w ∈ V exp ⁡ ( u w ⊤ v c ) (1.2) P(o|c)=\frac{\exp(u_o^\top v_c)}{\sum_{w\in V}\exp(u_w^\top v_c)}\tag{1.2} P(o∣c)=∑w∈Vexp(uw⊤vc)exp(uo⊤vc)(1.2)

根据assignment2中的说法，这个结果可以理解为是真实的单词概率分布 y y y向量与预测的单词概率分布 y ^ \hat y y^向量之间的交叉熵。

式中变量说明：

① T T T表示语料库规模（即文本长度）；

② V V V表示词汇表；

③ m m m表示上下文窗口大小；

④ w i w_i wi表示在第 i i i个位置上的单词；

⑤ v w v_w vw表示单词 w w w作为中心词的词向量；

⑥ u w u_w uw表示单词 w w w作为语境词的词向量；

⑦ θ \theta θ表示超参数；

Word2Vec模型中每个单词都有两个词向量，最终将两个词向量取均值作为模型输出的词向量。

因此式 ( 1.1 ) (1.1) (1.1)中决策变量总数为 2 d ∣ V ∣ 2d|V| 2d∣V∣，其中 d d d为给定的词向量嵌入维度。

由于变量数量非常多，因此通常选择随机梯度下降法求解Word2Vec模型。

Word2Vec模型预测函数偏导结果的重要意义：slides p.29-32 ∂ P ( o ∣ c ) ∂ v c = ∂ ∂ v c log ⁡ exp ⁡ ( u o ⊤ v c ) ∑ w ∈ V exp ⁡ ( u w ⊤ v c ) = ∂ ∂ v c log ⁡ exp ⁡ ( u o ⊤ v c ) − ∂ ∂ v c log ⁡ ( ∑ w ∈ V exp ⁡ ( u w ⊤ v c ) ) = ∂ ∂ v c u o ⊤ v c − 1 ∑ w ∈ V exp ⁡ ( u w ⊤ v c ) ⋅ ∂ ∂ v c ∑ x ∈ V exp ⁡ ( u x ⊤ v c ) = u o − 1 ∑ w ∈ V exp ⁡ ( u w ⊤ v c ) ⋅ ∑ x ∈ V ∂ ∂ v c exp ⁡ ( u x ⊤ v c ) = u o − 1 ∑ w ∈ V exp ⁡ ( u w ⊤ v c ) ⋅ ∑ x ∈ V exp ⁡ ( u x ⊤ v c ) ∂ ∂ v c u x ⊤ v c = u o − 1 ∑ w ∈ V exp ⁡ ( u w ⊤ v c ) ∑ x ∈ V exp ⁡ ( u x ⊤ v c ) u x = u o − ∑ x ∈ V exp ⁡ ( u x ⊤ v c ) ∑ w ∈ V exp ⁡ ( u w ⊤ v c ) u x = u o − ∑ x ∈ V P ( x ∣ c ) u x = observed − expected (1.3) \begin{aligned} \frac{\partial P(o|c)}{\partial v_c}&=\frac{\partial}{\partial v_c}\log\frac{\exp(u_o^\top v_c)}{\sum_{w\in V}\exp(u_w^\top v_c)}\\ &=\frac{\partial}{\partial v_c}\log\exp(u_o^\top v_c)-\frac{\partial}{\partial v_c}\log\left(\sum_{w\in V}\exp(u_w^\top v_c)\right)\\ &=\frac{\partial}{\partial v_c}u_o^\top v_c-\frac{1}{\sum_{w\in V}\exp(u_w^\top v_c)}\cdot\frac{\partial}{\partial v_c}\sum_{x\in V}\exp(u_x^\top v_c)\\ &=u_o-\frac{1}{\sum_{w\in V}\exp(u_w^\top v_c)}\cdot\sum_{x\in V}\frac{\partial}{\partial v_c}\exp(u_x^\top v_c)\\ &=u_o-\frac{1}{\sum_{w\in V}\exp(u_w^\top v_c)}\cdot\sum_{x\in V}\exp(u_x^\top v_c)\frac{\partial}{\partial v_c}u_x^\top v_c\\ &=u_o-\frac{1}{\sum_{w\in V}\exp(u_w^\top v_c)}\sum_{x\in V}\exp(u_x^\top v_c)u_x\\ &=u_o-\sum_{x\in V}\frac{\exp(u_x^\top v_c)}{\sum_{w\in V}\exp(u_w^\top v_c)}u_x\\ &=u_o-\sum_{x\in V}P(x|c)u_x\\ &=\text{observed}-\text{expected} \end{aligned}\tag{1.3} ∂vc∂P(o∣c)=∂vc∂log∑w∈Vexp(uw⊤vc)exp(uo⊤vc)=∂vc∂logexp(uo⊤vc)−∂vc∂log(w∈V∑exp(uw⊤vc))=∂vc∂uo⊤vc−∑w∈Vexp(uw⊤vc)1⋅∂vc∂x∈V∑exp(ux⊤vc) 标签： y27a2024tj圆形连接器撕裂传感器限位开关zwn

锐单商城拥有海量元器件数据手册、 IC替代型号，打造电子元器件IC百科大全！

资讯详情

CS224N WINTER 2022（一）词向量（附Assignment1答案）

序言

文章目录

lecture 1 词向量

slides

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

CS224N WINTER 2022（一）词向量（附Assignment1答案）

序言

文章目录

lecture 1 词向量

slides

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录