资讯详情

CS224N WINTER 2022(一)词向量(附Assignment1答案)

CS224N WINTER 2022(1)词向量(附)Assignment1答案) CS224N WINTER 2022(2)反向传播、神经网络、依存分析(附件)Assignment2答案) CS224N WINTER 2022(三)RNN、语言模型、梯度消失和梯度爆炸Assignment3答案) CS224N WINTER 2022年(4)机器翻译注意力机制subword模型(附Assignment4答案) CS224N WINTER 2022(五)Transformers详解(附Assignment5答案)

序言

  • CS224N WINTER 2022课件可从https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1224/下载,也可从以下网盘获取:

    https://pan.baidu.com/s/1LDD1H3X3RS5wYuhpIeJOkA 提取码: hpu3 

    本系列博客的开头还将提供下载链接,总结相应的课件。

  • (Updating):GitHub@cs224n-winter-2022

    • 作者根据自己的情况记录更有用的知识点,并提出少量的意见或扩展延伸,而不是slide内容完整笔注;

    • CS224N WINTER 2022年共五次作业,作者提供自己完成的参考答案,不保证其正确性;

    • 由于CSDN限制博客字数,作者不能在博客中发表完整内容,只能分篇发布,可以从我身上发布GitHub Repository获得完整的笔记,(Updating):

      CS224N WINTER 2022(1)词向量(附)Assignment1答案)

      CS224N WINTER 2022(2)反向传播、神经网络、依存分析(附件)Assignment2答案)

      CS224N WINTER 2022(三)RNN、语言模型、梯度消失和梯度爆炸Assignment3答案)

      CS224N WINTER 2022年(4)机器翻译注意力机制subword模型(附Assignment4答案)

      CS224N WINTER 2022(五)Transformers详解(附Assignment5答案)


文章目录

  • 序言
    • lecture 1 词向量
      • slides
      • notes
      • suggested readings
      • gensim word vectors example
      • assignment1 参考答案
    • lecture 2 词向量和词窗分类
      • slides
      • notes
      • suggested readings
      • additional readings
      • python review session


lecture 1 词向量

slides

[slides]

  1. :slides p.15

    • 很难区分单词之间的细微差异:同义词列表缺乏适当的语境范围标记。

    • 缺失单词的最新含义;

    • 主观编写;

    • 更新和应用需要人力;

    • 准确计算单词相似度难以应用;

  2. (Distributional semantics):slides p.18

    单词的含义可以由经常出现在附近的单词推定,即通过上下文语境建模单词。

  3. :slides p.21

    1.

    • 足标语言的足量语料库和给定的词汇表;

    • 目的是将给定词汇表中的每个单词表示为一个向量;

    • 语料库中的每个单词 c c c(称为),获取上下文语境 o o o(若干构成);

    • 使用单词 c c c的词向量与语境 o o o中各个单词的词向量的相似度来计算在给定 c c c的条件下出现 o o o的概率(或反过来在给定 o o o的条件下出现 c c c的概率,即mask的思想)

    • 不断调整词向量使得④中的条件概率尽可能的大;

  4. :slides p.25 minimize { u w i , v w i } i = 1 ∣ v ∣ J ( θ ) = − 1 T ∑ t = 1 T ∑ − m ≤ j ≤ m , j ≠ 0 log ⁡ P ( w t + j ∣ w t ; θ ) (1.1) \text{minimize}_{\{u_{w_i},v_{w_i}\}_{i=1}^{|v|}}\quad J(\theta)=-\frac1T\sum_{t=1}^T\sum_{-m\le j\le m,j\neq0}\log P(w_{t+j}|w_t;\theta)\tag{1.1} minimize{ uwi​​,vwi​​}i=1∣v∣​​J(θ)=−T1​t=1∑T​−m≤j≤m,j​=0∑​logP(wt+j​∣wt​;θ)(1.1)

    其中概率 P P P(称为预测函数)的计算方式如下:

    P ( o ∣ c ) = exp ⁡ ( u o ⊤ v c ) ∑ w ∈ V exp ⁡ ( u w ⊤ v c ) (1.2) P(o|c)=\frac{\exp(u_o^\top v_c)}{\sum_{w\in V}\exp(u_w^\top v_c)}\tag{1.2} P(o∣c)=∑w∈V​exp(uw⊤​vc​)exp(uo⊤​vc​)​(1.2)

    根据assignment2中的说法,这个结果可以理解为是真实的单词概率分布 y y y向量与预测的单词概率分布 y ^ \hat y y^​向量之间的交叉熵。

    式中变量说明:

    ① T T T表示语料库规模(即文本长度);

    ② V V V表示词汇表;

    ③ m m m表示上下文窗口大小;

    ④ w i w_i wi​表示在第 i i i个位置上的单词;

    ⑤ v w v_w vw​表示单词 w w w作为中心词的词向量;

    ⑥ u w u_w uw​表示单词 w w w作为语境词的词向量;

    ⑦ θ \theta θ表示超参数;

    Word2Vec模型中每个单词都有两个词向量,最终将两个词向量取均值作为模型输出的词向量。

    因此式 ( 1.1 ) (1.1) (1.1)中决策变量总数为 2 d ∣ V ∣ 2d|V| 2d∣V∣,其中 d d d为给定的词向量嵌入维度。

    由于变量数量非常多,因此通常选择随机梯度下降法求解Word2Vec模型。

  5. :slides p.29-32 ∂ P ( o ∣ c ) ∂ v c = ∂ ∂ v c log ⁡ exp ⁡ ( u o ⊤ v c ) ∑ w ∈ V exp ⁡ ( u w ⊤ v c ) = ∂ ∂ v c log ⁡ exp ⁡ ( u o ⊤ v c ) − ∂ ∂ v c log ⁡ ( ∑ w ∈ V exp ⁡ ( u w ⊤ v c ) ) = ∂ ∂ v c u o ⊤ v c − 1 ∑ w ∈ V exp ⁡ ( u w ⊤ v c ) ⋅ ∂ ∂ v c ∑ x ∈ V exp ⁡ ( u x ⊤ v c ) = u o − 1 ∑ w ∈ V exp ⁡ ( u w ⊤ v c ) ⋅ ∑ x ∈ V ∂ ∂ v c exp ⁡ ( u x ⊤ v c ) = u o − 1 ∑ w ∈ V exp ⁡ ( u w ⊤ v c ) ⋅ ∑ x ∈ V exp ⁡ ( u x ⊤ v c ) ∂ ∂ v c u x ⊤ v c = u o − 1 ∑ w ∈ V exp ⁡ ( u w ⊤ v c ) ∑ x ∈ V exp ⁡ ( u x ⊤ v c ) u x = u o − ∑ x ∈ V exp ⁡ ( u x ⊤ v c ) ∑ w ∈ V exp ⁡ ( u w ⊤ v c ) u x = u o − ∑ x ∈ V P ( x ∣ c ) u x = observed − expected (1.3) \begin{aligned} \frac{\partial P(o|c)}{\partial v_c}&=\frac{\partial}{\partial v_c}\log\frac{\exp(u_o^\top v_c)}{\sum_{w\in V}\exp(u_w^\top v_c)}\\ &=\frac{\partial}{\partial v_c}\log\exp(u_o^\top v_c)-\frac{\partial}{\partial v_c}\log\left(\sum_{w\in V}\exp(u_w^\top v_c)\right)\\ &=\frac{\partial}{\partial v_c}u_o^\top v_c-\frac{1}{\sum_{w\in V}\exp(u_w^\top v_c)}\cdot\frac{\partial}{\partial v_c}\sum_{x\in V}\exp(u_x^\top v_c)\\ &=u_o-\frac{1}{\sum_{w\in V}\exp(u_w^\top v_c)}\cdot\sum_{x\in V}\frac{\partial}{\partial v_c}\exp(u_x^\top v_c)\\ &=u_o-\frac{1}{\sum_{w\in V}\exp(u_w^\top v_c)}\cdot\sum_{x\in V}\exp(u_x^\top v_c)\frac{\partial}{\partial v_c}u_x^\top v_c\\ &=u_o-\frac{1}{\sum_{w\in V}\exp(u_w^\top v_c)}\sum_{x\in V}\exp(u_x^\top v_c)u_x\\ &=u_o-\sum_{x\in V}\frac{\exp(u_x^\top v_c)}{\sum_{w\in V}\exp(u_w^\top v_c)}u_x\\ &=u_o-\sum_{x\in V}P(x|c)u_x\\ &=\text{observed}-\text{expected} \end{aligned}\tag{1.3} ∂vc​∂P(o∣c)​​=∂vc​∂​log∑w∈V​exp(uw⊤​vc​)exp(uo⊤​vc​)​=∂vc​∂​logexp(uo⊤​vc​)−∂vc​∂​log(w∈V∑​exp(uw⊤​vc​))=∂vc​∂​uo⊤​vc​−∑w∈V​exp(uw⊤​vc​)1​⋅∂vc​∂​x∈V∑​exp(ux⊤​vc​) 标签: y27a2024tj圆形连接器撕裂传感器限位开关zwn

    锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台