数学之美阅读经验和笔记

文章目录

数学之美阅读经验和笔记
- 读书心得
- 读书笔记
- - - 第一章:文字和语言 vs 数字和信息
    - 第二章自然语言处理-从规则到统计
    - 第三章统计语言模型
    - 第四章分词
    - 第五章隐含马尔可夫模型
    - 第六章测量和作用信息
    - 第七章贾里尼克和现代语言处理
    - 第八章简单之美-布尔代数和搜索引擎
    - 第九章图论和网络爬虫
    - 第十章 Page Rank——Google民主表决网页排名技术
    - 第十一章如何确定网页与查询的相关性
    - 第十二章有限状态机和动态规划-地图和本地搜索的核心技术
    - 第十三章 Google AK-47 设计师阿米特 ? \cdot ?辛格博士
    - 第十四章余弦定理和新闻分类
    - 第十五章矩阵分类问题：矩阵操作和文本处理
    - 第十六章信息指纹及其应用
    - 第十七章密码学的数学原理
    - 第十八章搜索引擎反作弊和搜索结果的权威性
    - 第十九章数学模型的重要性
    - 第二十章最大熵模型
    - 第二十一章拼音输入法的数学原理
    - 第二十二章马库斯是自然语言处理的教父，他的优秀弟子
    - 第二十三章布隆过滤器
    - 第二十四章贝叶斯网络的马尔可夫链扩展
    - 第二十五章随机场、文法分析等
    - 第二十六章维特比和维特比算法
    - 第二十七章期望算法最大化
    - 第二十八章逻辑回归和搜索广告
    - 第二十九章分治算法和Google云计算的基础
    - 第三十章 Google大脑和人工神经网络
    - 第三十一章大数据的力量-数据的重要性

读书心得

因为数学总是给人留下严谨、逻辑、抽象、令人困惑的印象，数学之美这个名字也让我想起了厚厚的数学公式科学书籍，但相反，作为一本科普书籍，易于阅读和理解，读者不需要太多的基础，只涉及自然语言处理领域的数学应用。

读完这本书后，除了加强对自然语言处理领域许多算法和模型的理解外，它还影响了我的思维，使我意识到数学的重要性，并有良好的印象，这也激发了我未来学习和工作的思维方式。我认为如果我以前没有学过近两个学期的自然语言处理课程，我可能会更加震惊。

经验和笔记，事实上，是非常必要的，阅读后，很多感觉是模糊的，书的内容只记得一般，经验和笔记可以加强印象，这样阅读时间不必浪费，这也是我开始写之前意识到的，我也读了大约两次。关于这本书的感受，我总结为几个关键词（可能不全面）：知识溯源、语言与通信的联系、数学之美、工程经验、思维或规律(问题不能用凑的方法解决)，人文故事(精彩有趣)，自然语言处理(研究领域)。让我逐一谈谈我的感受。

知识溯源，我不知道这个词是否准确。自然语言处理听起来和语言学有关！如果你只研究语法规则，用直觉分析句法结构，你可能永远无法从规则转变为统计。语言和信息之间的关系，通信模型可以用于自然语言处理，数学（概率）可以用来解决自然语言处理问题，作者用第一章将这些关系联系在一起，就像看纪录片（追溯语言和信息的发展历史），让我印象深刻的一句话是不同的文本系统记录信息的能力是等价的，所以如果数字作为信息的载体是可行的，这就是现代通信的基础，让我震惊。

语言与通信的联系，我以前听说信息理论、通信模型和其他通信领域的知识与自然语言处理密切相关，我可以在这本书中理解。隐含的马尔科夫模型最初应用于通信领域，但是却可以作为机器翻译和语音识别的解码器；很多自然语言处理的问题都可以总结为通信模型；而信息熵更是可以用来计算拼音输入法的最小按键次数；互信息是TF-IDF作为搜索关键词和文本特征向量的信息论依据；搜索引擎反作弊相当于通信模型中的去噪问题。可以看出，语言作为信息的载体，与通信密切相关。

数学之美，美在哪里？我认为数学美无处不在，应用广泛：自然语言处理中的数学模型太多了，解决哪个问题不需要使用数学；数学的形式也很简单：统计语言模型用简单的概率公式解释句子的合理性，奇异值分解一次性解决文本主题分类和单词语义分类，密码不对称加密只是简单的乘除操作，行星轨迹椭圆而不是大圆；数学更美丽的相关性，整合：条件随机场和逻辑回归函数形式类似于最大熵模型，培训过程相似；维特比算法实际上是一种动态规划算法；贝叶斯网络是马尔可夫链的扩展；条件随机场是隐含马尔可夫模型的扩展。

工程经验，能让你发现聪明人做事遵循的原则。这里有几个例子：不同的应用程序应该有不同的分词器。我从来没有想过分词粒度。机器翻译的分词粒度较大，搜索引擎的分词粒度可以较小。首先为用户解决80%的问题，然后慢慢解决20%的问题。如果你一开始就追求一个大而完整的解决方案，你最终可能会放弃，这让我印象深刻，因为我是一个有巨大计划的人。我经常放弃，因为我不能坚持，所以我意识到我的问题；网络爬虫是什么？DFS还是BFS，我猜不出这个问题，因为它在工程上很复杂，下载网站的调度程序原理基本上是BFS，然而，为了避免在与网站服务器建立通信的过程中消耗额外的时间，通常需要下载一个网站并进入另一个网站。这个过程有点像DFS；电话语音识别系统Google-411和Nuance原有系统相比，识别率没有提高，没有竞争力，然而，通过提供免费服务，我们从大量用户那里获得了大量的语音数据，为其真正的语音识别产品Google Voice做好准备。我对他们的商业决策感到惊讶，真的很聪明。

思维或规律，在这本书的后记中，作者指出了一个思维问题：不寻找正确的模型来解决问题，而是依靠错误的模型来拼凑。就像托勒密地心说的模型，依靠大圆套小圆，虽然是错误的模型，但还是很准确的。不寻找真正正确的椭圆形行星运动模型是不合规的。我同意这个观点，我犯过这样的错误。在编写网络爬虫程序时，爬行URL方法是凑而不是真正意义上的图遍历算法。

人文故事，在这本书中，人文故事的篇幅并不少。作者隆重介绍了贾里尼克和阿米特 ? \cdot ?辛格、马库斯、维特比等人，即使只提到其他人物，也大致描绘了自己的个性和形象，让我一见钟情地看到了许多伟大学者的个人魅力。贾里尼克的生活节俭、直言不讳、对学生的关心和对学习的热情令我钦佩。辛格的思想最激励我。他所追求的简单哲学不是没有根据的简单哲学，而是为了容易解释每一步和方法背后的真相，不仅容易在出现问题时发现错误，而且容易找到未来改进的目标。事实上，每一项改进都有得有失，负面影响会慢慢积累。因此，如果我们不知道如何避免它未来带来隐患。我非常同意！而马库斯的建立LDC语料库确实帮助了世界上所有的自然语言处理研究人员，促进了自然语言处理的发展。至于维特比，他亲自将研究结果应用到实践中，不仅提供了关键发明，而且解决了所有支持技术，以最大限度地发挥整个社会的效益（当他看到高通公司时，他也感到震惊）。

自然语言处理，本书涉及的自然语言处理更多的是搜索引擎相关技术，也提到了语音识别拼音输入法、文法分析，可能和作者的个人经历有关。以数学为线索，带我们窥见了自然语言处理领域的一角。对于我这个刚刚踏入自然语言处理大门的初学者，有很好的帮助，同时也意识到了自然语言处理领域，通信知识和数学的重要性，也让我看到并学到了一些前辈闪光的思想，也在此感谢老师对本书的推荐，让我得以增长见识，有所收获。

读书笔记

第一章：文字和语言 vs 数字和信息

语言、文字、数字，都是信息的载体，将其联系在一起是必然的
香农信息论：联系数学和信息
通信模型：
文明进步，信息增多，语言产生；语言增多，语言需要抽象，提取共同要素，形成文字；文字的增多，对概念进行概括和归类，一个符号对应多种含义，带来歧义性，依靠上下文消除歧义，这是语言固有的特点
翻译能够实现，是因为不同的文字系统在记录信息上的能力是等价的，那么如果数字作为信息的载体也是可行的，现代通信的基础
罗塞塔石碑：信息的冗余是信息安全的保障，多语的对照语料是机器翻译的基础
十进制：对数量进行编码
象形文字到拼音文字，更加抽象的对信息编码的方式
常用字短、生僻字长，符合信息论中的最短编码原理
白话口语、文言文书写，信道宽，信息不必压缩；信道窄，信息需要压缩
抄写《圣经》，校验码，字母对应一个数字，按行按列求和，对照有无抄写错误
语法是语言的编码和解码规则，但语法有限，而语言无限，语法覆盖不到的例外当作语病处理？究竟从语法出发（即规则），还是从语言出发（即语料）

第二章自然语言处理——从规则到统计

字母、文字、数字是信息编码的不同单位

任何一种语言都是一种信息的编码形式，而语法规则是编解码的算法

图灵测试，达特茅斯会议
基于规则的自然语言处理：句法分析、语义分析
局限性：首先，覆盖真实语料所需要的文法规则数量巨大，语言学家来不及写，且加入新的规则可能产生矛盾。其次，自然语言的语法规则不同于计算机高级程序语言的文法，具有词义和上下文相关的特性，难用计算机解析。而程序语言是人为设计的、便于计算机解码的上下文无关文法。
语义严重依赖上下文，甚至是常识
上世纪70年代，基于统计方法的核心模型是通信系统加隐含马尔可夫模型，输入输出都是一维符号序列且保持原有的次序，对于句法分析这种语法成分对另一个语法成分的修饰关系不一定相邻的问题，以及次序会有很大变化的机器翻译问题都不能很好解决，加上没有足够的统计数据训练不出好的效果，所以争议持续了15年。
基于统计的自然语言处理方法，在数学模型上和通信是相通的，语言和信息再次联系到一起。