文章目录
- 1 引言
- 2 相关工作
- 3 我们的方法
-
- 3.1 表格类型分类
- 3.2 表格分割
- 3.3 生成单元格上下文
- 3.4 链接单元格至排行榜
-
- 3.4.1 从凭证中推理
- 3.5 过滤
- 4 数据集
-
- 4.1 arXiv Papers
- 4.2 Segmented Tables
- 4.3 Linked Results
- 4.4 PWC Leaderboards
- 5 实验
-
- 5.1 NLP-TDMS Results
- 5.2 PWC Leaderboards Results
- 6 性能研究
-
- 6.1 表格类型分类
- 6.2 表格分割
- 6.3 链接
- 7 未来工作
- 8 结论
1. AxCell: Automatic Extraction of Results from Machine Learning Papers
随着论文数量的爆炸式增长,跟踪机器学习的进展变得越来越繁重。本文提出了从论文中提取结果的自动机器学习流水线 - 。使用一些新的组件,包括学习表格分割子任务,有助于提取相关的结构知识。
与现有方法相比,我们的方法显著提高了结果提取SOTA。我们还发布了结构化、标签化的结果提取训练集,以及评估结果提取模型性能的验证集。
最后,我们在产品中展示了我们的方法结果表明,我们的改进使任务首次可行。代码可以GitHub中获取。
1 引言
如何根据任务、评价指标和数据集学习机器(Mitchell, 2006)。(、、、)可以看作是机器学习论文的单一结果。
为了在一个领域取得进展,我们需要比较不同方法的结果。近年来,由于机器学习期刊的激增,这种比较变得越来越困难,给同行从业者,特别是外行人带来了严峻的挑战。例如,在在会议上发表的10篇语言模型论文中,最佳基线模型的混乱差异超过50分(Ruder, 2018)。
解决论文泛滥的方法是从论文中开发自动方法,提取研究结果,并将其聚集在排名中。作者通常在论文中使用公布结果,包括方法与先前论文方法的比较。从论文中自动抽取结果元组(可选元数据:如模型名称),可以实现与已公布方法的完整比较。
在研究社区,基于在线排名的比较越来越普遍,但仅限于少数任务,无法比较跨任务模型。为了填补这一空白,一些聚合工具通过众包社区贡献者填写论文列表,如Papers With Code 和 NLP-Progress。但人工注释结果费时费力,容易出错,导致论文结果遗漏或误报。因此,利用机器学习方法在该领域创造综合结果源的需求也应运而生。
目前抽取结果SOTA方法依赖于文本格式提示和表格(来源于文本格式提示和表格)PDF文档),看起来僵硬,有噪音(Hou et al., 2019)。相反,我们提出是一种从机器学习论文中自动抽取研究结果的流水线。
将提取结果的任务分解为几个子任务,包括、和。为了充分利用论文的内容和表格的上下文来解释表格的内容和提取结果,我们使用它ULMFiT架构分类器。
一般来说,本论文主要有三个贡献:
- 利用目前结果抽取模型显著提升SOTA,我们的方法是NLP-TDMS LATEX数据集(Hou et al., 2019)上获得micro F1 25.8,而SOTA为7.5;
- 发布结构化、标签化的结果提取模型培训集和验证集;
- 应用于半自动(人工复审)paperswithcode.com,从论文中提取结果,跟踪机器学习进展;
2 相关工作
先前的工作研究了从论文中提取结果的元组(任务、数据集、评价指标名称、评价指标值)。
(Singh et al. 2019) 搜索出版物,通过检索到的三元组创建排名,类似于本文的方法,它们也从LATEX从源中提取表格的区别在于,他们没有提取评价指标值,而是对论文进行排序,似乎没有使用出版物的文本内容。
本文的目标是提取完整的结果来创建一个列表,加关注评价指标的价值。此外,我们使用出版物内容作为实体识别和链接的上下文。
(Hou et al., 2019)接近本文的形式,沿指标名称、任务和数据集提取绝对指标值。他们还使用文本片段和直接表数据来推理表内容。他们将提取架构定义为自然语言推理问题,并使用它BERT架构(Devlin et al.,2018)实现推理。该方法的缺点在于,使用PDF在表结构信息(如划分表为单元格)中引入大量噪声。
本文利用LATEX从源中提取显式结构信息,实现语义分割。我们验证了表格结构信息和表格分割对提高结果提取性能至关重要。
在过去,一些工作研究了表中检索信息的更常见问题(Milosevic et al., 2009; Ghasemi-Gol and Szekely, 2018; Wei et al., 2006; Herzig et al., 2020)。
本文关注从机器学习论文中提取和解释表格特征的问题。本文表格语义分割模型的目标是分类单元格。换句话说,结构分割不是区分表格问题、表头和表格,而是关注表格的语义分割(为每个单元格定义一个角色)。
3 我们的方法
提取论文结果的任务是输入机器学习论文。提取论文中包含的研究结果可以表示为具体的元组形式:任务、数据集、评价指标名称和评价指标值。例如,如果你将Tan and Le (2019)的EfficientNet作为输入,我们想提取结果元组:
- EfficientNet-B7 (Image Classification, ImageNet, Top 1 Accuracy, 0.844)
- EfficientNet-B7(Image Classification, ImageNet, Top 5 Accuracy, 0.971)
- EfficientNet (Image Classification, Stanford Cars, Accuracy, 0.947)
为了有效地处理这个问题,我们需要定义子任务来框定问题,以便通过解决子任务获得结果。解决以下子任务:
- :识别论文中的表格是否包含相关结果;
- :根据单元格是否包含评价指标、数据集和模型进行分类和分类;
- :获取结果元组并匹配现有排名结果;
端到端系统的推理如图1所示。AXCELL不同组件。

3.1 表格类型分类
AXCELL第一阶段是将论文中的表分为三类:、和。排名列表包括论文在选定基准(包括与其他论文的比较)中的主要结果。消融实验表比较了论文中不同方法的排列,无相关表包与结果提取不直接相关的超参数、数据集统计和信息。
第一阶段,我们采用 (Howard and Ruder, 2018)并使用LSTM层分类器和SentencePiece一元分词模型。我们在论文中(arXiv文章没有标签数据集,文本训练