本资源将处理一列具有代表性的中文自然语言任务和相应的数据集作为测试基准的数据集。这些数据集涵盖了不同的任务、数据量和任务难度。它包括与中文自然语言处理相关的任务,包括数据集、基准(预训练)模型、语料库和排名列表,绝对值得收集。
本资源整理自网络,源地址:https://github.com/chineseGLUE/chineseGLUE
分类任务(v1版,正式版)
注:' 筛选原始数据集后获得的数据集与原始数据集不同;TNEWS:文本分类(Acc);LCQMC:语义相似度(Acc);XNLI/MNLI:自然语言推理(Acc),MNLI-m:MNLI-matched,MNLI-mm:MNLI-mismatched;
DRCD & CMRC2018年:提取阅读理解(F1, EM);CHID:成语多分类阅读理解(Acc);BQ:智能客服问题匹配(Acc);MSRANER:命名实体识别(F1);iFLYTEK:长文本分类(Acc);
Score计算1-9数据集平均得分值;
注:阅读理解上述指标F1和EM共存时,取EM为最终指标
为了更好地服务于中国语言理解、任务和行业,作为一般语言模型评价的补充,通过完善中国语言理解基础设施,促进中国语言模型的发展
首先,汉语是一种具有自身特定和广泛应用的大语言。
例如,近14亿中文用户是联合国的官方语言之一,业内有大量的朋友在做中文任务。
中文是象形文字,有文字图形;单词之间没有分离符,不同的分词(分词或单词)会影响下游任务。
其次,与英文数据集相比,中文公开可用数据集相对较少。
许多数据集是非公开或缺乏基准评估;大多数论文描述的模型都是在英语数据集中进行的测试和评估,那么中文的效果如何呢?
第三,语言理解发展到现阶段,预训练模型极大地促进了自然语言理解。
不同的预训练模型相继出现,但许多是最先进的(state of the art)没有官方的中文版本,也没有公开测试这些预训练模型的不同任务,
技术的发展和应用还有很大的距离,或者技术应用的滞后。
因此,如果有一个基准的中文任务测试,包括一批可以广泛使用和评估的数据集,适用于中文任务的特点,可以跟上当前世界技术的发展,
能缓解当前中文任务的一些问题,并促进相关应用的发展。
Language Understanding Evaluation benchmark for Chinese(ChineseGLUE) got ideas from GLUE, which is a collection ofresources for training, evaluating, and analyzing natural language understanding systems. ChineseGLUE consists of:
1)中文任务的基准测试涵盖了多个不同程度的语言任务
A benchmark of several sentence or sentence pair language understanding tasks. Currently the datasets used in these tasks are come from public. We will include datasets with private test set before the end of 2019.
2)公开的排行榜
A public leaderboard for tracking performance. You will able to submit your prediction files on these tasks, each task will be evaluated and scored, a final score will also be available.
3)基线模型包括初始代码和预训练模型
baselines for ChineseGLUE tasks. baselines will be available in TensorFlow,PyTorch,Keras and PaddlePaddle.
4)语料库用于语言建模、预训练或生成任务
A huge amount of raw corpus for pre-train or language modeling research purpose. It will contains around 10G raw corpus in 2019;
In the first half year of 2020, it will include at least 30G raw corpus; By the end of 2020, we will include enough raw corpus, such as 100G, so big enough that you will need no more raw corpus for general purpose language modeling. You can use it for general purpose or domain adaption, or even for text generating. when you use for domain adaption, you will able to select corpus you are interested in.
输入是两个句子,输出是0或1。0代表语义不相似,1代表语义相似。
数据量:训练集(238,766),验证集(8,802),测试集(12,500)
例子:
1.聊天室都有哪些好的 [分隔符] 哪个聊天室好? [分隔符] 1
2.飞行员没钱买房怎么办?[分隔符] 父母没钱买房 [分隔符] 0
跨语言理解的数据集,给定一个前提和假设,判断这个假设前提是否具有蕴涵、对立、中性关系。
数据量:训练集(392,703),验证集(2,491),测试集(5,011)
例子:
1.从 概念 上 看 , 奶油 收入 有 两 个 基本 方面 产品 和 地理 .[分隔符] 产品 和 地理 是 什么 使 奶油 抹 霜 工作 . [分隔符] neutral
2.我们 的 一个 号码 会 非常 详细 地 执行 你 的 指示 [分隔符] 我 团队 的 一个 成员 将 非常 精确 地 执行 你 的 命令 [分隔符] entailment
原始的XNLI覆盖15种语言(含低资源语言)。我们选取其中的中文,并将做格式转换,使得非常容易进入训练和测试阶段。
数据量:训练集(266,000),验证集(57,000),测试集(57,000)
例子:
6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们
每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code,分类名称,新闻字符串(仅含标题),新闻关键词
数据量:训练集(5,356),验证集(1,000),测试集(1,000)
例子:
1_!_00005a3efe934a19adc0b69b05faeae7_!_九江办好人民满意教育_!_近3年来,九江市紧紧围绕“人本教育、公平教育、优质教育、幸福教育”的目标,努力办好人民满意教育,促进了义务教育均衡发展,农村贫困地区办学条件改善。目前,该市特色教育学校有70所 ......
每行为一条数据,以_!_分割的个字段,从前往后分别是情感类别,数据id,新闻标题,新闻内容
台達閱讀理解資料集 Delta Reading Comprehension Dataset (DRCD)(https://github.com/DRCKnowledgeTeam/DRCD) 屬於通用領域繁體中文機器閱讀理解資料集。本資料集期望成為適用於遷移學習之標準中文閱讀理解資料集。
数据格式和squad相同,如果使用简体中文模型进行评测的时候可以将其繁转简(本项目已提供)
https://hfl-rc.github.io/cmrc2018/
数据格式和squad相同
该数据集是自动问答系统语料,共有120,000对句子对,并标注了句子对相似度值,取值为0或1(0表示不相似,1表示相似)。数据中存在错别字、语法不规范等问题,但更加贴近工业场景。
数据量:训练集(100,000),验证集(10,000),测试集(10,000)
例子:
1.我存钱还不扣的 [分隔符] 借了每天都要还利息吗 [分隔符] 0
2.为什么我的还没有额度 [分隔符] 为啥没有额度!![分隔符] 1
该数据集共有5万多条中文命名实体识别标注数据(包括人名、地名、组织名),分别用nr、ns、nt表示,其他实体用o表示。
数据量:训练集(46,364),测试集(4,365)
例子:
1.据说/o 应/o 老友/o 之/o 邀/o ,/o 梁实秋/nr 还/o 坐/o 着/o 滑竿/o 来/o 此/o 品/o 过/o 玉峰/ns 茶/o 。/o
2.他/o 每年/o 还/o 为/o 河北农业大学/nt 扶助/o 多/o 名/o 贫困/o 学生/o 。/o
该数据集共有4万多条中文新闻长文本标注数据,共14个类别: "体育":0, "娱乐":1, "家居":2, "彩票":3, "房产":4, "教育":5, "时尚":6, "时政":7, "星座":8, "游戏":9, "社会":10, "科技":11, "股票":12, "财经":13。
数据量:训练集(33,437),验证集(4,180),测试集(4,180)
例子:
11_!_科技_!_493337.txt_!_爱国者A-Touch MK3533高清播放器试用 爱国者MP5简介: "爱国者"北京华旗资讯,作为国内知名数码产品制>造商。1993年创立于北京中关村,是一家致力于......
每行为一条数据,以_!_分割的个字段,从前往后分别是 类别ID,类别名称,文本ID,文本内容。
该数据集共有1.7万多条关于app应用描述的长文本标注数据,包含和日常生活相关的各类应用主题,共119个类别:"打车":0,"地图导航":1,"免费WIFI":2,"租车":3,….,"女性":115,"经营":116,"收款":117,"其他":118(分别用0-118表示)。
数据量:训练集(12,133),验证集(2,599),测试集(2,600)
例子:
17_!_休闲益智_!_玩家需控制一只酷似神龙大侠的熊猫人在科技感十足的未来城市中穿越打拼。感觉很山寨功夫熊猫,自由度非常高,可以做很多你想做的事情......
每行为一条数据,以_!_分割字段,从前往后分别是 类别ID,类别名称,文本内容。
https://arxiv.org/abs/1906.01265 成语完形填空,文中多处成语被mask,候选项中包含了近义的成语。
更多数据集添加中,如果你有定义良好的数据集,请与我们取得联系。
或使用命令:
wget https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip
我们为您提供了可以“一键运行”的脚本来辅助您更快的在指定模型上运行特定任务。
以在 Bert 模型上运行“BQ 智能客服问句匹配”任务为例,您可以直接在 chineseGLUE/baselines/models/bert/ 下运行 run_classifier_bq.sh 脚本。
cd chineseGLUE/baselines/models/bert/ sh run_classifier_bq.sh
该脚本将会自动下载“BQ 智能客服问句匹配”数据集(保存在chineseGLUE/baselines/glue/chineseGLUEdatasets/bq/ 文件夹下)和Bert模型(保存在 chineseGLUE/baselines/models/bert/prev_trained_model/ 下)。
具体内容详见:基准模型-模型训练
可用于语言建模、预训练或生成型任务等,数据量超过10G,主要部分来自于nlp_chinese_corpus项目
当前语料库按照【预训练格式】处理,内含有多个文件夹;每个文件夹有许多不超过4M大小的小文件,文件格式符合预训练格式:每句话一行,文档间空行隔开。
包含如下子语料库(总共14G语料):
1、新闻语料: 8G语料,分成两个上下两部分,总共有2000个小文件。
2、社区互动语料:3G语料,包含3G文本,总共有900多个小文件。
3、维基百科:1.1G左右文本,包含300左右小文件。
4、评论数据:2.3G左右文本,含有811个小文件,合并ChineseNLPCorpus的多个评论数据,清洗、格式转换、拆分成小文件。
这些语料,你可以通过上面这两个项目,清洗数据并做格式转换获得;
你也可以通过邮件申请(chineseGLUE#163.com)获得单个项目的语料,告知单位或学校、姓名、语料用途;
如需获得ChineseGLUE项目下的所有语料,需成为ChineseGLUE组织成员,并完成一个(小)任务。
1、GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding
2、SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems
3、LCQMC: A Large-scale Chinese Question Matching Corpus
4、XNLI: Evaluating Cross-lingual Sentence Representations
5、TNES: toutiao-text-classfication-dataset
6、nlp_chinese_corpus: 大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
7、ChineseNLPCorpus
8、ALBERT: A Lite BERT For Self-Supervised Learning Of Language Representations
9、BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
10、RoBERTa: A Robustly Optimized BERT Pretraining Approach