想训练出具有中文语境特色的大语言模型,中文语料数据必不可少,今天给大家分享20个中文语料数据集
No.1 Math23K (Math23K for Math Word Problem Solving)
● 发布方:腾讯人工智能实验室
● 发布时间:2017
● 简介:
Math23K 是为解决数学单词问题而创建的数据集,包含从互联网上爬取的 23,162 个中文问题。
● 下载地址:
https://opendatalab.org.cn/Math23K
● 论文地址:
https://aclanthology.org/D17-1088.pdf
No.2 Ape210K
● 发布方:猿辅导 AI Lab,西北大学
● 发布时间:2020
● 简介:
Ape210K是一个新的大规模和模板丰富的数学单词问题数据集,包含 210K 个中国小学水平的数学问题,是最大的公共数据集 Math23K 的 9 倍(Wang et al., 2017)。每个问题都包含黄金答案和得出答案所需的方程式。 Ape210K 也具有更大的多样性,有 56K 个模板,是 Math23K 的 25 倍。我们的分析表明,解决 Ape210K 不仅需要自然语言理解,还需要常识知识。
● 下载地址:
https://github.com/Chenny0808/ape210k
● 论文地址:
https://arxiv.org/pdf/2009.11506v1.pdf
No.3 DRCD (Delta Reading Comprehension Dataset)
● 发布方:台达研究中心,台达电子
● 发布时间:2018
● 简介:
一个数据集,其中包含 2,221 个来自不同学科(历史、生物学、地理和哲学)的十二年级入学考试的问题,以及来自历史在线测验的 412 个附加问题。
● 下载地址:
https://opendatalab.org.cn/DRCD
● 论文地址:
https://arxiv.org/ftp/arxiv/papers/1806/1806.00920.pdf
No.4 FCGEC
● 发布方:浙江大学,华为
● 发布时间:2022
● 简介:
FCGEC是一个带有多个参考文献的人类注释语料库,由主要从公立学校语文考试的多选题中收集的41,340句子组成。
● 下载地址:
https://opendatalab.org.cn/FCGEC
● 论文地址:
https://arxiv.org//pdf/2210.12364.pdf
No.5 E-KAR (Benchmark for Explainable Knowledge-intensive Analogical Reasoning)
● 发布方:复旦大学,字节跳动人工智能实验室,Brain Technologies, Inc.
● 发布时间:2022
● 简介:
识别类比的能力是人类认知的基础。测试单词类比的现有基准并未揭示神经模型类比推理的底层过程。我们坚信能够推理的模型应该是正确的,因此我们提出了首创的可解释知识密集型类比推理基准 (E-KAR)。我们的基准测试包括来自公务员考试的 1,655 个(中文)和 1,251 个(英文)问题,这些问题需要深入的背景知识才能解决。更重要的是,我们设计了一个自由文本解释方案来解释是否应该进行类比,并为每个问题和候选答案手动注释它们。
● 下载地址:
https://opendatalab.org.cn/E-KAR
● 论文地址:
https://arxiv.org/pdf/2203.08480v1.pdf
No.6 Douban Conversation Corpus
● 发布方:北京航空航天大学,南开大学,微软研究院
● 发布时间:2017
● 简介:
我们发布豆瓣会话语料库,包括一个训练数据集、一个开发集和一个基于检索的聊天机器人的测试集。测试数据包含 1000 个对话上下文,对于每个上下文,我们创建 10 个响应作为候选。我们招募了三名标注员来判断候选人是否对会议做出了适当的回应。正确的响应意味着响应可以自然地回复给定上下文的消息。每对收到三个标签,大部分标签被视为最终决定。 据我们所知,这是第一个用于基于检索的聊天机器人的人工标记测试集。
● 下载地址:
https://opendatalab.org.cn/Douban_Conversation_Corpus
● 论文地址:
https://arxiv.org/pdf/1612.01627v2.pdf
No.7 ODSQA (Open-Domain Spoken Question Answering)
● 发布方:台湾大学
● 发布时间:2018
● 简介:
ODSQA 数据集是用于中文问答的口语数据集。它包含来自 20 位不同演讲者的三千多个问题。
● 下载地址:
https://opendatalab.org.cn/ODSQA
● 论文地址:
https://arxiv.org/pdf/1808.02280v1.pdf
No.8 XiaChuFang Recipe Corpus
● 发布方:清华大学,百度,北京通用人工智能研究院
● 发布时间:2020
● 简介:
完整的食谱语料库包含1,520,327种中国食谱。其中,1,242,206食谱属于30,060菜肴。一道菜平均有41.3个食谱。食谱的平均长度是224个字符。最大长度为62,722个字符,最小长度为10个字符。食谱由415,272位作者贡献。其中,最有生产力的作者上传5,394食谱。我们提供脱敏的作者信息。
● 下载地址:
https://opendatalab.org.cn/XiaChuFang_Recipe_Corpus
● 论文地址:
https://arxiv.org//pdf/2210.11431.pdf
No.9 CrossWOZ
● 发布方:北京信息科学与技术国家研究中心,清华大学
● 发布时间:2020
● 简介:
CrossWOZ是第一个面向任务的大型中文跨域Wizard-of-Oz向导数据集。它包含 5 个领域的 6K 对话会话和 102K 话语,包括酒店、餐厅、景点、地铁和出租车。此外,语料库包含丰富的对话状态注释和用户和系统双方的对话行为。
● 下载地址:
https://opendatalab.org.cn/CrossWOZ
● 论文地址:
https://arxiv.org/pdf/2002.11893v2.pdf
No.10 MATINF (Maternal and Infant Dataset)
● 发布方:武汉大学 · 密歇根大学
● 发布时间:2020
● 简介:
Maternal and Infant (MATINF) Dataset 是一个联合标注的大规模数据集,用于中文母婴护理领域的分类、问答和总结。数据集中的一个条目包括四个字段:问题(Q)、描述(D)、类别(C)和答案(A)。从中国大型母婴护理 QA 网站收集了近 200 万对问答对,其中包含细粒度的人工标记类。作者进行自动和手动数据清洗并删除:(1)样本不足的类; (2) 描述字段长度小于问题字段长度的条目; (3) 任何字段长度超过 256 个字符的数据; (4) 人为发现的格式错误的数据。数据清洗后,用剩余的 107 万个条目构建 MATINF。
● 下载地址:
https://opendatalab.org.cn/MATINF
● 论文地址:
https://arxiv.org/pdf/2004.12302v2.pdf
No.11 MedDialog
● 发布方:加州大学圣地亚哥分校
● 发布时间:2020
● 简介:
MedDialog 数据集(中文)包含医生和患者之间的对话(中文)。它有 110 万条对话和 400 万条话语。数据不断增长,将添加更多对话。原始对话来自 haodf.com。数据的所有版权归haodf.com所有。
● 下载地址:
https://opendatalab.org.cn/MedDialog
● 论文地址:
https://arxiv.org/pdf/2004.03329v2.pdf
No.12 MCSCSet
● 发布方:中山大学,Mila – Quebec Artifcial Intelligence Institute,清华大学深圳国际研究生院,腾讯天衍实验室
● 发布时间:2022
● 简介:
我们介绍了MCSCSet,这是一个大型的专家注释数据集,专门用于医学领域的中文拼写校正 (MCSC)。与现有的开放域CSC数据集相比,MCSCSet涉及: i) 从腾讯一点收集的大量真实医学查询,ii) 由医学专家手动注释的相应拼写错误的句子。我们的资源进一步提供了医学领域的混淆集,其中包括医学中常见的易出错字符及其相应的拼写错误。
● 下载地址:
https://opendatalab.org.cn/MCSCSet
● 论文地址:
https://arxiv.org//pdf/2210.11720.pdf
No.13 KdConv (Knowledge-driven Conversation)
● 发布方:清华大学
● 发布时间:2020
● 简介:
KdConv 是一个中文多领域知识驱动的对话数据集,将多轮对话中的主题建立在知识图谱上。 KdConv 包含来自三个领域(电影、音乐和旅行)的 4.5K 对话,以及平均转数为 19.0 的 86K 话语。这些对话包含对相关话题的深入讨论和多个话题之间的自然过渡,而语料库也可以用于探索迁移学习和领域适应。
● 下载地址:
https://opendatalab.org.cn/KdConv
● 论文地址:
https://arxiv.org/pdf/2004.04100v1.pdf
No.14 DialogRE
● 发布方:康奈尔大学,腾讯人工智能实验室
● 发布时间:2020
● 简介:
DialogRE 是第一个基于人工注释的基于对话的关系提取数据集,包含来自美国著名电视情景喜剧《老友记》的完整抄本的 1,788 条对话。这些是对话中参数对之间存在的所有出现的 36 种可能关系类型的注释。 DialogRE 提供英文和中文版本。
● 下载地址:
https://opendatalab.org.cn/DialogRE
● 论文地址:
https://arxiv.org/pdf/2004.08056v1.pdf
No.15 NAIST COVID
● 发布方:奈良先端科学技术大学院大学
● 发布时间:2020
● 简介:
NAIST COVID是新型冠状病毒肺炎相关的社交媒体帖子的多语言数据集,由Twitter的英语和日语微博以及微博的中文微博组成。该数据涵盖了从2020年1月20日到2020年3月24日的微博。
● 下载地址:
https://opendatalab.org.cn/NAIST_COVID
● 论文地址:
https://arxiv.org/pdf/2004.08145v1.pdf
No.16 LCCC (Large-scale Cleaned Chinese Conversation corpus)
● 发布方:清华大学 · 三星中国研究院
● 发布时间:2020
● 简介:
我们提出了一个大型清洁汉语会话语料库(LCCC),其中包含:LCCC-base 和 LCCC-large。为了保证语料库的质量,设计了严格的数据清洗流水线。该管道涉及一组规则和几个基于分类器的过滤器。诸如攻击性或敏感词、特殊符号、表情符号、语法错误的句子和不连贯的对话等噪音都会被过滤掉。
● 下载地址:
https://opendatalab.org.cn/LCCC
● 论文地址:
https://arxiv.org/pdf/2008.03946v2.pdf
No.17 DogWhistle
● 发布方:加州大学,北京航空航天大学,微软亚洲研究院
● 发布时间:2021
● 简介:
隐语(也称为双语、密文、暗语、反话或密语)对于理解广告、喜剧和狗哨政治很重要。 DogWhistle 是一个庞大而多样的中文数据集,用于从计算语言学的角度创建和理解隐语。
● 下载地址:
https://opendatalab.org.cn/DogWhistle
● 论文地址:
https://arxiv.org/pdf/2104.02704v2.pdf
No.18 CHECKED
● 发布方:锡拉丘兹大学
● 发布时间:2021
● 简介:
开发了第一个关于新型冠状病毒肺炎错误信息的中文数据集。CHECKED提供了从2019年12月到2020年8月的总共2,104个与新型冠状病毒肺炎相关的已验证微博,这些微博通过使用特定的关键字列表进行识别。相应地,CHECKED包括1,868,175转发、1,185,702评论和56,852,736点赞,这些评论揭示了这些经过验证的微博是如何在微博上传播和反应的。该数据集包含每个微博的丰富多媒体信息集,包括地面真相标签,文本,视觉,时间和网络信息。在使用CHECKED预测假新闻时,已经进行了广泛的实验来分析已检查的数据并为完善的方法提供基准结果。
● 下载地址:
https://opendatalab.org.cn/CHECKED
● 论文地址:
https://arxiv.org/pdf/2010.09029v2.pdf
No.19 Lyra
● 发布方:北京大学
● 发布时间:2021
● 简介:
Lyra 是一个用于代码生成的数据集,由带有嵌入式 SQL 的 Python 代码组成。该数据集包含来自实际使用项目的 2,000 个经过仔细注释的数据库操作程序。每个程序都配有中文评论和英文评论。。
● 下载地址:
https://opendatalab.org.cn/Lyra
● 论文地址:
https://arxiv.org/pdf/2108.12144v1.pdf
No.20 MUSIED
● 发布方:北京大学
● 发布时间:2022
● 简介:
我们在领先的食品服务电子商务平台中,基于用户评论,文本对话和电话对话,提出了一个新的大型中文事件检测数据集。
● 下载地址:
https://opendatalab.org.cn/MUSIED
● 论文地址: