20个中文语料数据集,含数学考试、公务员考题、医患对话等
想训练出具有中文语境特色的大语言模型,中文语料数据必不可少,今天给大家分享20个中文语料数据集
No.1 Math23K (Math23K for Math Word Problem Solving)
● 发布方:腾讯人工智能实验室
● 发布时间:2017
● 简介:
Math23K 是为解决数学单词问题而创建的数据集,包含从互联网上爬取的 23,162 个中文问题。
● 下载地址:
https://opendatalab.org.cn/Math23K
● 论文地址:
https://a...