描述原文地址: https://tianchi.aliyun.com/dataset/95414

中文医疗信息处理挑战榜CBLUE(Chinese Biomedical Language Understanding Evaluation)是中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起，由阿里云天池平台承办，并由医渡云（北京）技术有限公司、腾讯天衍实验室、平安医疗科技、阿里夸克、北京大学、郑州大学、鹏城实验室、哈尔滨工业大学(深圳）、同济大学、中山大学、复旦大学、华东师范大学等开展智慧医疗研究的单位共同协办，旨在推动中文医学NLP技术和社区的发展。
官网地址： https://tianchi.aliyun.com/cblue
论文： https://arxiv.org/pdf/2106.08087.pdf
Github: https://github.com/CBLUEbenchmark/CBLUE

数据列表

数据名称上传日期大小下载
README.md2023-02-156.37KB
CMeEE-V2.zip2023-03-143.45MB
CHIP-CDEE.zip2023-03-141.52MB
CHIP-CDN.zip2023-03-141.59MB
CHIP-CTC.zip2023-03-141.43MB
CHIP-STS.zip2023-03-141020.65KB
CHIP-MDCFNPC.zip2023-03-148.55MB
KUAKE-IR.zip2023-03-14129.28MB
KUAKE-QIC.zip2023-03-14264.10KB
KUAKE-QQR.zip2023-03-14237.95KB
KUAKE-QTR.zip2023-03-14851.07KB
MedDG.zip2023-03-1411.78MB
IMCS-V2-NER.zip2023-03-146.07MB
IMCS-V2-DAC.zip2023-03-146.07MB
IMCS-V2-SR.zip2023-03-146.07MB
IMCS-V2-MRG.zip2023-03-146.07MB
CMedCausal.zip2023-05-051.10MB
format_checker_20230510.zip2023-05-1021.16KB
CMeIE-V2.zip2023-05-104.46MB
Text2DT.zip2023-05-1274.21KB

文档

总体概述

标准数据集和公开评测任务(Shared Task)对算法技术的发展起着良好的推动作用，以中文医学领域为例，CHIP（China Health Information Processing）会议每年均发布医学相关的学术评测，这些评测任务均极大促进了国内医学NLP社区的发展。但是目前的现状是这些数据集是分散的，部分数据在评测比赛之后就不再开放下载，这会对数据集的获取以及后续的研究造成一定的困难。

近年来随着预训练语言模型（PTLM）及大模型技术（LLM）的发展，在诸多下游任务上均取得SOTA的结果，一个大趋势是多任务评测基准（benchmark）的出现，如：GLUE(General Language Understanding Evaluation)[1,2]，CLUE(Chinese Language Understanding Evaluation)[3]。这些benchmark的目标是评估语言模型的泛化性能，同时也提供了公平开放的评测基准，因此吸引了大量的NLP研究者的关注，并进一步推动了大模型技术的发展和落地。在医学领域，微软在2020年底发布了BLURB(Biomedical Language Understanding & Reasoning Evaluation)[4]，天池平台在中国中文信息学会医疗健康与生物信息处理专业委员会指导下于2021年4月份推出了CBLUE(Chinese Biomedical Language Understanding Evaluation)评测基准1.0，CBLUE推出后受到了国内医疗AI研究同行的广泛关注。

CBLUE发展经过3个阶段：
CBLUE1.0：由CHIP会议往届的学术评测数据集和阿里夸克医疗搜索业务数据集组成，包括医学文本信息抽取（实体识别、关系抽取）、医学术语标准化、医学文本分类、医学句子语义关系判定共4大类任务8个子任务。
CBLUE2.0：在1.0的基础上，扩充了原有的任务类型，进一步丰富了语料来源（新增医学诊疗对话、医学专家编写的电子病历和医学影像报告），并引入了生成类任务。CBLUE2.0由医学文本信息抽取（实体识别、关系抽取、事件抽取）、医学术语标准化、医学文本分类、医学句子语义关系判定、医学对话理解与生成共5大类任务14个子任务组成。
CBLUE3.0：在2.0的基础上，进一步增强了生成类任务，新引入了医学检索和医学多模态任务，此外还对现有任务的难度做了升级。CBLUE3.0由医学文本信息抽取（实体识别、关系抽取、事件抽取）、医学检索&术语标准化、医学文本分类、医学句子语义关系判定、医学文本理解&生成共5大类任务18个子任务组成。此外还引入了医学OCR要素识别任务作为多模态方向的初步尝试。

我们相信中文医学NLP benchmark的建设将会进一步吸引研究者们对医疗AI领域的关注，欢迎广大同行加入到CBLUE的建设中，一起推动中文医学信息处理领域的发展。

CBLUE榜单覆盖的数据集大部分遵循 CC BY-NC-SA 4.0 协议，若数据集任务有其他协议的，在具体的任务章节会单独列出。

CBLUE评测基准数据集汇总信息如下：

数据集名称	数据集缩写	任务类型	数据量（训练集/验证集/测试集）	其他信息
中文医学命名实体识别	CMeEE	实体识别	15,000/5,000/3,000	实体存在嵌套定义
中文医学文本实体关系抽取	CMeIE	关系抽取	14,339/3,585/4,482
医疗因果实体关系抽取	CMedCausal	关系抽取	800/200/1,000 + 1000条未标注数据	关系存在嵌套定义
临床发现事件抽取	CHIP-CDEE	事件抽取	1,587/384/514
临床术语标准化	CHIP-CDN	归一化	6,000/2,000/10,000
医学段落检索	KUAKE-IR	检索	100,000/1,000/3,000
临床试验筛选标准短文本分类	CHIP-CTC	分类	22,962/7,682/10,000
医疗搜索检索词意图分类	KUAKE-QIC	分类	6,931/1,955/1,994
医疗对话临床发现阴阳性判别	CHIP-MDCFNPC	分类	5,000/1,000/2,000
疾病问答迁移学习	CHIP-STS	匹配	16,000/4,000/10,000
医疗搜索查询词-页面标题相关性	KUAKE-QTR	匹配	24,174/2,913/5,465
医疗搜索查询词-查询词相关性	KUAKE-QQR	匹配	15,000/1,600/1,596
智能对话诊疗数据集	IMCS	实体识别、分类、生成	2,472/833/811
蕴含实体的中文医疗对话生成	MedDG	生成	17,864/2,747/1,551
医疗文本诊疗决策树抽取	TextDT	生成	300/100/100
推荐任务	-	-	-	-
医疗清单发票OCR要素提取任务	CMedOCR	OCR	1,000/-/700
面向“基因-疾病”关联机理的科学文献挖掘任务	AGAC	实体识别、关系抽取	250/-/2,000	英文

中文医疗信息处理评测基准

描述 原文地址: https://tianchi.aliyun.com/dataset/95414

数据列表

文档

总体概述

描述原文地址: https://tianchi.aliyun.com/dataset/95414