中文医疗信息处理评测基准

描述   原文地址: https://tianchi.aliyun.com/dataset/95414

中文医疗信息处理挑战榜CBLUE(Chinese Biomedical Language Understanding Evaluation)是中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办,并由医渡云(北京)技术有限公司、腾讯天衍实验室、平安医疗科技、阿里夸克、北京大学、郑州大学、鹏城实验室、哈尔滨工业大学(深圳)、同济大学、中山大学、复旦大学、华东师范大学等开展智慧医疗研究的单位共同协办,旨在推动中文医学NLP技术和社区的发展。
官网地址: https://tianchi.aliyun.com/cblue
论文: https://arxiv.org/pdf/2106.08087.pdf
Github: https://github.com/CBLUEbenchmark/CBLUE

数据列表

  • 数据名称上传日期大小下载
  • README.md2023-02-156.37KB
  • CMeEE-V2.zip2023-03-143.45MB
  • CHIP-CDEE.zip2023-03-141.52MB
  • CHIP-CDN.zip2023-03-141.59MB
  • CHIP-CTC.zip2023-03-141.43MB
  • CHIP-STS.zip2023-03-141020.65KB
  • CHIP-MDCFNPC.zip2023-03-148.55MB
  • KUAKE-IR.zip2023-03-14129.28MB
  • KUAKE-QIC.zip2023-03-14264.10KB
  • KUAKE-QQR.zip2023-03-14237.95KB
  • KUAKE-QTR.zip2023-03-14851.07KB
  • MedDG.zip2023-03-1411.78MB
  • IMCS-V2-NER.zip2023-03-146.07MB
  • IMCS-V2-DAC.zip2023-03-146.07MB
  • IMCS-V2-SR.zip2023-03-146.07MB
  • IMCS-V2-MRG.zip2023-03-146.07MB
  • CMedCausal.zip2023-05-051.10MB
  • format_checker_20230510.zip2023-05-1021.16KB
  • CMeIE-V2.zip2023-05-104.46MB
  • Text2DT.zip2023-05-1274.21KB

文档

总体概述

标准数据集和公开评测任务(Shared Task)对算法技术的发展起着良好的推动作用,以中文医学领域为例,CHIP(China Health Information Processing)会议每年均发布医学相关的学术评测,这些评测任务均极大促进了国内医学NLP社区的发展。但是目前的现状是这些数据集是分散的,部分数据在评测比赛之后就不再开放下载,这会对数据集的获取以及后续的研究造成一定的困难。

近年来随着预训练语言模型(PTLM)及大模型技术(LLM)的发展,在诸多下游任务上均取得SOTA的结果,一个大趋势是多任务评测基准(benchmark)的出现,如:GLUE(General Language Understanding Evaluation)[1,2],CLUE(Chinese Language Understanding Evaluation)[3]。这些benchmark的目标是评估语言模型的泛化性能,同时也提供了公平开放的评测基准,因此吸引了大量的NLP研究者的关注,并进一步推动了大模型技术的发展和落地。在医学领域,微软在2020年底发布了BLURB(Biomedical Language Understanding & Reasoning Evaluation)[4], 天池平台在中国中文信息学会医疗健康与生物信息处理专业委员会指导下于2021年4月份推出了CBLUE(Chinese Biomedical Language Understanding Evaluation)评测基准1.0,CBLUE推出后受到了国内医疗AI研究同行的广泛关注。

CBLUE发展经过3个阶段:
CBLUE1.0:由CHIP会议往届的学术评测数据集和阿里夸克医疗搜索业务数据集组成,包括医学文本信息抽取(实体识别、关系抽取)、医学术语标准化医学文本分类医学句子语义关系判定共4大类任务8个子任务。
CBLUE2.0:在1.0的基础上,扩充了原有的任务类型,进一步丰富了语料来源(新增医学诊疗对话、医学专家编写的电子病历和医学影像报告),并引入了生成类任务。CBLUE2.0由医学文本信息抽取(实体识别、关系抽取、事件抽取)、医学术语标准化医学文本分类医学句子语义关系判定医学对话理解与生成共5大类任务14个子任务组成。
CBLUE3.0:在2.0的基础上,进一步增强了生成类任务,新引入了医学检索和医学多模态任务,此外还对现有任务的难度做了升级。CBLUE3.0由医学文本信息抽取(实体识别、关系抽取、事件抽取)、医学检索&术语标准化医学文本分类医学句子语义关系判定医学文本理解&生成共5大类任务18个子任务组成。此外还引入了医学OCR要素识别任务作为多模态方向的初步尝试。

我们相信中文医学NLP benchmark的建设将会进一步吸引研究者们对医疗AI领域的关注,欢迎广大同行加入到CBLUE的建设中,一起推动中文医学信息处理领域的发展。

CBLUE榜单覆盖的数据集大部分遵循 CC BY-NC-SA 4.0 协议,若数据集任务有其他协议的,在具体的任务章节会单独列出。

CBLUE评测基准数据集汇总信息如下:

数据集名称 数据集缩写 任务类型 数据量(训练集/验证集/测试集) 其他信息
中文医学命名实体识别 CMeEE 实体识别 15,000/5,000/3,000 实体存在嵌套定义
中文医学文本实体关系抽取 CMeIE 关系抽取 14,339/3,585/4,482  
医疗因果实体关系抽取 CMedCausal 关系抽取 800/200/1,000 + 1000条未标注数据 关系存在嵌套定义
临床发现事件抽取 CHIP-CDEE 事件抽取 1,587/384/514  
临床术语标准化 CHIP-CDN 归一化 6,000/2,000/10,000  
医学段落检索 KUAKE-IR 检索 100,000/1,000/3,000  
临床试验筛选标准短文本分类 CHIP-CTC 分类 22,962/7,682/10,000  
医疗搜索检索词意图分类 KUAKE-QIC 分类 6,931/1,955/1,994  
医疗对话临床发现阴阳性判别 CHIP-MDCFNPC 分类 5,000/1,000/2,000  
疾病问答迁移学习 CHIP-STS 匹配 16,000/4,000/10,000  
医疗搜索查询词-页面标题相关性 KUAKE-QTR 匹配 24,174/2,913/5,465  
医疗搜索查询词-查询词相关性 KUAKE-QQR 匹配 15,000/1,600/1,596  
智能对话诊疗数据集 IMCS 实体识别、分类、生成 2,472/833/811  
蕴含实体的中文医疗对话生成 MedDG 生成 17,864/2,747/1,551  
医疗文本诊疗决策树抽取 TextDT 生成 300/100/100  
推荐任务 - - - -
医疗清单发票OCR要素提取任务 CMedOCR OCR 1,000/-/700  
面向“基因-疾病”关联机理的科学文献挖掘任务 AGAC 实体识别、关系抽取 250/-/2,000 英文