描述
瑞金医院MMC人工智能辅助构建知识图谱大赛:https://tianchi.aliyun.com/competition/entrance/231687/introduction
数据源: https://tianchi.aliyun.com/dataset/88836
数据列表
- 数据名称上传日期大小下载
- sample.json2021-06-01168.43KB
- annotation guidelines.pdf2021-06-01166.31KB
- diakg.zip2021-06-15869.99KB
文档
中文糖尿病科研文献实体关系数据集DiaKG
概述
本数据集来源于41篇中文糖尿病领域专家共识,数据包括基础研究、临床研究、药物使用、临床病例、诊治方法等多个方面,时间跨度达到7年,涵盖了近年来糖尿病领域最广泛的研究内容和热点。数据集的标注者都具有医学背景,共标注了22,050个医学实体和6,890对实体关系。依托于该数据集,包括医生、科研人员、企业开发者就能开展用于临床诊断的知识库,知识图谱,辅助诊断等产品开发,进一步探索研究糖尿病的奥秘。
数据描述
标注规范
实体:
标注规范定义了18类实体类型,实体定义和例子如下表:
关系:
在实体基础上,医学专家以“疾病”和“药品”为中心词,定义了15类实体关系,关系定义和例子见下表:
标注过程
我们采用了两阶段标注过程,分别是:
- OCR预处理:原始的41篇糖尿病“专家指南”是PDF格式的,标注人员首先阿里云的读光OCR工具(https://duguang.aliyun.com/)进行文本转化,转化过程仅保留了论文中的文字部分,非文字部分如“图表”、“表格”等都做了人工删除。对于OCR转化后的文本,标注人员对逐字做了校验,如“β细胞”可能会被OCR误识别为“B细胞”,以保证转化出来文本的正确性。
- 标注过程:标注过程分为“试标注”和“正式标注”两阶段,特别需要说明的是在“试标注”阶段,除了医学背景的专业人员外,DiaKG项目组还引入了AI算法专家一起参与标注,目标是从AI算法模型的视角来保证标注数据的实际可用性。举个例子,如医学专家倾向于将“成年型糖尿病(maturity-onset diabetes of the young,MODY)”标注为一个整体,算法专家的经验是将其标注为“成年型糖尿病”、“maturity-onset diabetes of the young”和“MODY”3个独立的实体,分成独立实体对AI模型更友好。
标注流程见下图:
标注格式说明
我们提供了“篇章-段落-句子”层次化的标注信息,“实体”和“关系”均在句子层面标注。
标注格式说明如下:
{
"doc_id": "1", // string, document id
"paragraphs": [ // array, paragraphs
{
"paragraph_id": "0", // string, paragraph id
"paragraph": "中国成人2型糖尿病胰岛素促泌剂应用的专家共识", // string, paragraph text
"sentences": [ // array, sentences
{
"sentence_id": "0", // string, sentence id
"sentence": "中国成人2型糖尿病胰岛素促泌剂应用的专家共识", // string, sentence text
"start_idx": 0, // int, sentence start index in the current paragraph
"end_idx": 22, // int, sentence end index in the current paragraph
"entities": [ // array, entities in the current sentence
{
"entity_id": "T0", // string, entity id
"entity": "2型糖尿病", // string, entity text
"entity_type": "Disease", // string, entity type
"start_idx": 4, // int, entity start index in the sentence
"end_idx": 9 // int, entity end index in the sentence
},
{
"entity_id": "T1",
"entity": "2型",
"entity_type": "Class",
"start_idx": 4,
"end_idx": 6
},
{
"entity_id": "T2",
"entity": "胰岛素促泌剂",
"entity_type": "Drug",
"start_idx": 9,
"end_idx": 15
}
],
"relations": [ // array, relations in the current sentence
{
"relation_type": "Drug_Disease", // string, relation type
"relation_id": "R0", // string, relation id
"head_entity_id": "T2", // string, head entity id
"tail_entity_id": "T0" // string, tail entity id
},
{
"relation_type": "Class_Disease",
"relation_id": "R1",
"head_entity_id": "T1",
"tail_entity_id": "T0"
}
]
}
]
},
{
"paragraph_id": "1", // string, paragraph id
"paragraph": "xxx" // string, paragraph text
"sentences": [
...
]
},
...
]
}
如何下载
点击申请按钮后,填写申请信息,填完后确认同意“使用条款”。系统会在7天内进行审核,审核通过即可下载数据,审核未通过可以根据系统反馈重新填写申请表单。
引用
如果您使用DiaKG,请引用我们的论文:
@InProceedings{10.1007/978-981-16-6471-7_26,
author="Chang, Dejie and Chen, Mosha and Liu, Chaozhen and Liu, Liping and Li, Dongdong and Li, Wei and Kong, Fei and Liu, Bangchang and Luo, Xiaobin and Qi, Ji and Jin, Qiao and Xu, Bin",
editor="Qin, Bing and Jin, Zhi and Wang, Haofen and Pan, Jeff and Liu, Yongbin and An, Bo",
title="DiaKG: An Annotated Diabetes Dataset for Medical Knowledge Graph Construction",
booktitle="Knowledge Graph and Semantic Computing: Knowledge Graph Empowers New Infrastructure Construction",
year="2021",
publisher="Springer Singapore",
address="Singapore",
pages="308--314",
isbn="978-981-16-6471-7"
}
如果您发表的论文有使用本数据集,请发邮件到tianchi_open_dataset@alibabacloud.com,回复论文链接,我们工作人员会给您寄送天池数据集小礼品。
遵循协议
该数据集遵循协议: CC BY-NC 4.0。
推荐数据集
- 中文医疗信息处理挑战榜 CBLUE (Chinese Biomedical Language Understanding Evaluation):由中文信息学会医疗健康与生物信息处理专业委员(CHIP)发起,由阿里云天池平台承办,是目前国内最权威的中文医疗NLP数据集。