描述
本数据集来源于天池中医药实体识别大赛:https://tianchi.aliyun.com/competition/entrance/531824/information。 数据来自中药药品说明书,通过挖掘中药说明书构建中药合理用药的知识图谱,将为中医规范诊疗奠定较好基础。抽取中药药品说明书中的关键信息可以帮助扩充中医药药品知识库。
数据列表
- 数据名称上传日期大小下载
- medical_ner_entities.json2021-06-1510.18MB
数据源: https://tianchi.aliyun.com/dataset/86819
文档
中药说明书实体识别数据集
1.概述
疫情催化下,人工智能正在持续助力中医药传承创新加速发展,其中中医用药知识体系沉淀挖掘是一个基础工作。通过挖掘中药说明书构建中药合理用药的知识图谱,将为中医规范诊疗奠定较好基础。抽取中药药品说明书中的关键信息可以帮助扩充中医药药品知识库。
2.描述
此数据集有1000份数据用于训练,按照以下13类定义的实体进行标注。
- 药品(DRUG):中药名称,指在中医理论指导下,用于预防、治疗、诊断疾病并具有康复与保健作用的物质。中药主要来源于天然药及其加工品,包括植物药、动物药、矿物药及部分化学、生物制品类药物。例子: 六味地黄丸、逍遥散
- 药物成分(DRUG_INGREDIENT): 中药组成成分,指中药复方中所含有的所有与该复方临床应用目的密切相关的药理活性成分。例子:当归、人参、枸杞
- 疾病(DISEASE): 疾病名称,指人体在一定原因的损害性作用下,因自稳调节紊乱而发生的异常生命活动过程,是特定的异常病理情形,而且会影响生物体的部分或是所有器官。通常解释为“身体病况”(medical condition),而且伴随着特定的症状及医学征象。例子:高血压、心绞痛、糖尿病
- 症状(SYMPTOM): 指疾病过程中机体内的一系列机能、代谢和形态结构异常变化所引起的病人主观上的异常感觉或某些客观病态改变。例子_:头晕、心悸、小腹胀痛_
- 证候(SYNDROME): 中医学专用术语,概括为一系列有相互关联的症状总称,即通过望、闻、问、切四诊所获知的疾病过程中表现在整体层次上的机体反应状态及其运动、变化,简称证或者候,是指不同症状和体征的综合表现,单一的症状和体征无法表现一个完整的证候。 例子:血瘀、气滞、气血不足、气血两虚
- 疾病分组(DISEASE_GROUP): 疾病涉及有人体组织部位的疾病名称的统称概念,非某项具体医学疾病。例子:肾病、肝病、肺病
- 食物(FOOD):指能够满足机体正常生理和生化能量需求,并能延续正常寿命的物质。对人体而言,能够满足人的正常生活活动需求并利于寿命延长的物质称之为食物。例子:苹果、茶、木耳、萝卜
- 食物分组(FOOD_GROUP): 中医中饮食养生中,将食物分为寒热温凉四性,同时中医药禁忌中对于具有某类共同属性食物的统称,记为食物分组。例子:油腻食物、辛辣食物、凉性食物
- 人群(PERSON_GROUP): 中医药的适用及禁忌范围内相关特定人群。例子:孕妇、经期妇女、儿童、青春期少女
- 药品分组(DRUG_GROUP): 具有某一类共同属性的药品类统称概念,非某项具体药品名。例子:止咳药、退烧药
- 药物剂型(DRUG_DOSAGE): 药物在供给临床使用前,均必须制成适合于医疗和预防应用的形式,成为药物剂型。例子:浓缩丸、水蜜丸、糖衣片
- 药物性味(DRUG_TASTE): 药品的性质和气味。例子:味甘、酸涩、气凉
- 中药功效(DRUG_EFFICACY): 药品的主治功能和效果的统称,例子:滋阴补肾、去瘀生新、活血化瘀
3.格式
[ { "id": 1, // int, 文档id "text": "xxx", // string, 药品说明书原始内容 "annotations": [ // list, text内所有的实体标注 { "entity": "新生化颗粒", // string, 实体内容 "label": "药品", // string, 实体类别 "start_offset": 12, // int, 实体在text中的起始下标位置 "end_offset": 17 // int, 实体在text中的结束下标位置, 注:采取左闭右开表示法 }, { "entity": "高血压", "label": "疾病", "start_offset": 29, "end_offset": 32 }, ... ] }, { "id": 2, "text": "xxx", "annotations": [ { "entity": "新生化颗粒", // string, 实体内容 "label": "药品", // string, 实体类别 "start_offset": 12, // int, 实体在text中的起始下标位置 "end_offset": 17 // int, 实体在text中的结束下标位置, 注:采取左闭右开表示法 }, { "entity": "高血压", "label": "疾病", "start_offset": 29, "end_offset": 32 }, ... ] }, ... ]
4.下载
点击申请按钮后,填写申请信息,填完后确认同意“使用条款”。系统会在7天内进行审核,审核通过即可下载数据,审核未通过可以根据系统反馈重新填写申请表单。如果您要在论文中引用此数据集,请在论文发表7天内发送链接到上述邮箱。如果您在7天内没有收到回信,有可能是您的邮箱退回了邮件,请在再次发送申请前确认是否有这种情况。后续数据更新会发布在数据集页面。
5.引用
如果您在研究中使用了本数据集,请按照如下方式引用:
@misc{
title={中药说明书实体识别}
url={https://tianchi.aliyun.com/dataset/dataDetail?dataId=86819}
author={Tianchi},
year={2020}
}
6.遵循协议
该数据集遵循协议: CC BY-NC 4.0。
7.推荐数据集
- 中文医疗信息处理挑战榜 CBLUE (Chinese Biomedical Language Understanding Evaluation):由中文信息学会医疗健康与生物信息处理专业委员(CHIP)发起,由阿里云天池平台承办,是目前国内最权威的中文医疗NLP数据集。