PubMedQA生物医学研究问题解答数据集

数据文档

背景描述

PubMedQA是从PubMed摘要中收集的新颖的生物医学问答(QA)数据集。
PubMedQA的任务是使用相应的摘要以是/否/可能的方式回答研究问题(例如:术前他汀类药物是否能减少冠状动脉搭桥术后的房颤?)。

Image Name

数据说明

PubMedQA具有1k专家注释,61.2k未标记和211.3k人工生成的QA实例。每个PubMedQA实例均由

(1)一个问题(既可以是现有研究文章的标题,又可以是从其中得出的问题)组成;
(2)上下文是没有其结论的相应摘要;
(3)长答案,即摘要,大概可以回答研究问题;
(4)是/否/也许是答案,总结了结论。

PubMedQA是第一个QA数据集,需要对生物医学研究文本进行推理,尤其是其定量内容才能回答问题。

我们性能最佳的模型是BioBERT的多阶段微调,具有长答案词袋统计作为额外的监督,可实现68.1%的准确性,相比之下,单个人的性能为78.0%的准确性和多数基准为55.2%的准确性,有很大的改进空间。

数据来源

https://github.com/pubmedqa/pubmedqa

引文

@inproceedings{jin2019pubmedqa,
  title={PubMedQA: A Dataset for Biomedical Research Question Answering},
  author={Jin, Qiao and Dhingra, Bhuwan and Liu, Zhengping and Cohen, William and Lu, Xinghua},
  booktitle={Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)},
  pages={2567--2577},
  year={2019}
}

问题描述

生物医学问答