nhanes数据库R包nhanesA
背景
nhanesA R 软件包的开发是为了让研究人员能够轻松地 从国家健康与营养中探索和检索数据 检查调查 (NHANES)。该调查评估了整体健康状况和 在美国对成人和儿童进行营养,并进行 由国家卫生统计中心(NCHS)提供。NHANES数据是 公开提供于:https://www.cdc.gov/nchs/nhanes.htm, ,并在 每年有数以千计的同行评审期刊出版物。
NHANES数据
自1999年以来,NHANES调查一直在持续进行,并且 在此期间的调查被称为“连续的NHANES” 与之前的几项调查区分开来。持续的 NHANES 调查是 以两年为间隔分组,第一个间隔为 1999-2000.
大多数NHANES数据采用SAS“XPT”格式的表格形式。这 调查分为五个公开可用的数据类别, 以及需要 访问前的书面理由和事先批准。封装 nhanesA 主要用于公开可用的数据,但有些 与受限访问数据有关的信息也可以是 检索。
五个公开可用的数据类别是: - 人口统计 (演示) - 饮食 (DIET) - 检查 (EXAM) - 实验室 (LAB) - 问卷调查 (Q)。括号中的缩写形式可以是 替换了 nhanesA 命令中的长格式。
对于受限访问数据,可用表和变量名称可以 列出,但无法直接下载数据。指示 nhanes中的有限访问数据功能,使用: - Limited (LTD)
列出 NHANES 表
为了快速熟悉 NHANES 数据,显示 表列表。使用 nhanesTables 获取有关以下表的信息 适用于给定年份的给定类别。
library(nhanesA)
nhanesTables('EXAM',2005)
请注意,两年调查间隔从奇数年开始。为 为方便起见,只需输入一个 4 位数的年份,即可产生相同的输出。nhanesTables('EXAM', 2005)``nhanesTables('EXAM', 2006)
列出 NHANES 表中的变量
查看输出后,我们决定对表感兴趣 “BMX_D”,包含身体测量数据。为了更好地确定是否 表是感兴趣的,我们可以在表上显示详细信息 使用 nhanesTableVars 的内容。
nhanesTableVars('EXAM','BMX_D')
我们看到表 BMX_D 中有 27 列。 SEQN 是一个主题 用于联接跨表的信息的标识符。
导入 NHANES 表
现在,我们将BMX_D与人口统计表一起导入DEMO_D。
bmx_d <- nhanes('BMX_D')
demo_d <- nhanes('DEMO_D')
我们合并表格并显示几个变量。请注意, 与大多数分类变量一样,RIAGENDR 是一个编码字段。默认情况下, 原始编码值 (1,2) 转换为 (Male, Female)。
bmx_d <- nhanes('BMX_D') demo_d <- nhanes('DEMO_D')
bmx_demo <- merge(demo_d, bmx_d)
options(digits=4)
select_cols <- c('RIAGENDR', 'BMXWT', 'BMXLEG', 'BMXCALF', 'BMXTHICR')
print(bmx_demo[5:8, select_cols], row.names=FALSE)
显示代码本
对于每个变量,NHANES 都提供了一个代码本,这是一个基本的 变量的描述,还包括分布或范围 的值。我们可以使用 nhanesCodebook 列出 表DEMO_D中的性别字段RIAGENDR。
nhanesCodebook('DEMO_D', 'RIAGENDR')
应用代码翻译
默认情况下,nhanes 函数将转换编码值。自 确保变量的正确解释,建议始终 与默认选项 translate = TRUE 一起使用。 但是,您也可以手动自定义编码字段的翻译 使用 nhanesTranslate。编码字段的自定义翻译是三个 步骤过程。1:使用 nhanes 下载表,translate = FALSE 2:选择要翻译的表变量 3:传递表和 变量列表到 nhanes翻译
bpx_d <- nhanes('BPX_D', translate=FALSE)
head(bpx_d[,6:11])
bpx_d_vars <- nhanesTableVars('EXAM', 'BPX_D', namesonly=TRUE)
bpx_d <- nhanesTranslate('BPX_D', bpx_d_vars, data=bpx_d)
head(bpx_d[,6:11])
在将编码列翻译为 代码翻译可能很长。为了提高可读性, 翻译字符串的默认长度限制为 128,但可以 设置高达1024。此外,至少具有两个类别的列 (例如 Male、Female)将被翻译,但 mincategories 可以设置为 1 执行翻译,即使只有一个类别 目前。
下载完整的调查问卷
nhanesA 的主要目标是实现完全可定制 处理选定的 NHANES 表。但是,这很容易 使用 nhanesA 函数下载整个调查。假设我们想下载 2007-2008年调查中的每份问卷。我们首先得到一个列表 使用 namesonly = TRUE 的 nhanesTables 来命名表。这些表可以 然后使用 NHANES 和 Lapply 下载。
q2007names <- nhanesTables('Q', 2007, namesonly = TRUE)
q2007tables <- lapply(q2007names, nhanes)
names(q2007tables) <- q2007names
特殊情况
某些 NHANES 测量需要特殊处理,例如由于 统计注意事项。此外,还进行了调查 在连续调查范围之外,但在 类似的格式,使得 nhanesA 可以很容易地适应检索 他们的数据。请注意,nhanesA 不能用于处理加速度计 2003-2006年的数据。有关这些数据,请参阅软件包加速计