发布于 2024-06-25 16:10:56

nhanes数据库R包nhanesA

背景

nhanesA R 软件包的开发是为了让研究人员能够轻松地从国家健康与营养中探索和检索数据检查调查（NHANES）。该调查评估了整体健康状况和在美国对成人和儿童进行营养，并进行由国家卫生统计中心（NCHS）提供。NHANES数据是公开提供于：https://www.cdc.gov/nchs/nhanes.htm，，并在每年有数以千计的同行评审期刊出版物。

NHANES数据

自1999年以来，NHANES调查一直在持续进行，并且在此期间的调查被称为“连续的NHANES” 与之前的几项调查区分开来。持续的 NHANES 调查是以两年为间隔分组，第一个间隔为 1999-2000.

大多数NHANES数据采用SAS“XPT”格式的表格形式。这调查分为五个公开可用的数据类别，以及需要访问前的书面理由和事先批准。封装 nhanesA 主要用于公开可用的数据，但有些与受限访问数据有关的信息也可以是检索。

五个公开可用的数据类别是： - 人口统计（演示） - 饮食（DIET） - 检查（EXAM） - 实验室（LAB） - 问卷调查（Q）。括号中的缩写形式可以是替换了 nhanesA 命令中的长格式。

	Demographics(人口统计学)	Dietary（饮食）	Examination（考试）	Laboratory（实验室）	LimitedAccess（有限访问）	Questionnare（问卷）
1999-2000	Demographics	Dietary	Examination	Laboratory	LimitedAccess	Questionnaire
2001-2002	Demographics	Dietary	Examination	Laboratory	LimitedAccess	Questionnaire
2003-2004	Demographics	Dietary	Examination	Laboratory	LimitedAccess	Questionnaire
2005-2006	Demographics	Dietary	Examination	Laboratory	LimitedAccess	Questionnaire
2007-2008	Demographics	Dietary	Examination	Laboratory	LimitedAccess	Questionnaire
2009-2010	Demographics	Dietary	Examination	Laboratory	LimitedAccess	Questionnaire
2011-2012	Demographics	Dietary	Examination	Laboratory	LimitedAccess	Questionnaire
2013-2014	Demographics	Dietary	Examination	Laboratory	LimitedAccess	Questionnaire
2015-2016	Demographics	Dietary	Examination	Laboratory	LimitedAccess	Questionnaire
2017-2018	Demographics	Dietary	Examination	Laboratory	LimitedAccess	Questionnaire
2019-2020	Demographics	Dietary	Examination	Laboratory	LimitedAccess	Questionnaire

对于受限访问数据，可用表和变量名称可以列出，但无法直接下载数据。指示 nhanes中的有限访问数据功能，使用： - Limited （LTD）

列出 NHANES 表

为了快速熟悉 NHANES 数据，显示表列表。使用 nhanesTables 获取有关以下表的信息适用于给定年份的给定类别。

library(nhanesA)
nhanesTables('EXAM',2005)

请注意，两年调查间隔从奇数年开始。为为方便起见，只需输入一个 4 位数的年份，即可产生相同的输出。nhanesTables('EXAM', 2005)``nhanesTables('EXAM', 2006)

列出 NHANES 表中的变量

查看输出后，我们决定对表感兴趣 “BMX_D”，包含身体测量数据。为了更好地确定是否表是感兴趣的，我们可以在表上显示详细信息使用 nhanesTableVars 的内容。

nhanesTableVars('EXAM','BMX_D')

我们看到表 BMX_D 中有 27 列。 SEQN 是一个主题用于联接跨表的信息的标识符。

导入 NHANES 表

现在，我们将BMX_D与人口统计表一起导入DEMO_D。

bmx_d <- nhanes('BMX_D')
demo_d <- nhanes('DEMO_D')

我们合并表格并显示几个变量。请注意，与大多数分类变量一样，RIAGENDR 是一个编码字段。默认情况下，原始编码值（1,2）转换为（Male， Female）。

bmx_d <- nhanes('BMX_D')
demo_d <- nhanes('DEMO_D')
bmx_demo <- merge(demo_d, bmx_d)

options(digits=4)

select_cols <- c('RIAGENDR', 'BMXWT', 'BMXLEG', 'BMXCALF', 'BMXTHICR')

print(bmx_demo[5:8, select_cols], row.names=FALSE)

显示代码本

对于每个变量，NHANES 都提供了一个代码本，这是一个基本的变量的描述，还包括分布或范围的值。我们可以使用 nhanesCodebook 列出表DEMO_D中的性别字段RIAGENDR。

nhanesCodebook('DEMO_D', 'RIAGENDR')

应用代码翻译

默认情况下，nhanes 函数将转换编码值。自确保变量的正确解释，建议始终与默认选项 translate = TRUE 一起使用。但是，您也可以手动自定义编码字段的翻译使用 nhanesTranslate。编码字段的自定义翻译是三个步骤过程。1：使用 nhanes 下载表，translate = FALSE 2：选择要翻译的表变量 3：传递表和变量列表到 nhanes翻译

bpx_d <- nhanes('BPX_D', translate=FALSE)
head(bpx_d[,6:11])

bpx_d_vars <- nhanesTableVars('EXAM', 'BPX_D', namesonly=TRUE)
bpx_d <- nhanesTranslate('BPX_D', bpx_d_vars, data=bpx_d)

head(bpx_d[,6:11])

在将编码列翻译为代码翻译可能很长。为了提高可读性，翻译字符串的默认长度限制为 128，但可以设置高达1024。此外，至少具有两个类别的列（例如 Male、Female）将被翻译，但 mincategories 可以设置为 1 执行翻译，即使只有一个类别目前。

下载完整的调查问卷

nhanesA 的主要目标是实现完全可定制处理选定的 NHANES 表。但是，这很容易使用 nhanesA 函数下载整个调查。假设我们想下载 2007-2008年调查中的每份问卷。我们首先得到一个列表使用 namesonly = TRUE 的 nhanesTables 来命名表。这些表可以然后使用 NHANES 和 Lapply 下载。

q2007names <- nhanesTables('Q',  2007, namesonly = TRUE)
q2007tables <- lapply(q2007names, nhanes)
names(q2007tables) <- q2007names

特殊情况

某些 NHANES 测量需要特殊处理，例如由于统计注意事项。此外，还进行了调查在连续调查范围之外，但在类似的格式，使得 nhanesA 可以很容易地适应检索他们的数据。请注意，nhanesA 不能用于处理加速度计 2003-2006年的数据。有关这些数据，请参阅软件包加速计

分享 #HHANES

浏览 (740)