·论  著·

基于项目反应理论的传染病健康素养问卷分析

王嘉宁1,华伟玉2,王洪源1*

(1.北京大学公共卫生学院流行病与卫生统计学系,北京 100191;2.北京市海淀区疾病预防控制中心传染病地方病控制科,北京 100094)

[摘要]目的应用项目反应理论对《北京市居民传染病健康素养调查问卷》进行条目分析。方法数据来源于北京市海淀区居民传染病健康素养调查,调查问卷由传染病相关基本知识和理念、生活方式与行为、技能3个维度组成。采用三参数Logistic模型拟合样本,估计各条目的区分度参数、难度参数、猜测系数。结果调查问卷各维度均满足单维性假设,可以应用项目反应理论进行条目分析。3个维度中分别有70.0%、90.9%、0%的条目区分度参数处在(0.5,2)的合理取值范围内,剩余条目区分度参数偏大;所有条目的难度参数均在(-3,3)的合理取值范围内;3个维度中分别有70.0%、72.7%、100%的条目猜测系数处在(0,0.2)的合理取值范围内,剩余条目的猜测系数中最高者为0.352。结论调查问卷绝大多数条目区分度合理,少数条目区分度偏高,以技能维度最为严重;所有条目均难度合理,整体呈中等偏低水平;猜测行为仅存在于知识、行为维度的少数条目,对问卷整体答题情况的影响并不严重。

[关键词]健康素养;传染病;问卷调查;项目反应理论

doi:10.3969/j.issn.1007-3205.2016.08.003

健康素养是健康促进领域近年来备受关注的一个研究热点,世界卫生组织认为“健康素养代表着认知能力和社交技能,这种技能决定了个体具备动机和能力去获取、理解和利用信息,从而促进和维系健康”[1]。健康素养可通过疾病知识、预防保健、健康行为、依从性等中间变量对健康结局造成影响[2-3]。科学设计健康素养量表,准确评估个体和群体的健康素养水平,对于公众健康教育[4-5]、国家卫生政策改革都具有重要的指导意义。迄今为止,国外已有成人医学素养快速评估量表、成人功能性健康素养测试量表等许多经典健康素养量表。国内则由卫生部于2008年组织编写《中国居民健康素养调查问卷》,开展首次全国居民健康素养抽样调查[6]。在此基础上,北京市疾病预防控制中心于2010年组织编写《北京市居民传染病健康素养调查问卷》并在全市范围开展抽样调查,首次构建了传染病健康素养指标体系[7]。本研究应用项目反应理论(item response theory,IRT)对该问卷进行条目分析,评估各条目难度参数、区分度参数、猜测系数等项目参数。现报告如下。

1 资料与方法

1.1 一般资料 由海淀区疾病预防控制中心于2013年10月和2014年10月进行2次组织问卷调查,抽样方法选用多阶段抽样。样本量计算工作由北京市疾病预防控制中心在前期完成。根据2008年首次全国居民健康素养调查结果,城市居民具备传染病健康素养的比例为21.82%[8]。以此作为样本量计算的依据,取π=21.82%,允许误差δ=0.1π。取95%可信限,μ0=1.96。复杂抽样的设计效应deff=1.5。根据公式计算如下:N=μ02×π(1-π)×deff/δ2= 1.962×0.2182(1-0.2182)×1.5/(0.1×0.2182)2≈ 2 065(例)。即每层应抽取约2 065例。考虑性别、年龄等分层因素(按年龄组分层层数最多,共5层),应调查样本量为2 065例/层×5层=10 325例。考虑问卷回收率和填写差错,实际样本量需扩大20%,n=10 325×(1+20%)=12 390例。这其中,依照北京市疾病预防控制中心统一安排,海淀区需承担的样本量为1 200例左右。调查对象的入选标准为:北京市海淀区年满18周岁的常住人口,神志清醒,可通过语言或文字进行交流,且符合知情同意原则。

2次调查分别回收问卷1 206份、1 203份,其中有效问卷1 088份、1 081例,有效应答率分别为90.2%、89.9%。合计有效问卷2 169份,其中男性1 066例,女性1 103例;年龄18~90岁,中位年龄44岁;户口所在地为北京城区的例数最多,共1 263例,占58.7%;文化程度为大专/本科及以上的例数最多,共1 049例,占48.6%;婚姻状况为已婚的例数较多,共1 843例,占86.7%;职业为企业或公司职员的例数最多,共636例,占29.4%。

1.2 方法

1.2.1 调查问卷内容 2次调查均采用《北京市居民传染病健康素养调查问卷》。问卷含3个维度:传染病相关基本知识和理念(简称“知识”)、传染病相关生活方式与行为(简称“行为”)、传染病相关技能(简称“技能”)。剔除经专家咨询、验证性因子分析等指标筛查流程后认为不应纳入评价指标体系的条目[9],最终知识、行为、技能3个维度各有10、11、3个条目纳入本研究的条目分析,见表1。

表1 《北京市居民传染病健康素养调查问卷》条目

Table 1 Items in questionnaire on health literacy regarding infectious diseases in residents in Beijing

维度条目编号2013年2014年统一变量名题干保留情况 基本知识和理念4.16.1k1给孩子打预防针能够预防哪类疾病?保留 4.26.2k2体温大于等于多少度为发热(腋下温度)?保留 4.36.3k3儿童预防麻疹最有效的措施是?保留 4.46.4k4预防流感最有效的措施是?保留

表1 (续)

4.56.5k5出现下列哪种症状,可怀疑患上肺结核?保留 4.66.6k6甲型肝炎(甲肝)主要是如何传播的?保留 4.76.7k7以下哪些情况可能感染乙型肝炎?保留 4.86.8k8以下哪些情况可能感染艾滋病?保留 6.48.4s4阅读“血常规化验单”,回答其中有哪些异常指标?保留 6.58.5s5您能否正确使用体温计测量腋下温度?保留 生活方式与行为5.1无您现有的传染病知识主要是通过什么途径获得的?删除* 5.27.1过去1周,您有几天的锻炼时间多于30min?删除**5.37.2b1在公共场所,当您有痰时,您一般如何做?保留 5.47.3b2在公共场所,当您咳嗽、打喷嚏时一般如何做?保留 5.57.4b3您是否具备良好洗手习惯,掌握正确洗手方法?保留 5.67.5b4当您或您的亲朋出现发热、咳嗽等症状,需要您自行或陪同就医时,您会戴口罩吗?保留 5.77.6b5在呼吸道传染病流行期间您会采取下列哪些措施?保留 5.8无近1年,您是否注射过流感疫苗?删除* 5.9无您平时生食海产品或水产品吗?删除* 5.107.7b6您家使用砧板和刀具加工食物时,生熟分开吗?保留 5.117.8b7您主要在哪些机构拔牙、补牙或洗牙?保留 5.127.9b8您会因为某家餐馆卫生条件不好而不去就餐吗?保留 5.137.10b9您和别人共用毛巾吗?保留 5.147.11b10被猫抓伤或咬伤后,您会去医院注射狂犬疫苗吗?保留 5.157.12b11外出旅游您会关注目的地的传染病流行情况吗?保留 技能6.18.1s1您能否通过上网/查阅报刊等快速获取传染病知识?保留 6.28.2s2您能看得懂药品说明书吗?保留 6.38.3s3您能看得懂有关传染病的科普宣传折页吗?保留

注:*此3项条目仅出现在2013年问卷中;验证性因子分析显示它们与传染病相关行为之间的标准化通径系数绝对值<0.05,提示条目内容与行为的相关性极小,不适合纳入评价指标,在2014年问卷中删除[9]

**尽管该条目在2013、2014年问卷中均出现,但它与传染病相关行为之间的标准化通径系数仅为0.107,表明其测量误差过大,同样不适合纳入评价指标,因此研究者将其剔除

1.2.2 计分方法 单选题,正确计1分,错误计0分;多选题,选项与正确答案完全一致计1分,漏选、错选计0分。

1.3 统计学方法 应用SAS 9.4统计软件进行数据分析。应用IRT模型对问卷进行条目分析。首先检验知识、行为、技能3个维度的单维性,确定问卷是否适于构建IRT模型。采用特征根分析法,计算每个维度各条目间多项相关系数矩阵第一特征根与第二特征根的比值,当比值大于3时,即可认为满足单维性假设[10]。选用三参数Logistic模型构建IRT模型,即,其中θ、a、b、c分别为被试能力参数、项目区分度参数、项目难度参数、项目猜测系数,P(θ)表示能力为θ的被试答对区分度为a、难度为b、猜测系数为c的项目的概率。选择适用于大样本的边际极大似然估计法计算各条目的a、b、c 3个项目参数。一般认为能力测验型量表的项目区分度参数a应在(0.5,2)之间,过低则无法为被试者能力估计提供足够的信息量,过高则即使被试样本容量非常大,估计精度也不理想[11]。难度参数b应在(-3,3)之间[12],若b的真值超过3,则需要抽样人群中含有足够多的高能力被试,否则参数估计误差偏大,反之则需要足够多的低能力被试,才能够保证满意的估计精度。猜测系数参数c理论上应小于随机作答的期望值,本问卷各条目的选项数目不等,以五选一为最多,取0.2为参考标准。

2 结  果

2.1 单维性检验 知识、行为维度第一特征值与第二特征值之比均大于3,技能维度大于5。说明问卷的3个维度均满足单维性假设,可以进行IRT分析。见表2。

表2 各维度单维性假设检验结果

Table 2 Test of unidimensional assumption in each dimension

维度第一特征值第二特征值比值单维性假设知识4.0571.2183.331满足 行为3.8461.1423.367满足 技能2.6920.24111.193充分满足

2.2 项目反应理论模型参数估计 问卷区分度尚可,知识、行为、技能3个维度中分别有70.0%、90.9%、0%条目的区分度参数a处于(0.5,2)的合理范围内;剩余7个条目k4、k6、k7、b1、s1、s2、s3的区分度均过高,其中条目“您能看得懂有关传染病的科普宣传折页吗”(s3)的区分度最高(a=7.532),条目“预防流感最有效的措施”(k4)、“您能看得懂药品说明书吗”(s2)、“您能看得懂有关传染病的科普宣传折页吗”(s3)的标准误已大于0.5。结合区分度参数a和标准误的取值,认为这7个条目参数的估计精度过低,对条目筛选和测验评价的指导意义不大,特别是技能维度,所包含的全部3个条目区分度都过高,表明问卷可能无法准确测量调查对象在技能维度的健康素养。所有条目的难度参数b分布在(-2.124,1.045)之间,均在合理范围内,表明问卷难度合理,整体难度水平呈中等偏易。3个维度中猜测系数c≥0.2的条目数分别为3、3、0,分别占各维度的30.0%、27.3%、0%,其中条目“您主要在哪些机构拔牙、补牙或洗牙?”(b7)的猜测系数最大,但也仅为0.352,表明猜测行为仅存在于知识、行为维度的少数条目,对评估被试组整体答题情况的干扰作用并不严重。见表3。

表3 传染病健康素养问卷项目参数

Table 3 Item parameters of health literacy regarding infectious diseases questionnaire

维度条目区分度参数sx-难度参数sx-猜测系数sx-知识k11.6290.133-1.3280.0740.0000.000k21.9610.4790.9600.0890.2690.035k31.0940.090-1.3350.0940.0000.000k42.0330.6900.9060.1160.3340.047k51.7860.319-0.3810.2160.2450.100k62.2740.3610.2790.0800.1180.041k72.0880.3030.7250.0500.0080.023k81.7530.2460.2870.0920.0490.046k91.2900.091-0.6000.0520.0000.000k100.8790.086-2.1240.1770.0000.000行为b12.0460.215-1.8670.1010.0000.000b20.8020.0700.6650.0770.0000.000b31.2170.0900.1730.0460.0000.000b41.2250.2061.0450.0840.0170.035b50.9370.077-0.9050.0800.0000.000b61.5230.288-0.5540.2820.3440.107b71.3740.3350.2860.2280.3520.074b80.5060.060-0.7180.1190.0000.000b91.8910.3460.4090.0930.1620.043b101.2840.310-1.2920.6990.3490.271b111.5480.119-0.8840.0570.0000.000技能s12.5480.167-0.5920.0380.0000.000s25.6100.657-0.6910.0340.0000.000s37.5321.235-0.7170.0330.0000.000

3 讨  论

本研究在对《北京市居民传染病健康素养调查问卷》进行条目分析时,应用了IRT。IRT是一项近年来迅速发展的现代教育测量理论。同传统的经典测量理论(classical test theory, CTT)一样,IRT同样可以用于指导项目筛选和测验编制,在教育学、心理学领域均已广泛得到应用,近年来也逐渐拓展至卫生领域,被用于构建项目库、修订健康量表、设计计算机自适应测验等[13]

CTT的理论基础是针对每一个条目,将被试样本组全体的测验正确率定义为该条目的难度,将高分被试组和低分被试组测验正确率的差值定义为区分度。这一模型直观易懂,计算简便。然而,由于难度、区分度参数估计值的高低直接取决于该组被试的能力水平和答题情况,因此参数不具有跨群体稳定性,随不同被试样本组的不同测验分数而改变[14]。不同于CTT的确定性模型,IRT采用的是概率性模型。它将被试能力参数θ与项目参数a、b、c定义在同一个参照系上,即不考虑猜测因素,当被试者答对与答错一个项目的概率恰好相等时,其能力水平与项目难度水平持平。由于每个被试答题情况与同组其他被试的能力分布无关,因此难度、区分度等项目参数估计值就成为了试题本身固有属性,在保证一定样本量的前提下,无论怎样抽取划分被试群组,项目参数均保持不变[15]。《北京市居民传染病健康素养调查问卷》的目标调查对象是北京市各个城郊区县的常住居民,而本研究仅获取了其中海淀区抽样人群的数据,他们的素养水平不一定能够代表全市水平。选用IRT理论进行项目分析,可以确保项目参数估计与被试人群的水平分布无关,并给出不依赖于样本的标准误控制测验误差,保证分析结论的稳定性和精确性。

通过IRT分析,显示《北京市居民传染病健康素养调查问卷》整体难度处于中等偏低的水平,这与该问卷的定位更倾向于“合格性”而非“选拔性”测验相符,目标着眼于评估居民对最基本健康信息及技能的掌握情况。IRT将项目难度参数与被试者能力参数定义在同一参照系上,意味着难度越高的条目,被试组答对概率越低。所有条目中难度参数最高的是条目“当您或您的亲朋出现发热、咳嗽等症状,需要您自行或陪同就医时,您会戴口罩吗”(b4,1.045),说明海淀区居民普遍缺少佩戴口罩预防呼吸道传染病的意识和习惯。知识维度条目“体温大于等于多少度为发热(腋下温度)”(k2,0.960)、“预防流感最有效的措施是”(k4,0.906)、“以下哪些情况可能感染乙型肝炎”(k7,0.725)的难度参数也较高,说明常见传染病知识的宣传力度和效果尚有待提高。此外,技能维度全部3个条目的区分度参数均过高,且标准误偏大,说明该维度估计精度不足,可能无法准确测量调查对象在技能维度的健康素养,应该对条目的数量和内容都加以调整。

本研究中,IRT理论不仅可以用于估计问卷难度、区分度等项目参数,还可以在后续分析中通过估计被试能力参数θ,得到海淀区居民传染病健康素养得分。以往计算问卷总分的常规方法是直接将各条目的得分加和,然而由于不同条目的难度、区分度不同,对被试能力评估贡献的信息量不同,同一总分的被试者可能由于答对难题、简单题的比例不同,能力水平截然不同。而在IRT分析中,基于构建的三参数Logistic模型,通过贝叶斯最大后验法(maximum a posteriori, MAP)计算使后验概率密度函数最大化的能力参数θ,则可以保证区分度合理、难度较大的条目占有更大的得分权重,从而取得更接近真实客观的总体评分。这一分析思路亦值得在其他问卷调查项目中参考、借鉴。

[参考文献]

[1] Mårtensson L,Hensing G. Health literacy--a heterogeneous phenomenon: a literature review[J]. Scand J Caring Sci,2012,26(1):151-160.

[2] Sentell T,Zhang W,Davis J,et al. The influence of community and individual health literacy on self-reported health status[J]. J Gen Intern Med,2014,29(2):298-304.

[3] Wolf MS,Curtis LM,Wilson EA,et al. Literacy,cognitive function,and health: results of the LitCog study[J]. J Gen Intern Med,2012,27(10):1300-1307.

[4] 庞旭哲,吕会新,刘素波.基于阶段改变模式的健康教育对糖尿病患者行为改变的影响[J].河北医科大学学报,2013,34(11):1376-1379.

[5] 胡巧云,翁增亚.健康教育对孕产妇围产期保健的影响[J].河北医科大学学报,2013,34(6):731-732.

[6] 刘小娜,常春,孙昕霙.健康素养全球研究概况及其在中国的发展展望[J].中国健康教育,2012,28(2):150-153.

[7] 吴双胜,杨鹏,李海月,等.北京市居民传染病健康素养水平及其影响因素分析[J].北京大学学报:医学版,2012,44(4):607-611.

[8] 李方波,许玲,魏南方.2008年我国居民传染病预防健康素养调查分析[J].中国健康教育,2012,28(3):209-210,218.

[9] 吴双胜,杨鹏,李海月,等.北京市居民传染病健康素养指标体系研究[J].中华流行病学杂志,2012,33(3):301-304.

[10] 臧运洪,赵守盈,陈维,等.用项目反应理论修订父母同伴依恋量表[J].贵州师范大学学报:自然科学版,2012,30(2):22-27.

[11] 杜文久,周娟,李洪波.二参数逻辑斯蒂模型项目参数的估计精度[J].心理学报,2013,45(10):1179-1186.

[12] 曹尚,曹荣祥,孙昕霙,等.项目反应理论在居民健康素养标准参照测验中的应用研究[J].中国卫生统计,2016,33(1):31-38.

[13] 吴大嵘.项目反应理论及其在健康测量中的应用[J].中西医结合学报,2012,10(3):271-278.

[14] Thomas ML,Brown GG,Thompson WK,et al. An application of item response theory to fMRI data: Prospects and pitfalls[J]. Psychiatry Res,2013,212(3):167-174.

[15] 戴海琦,罗照盛.项目反应理论原理与当前应用热点概览[J].心理学探新,2013,33(5):392-395.

(本文编辑:赵丽洁)

Questionnaire on health literacy of infectious diseases based on item response theory

WANG Jia-ning1, HUA Wei-yu2, WANG Hong-yuan1*

(1.Department of Epidemiology and Biostatistics, the School of Public Health, Peking University,Beijing 100191, China;2.Department of Infectious and Endemic Disease Control, Haidian District Center for Disease Control and Prevention, Beijing 100094, China)

[Abstract]Objective To analyze the items of the questionnaire on health literacy regarding infectious diseases in residents in Beijing'using item response theory(IRT). Methods Data was collected from the survey on health literacy regarding infectious diseases of residents who lived in Haidian district, Beijing. The three-dimensional questionnaire identified conceptual knowledge and attitudes towards infectious diseases; lifestyle and health behavior; and health-related skills. Three-parameter logistic model was used to fit the sample and to calculate the discrimination, difficulty and guessing parameter of each item. Results Since each dimension of the questionnaire satisfied the unidimensional assumption, IRT could be applied to execute item analysis. Among the three dimensions, there were 70.0%, 90.9% and 0% of the item discrimination parameters lying in the rational domain at(0.5, 2) respectively, while rest of them had larger discrimination values. All the item difficulty parameters were within the reasonable range of(-3, 3). The reasonable value interval of guessing parameter was(0, 0.2). For different dimensions, there were 70.0%, 72.7% and 100% item guessing parameter fit in this range. The maximum value of the guessing parameter was 0.352. Conclusion  Most of the items in the questionnaire had acceptable discriminations. Only few items had excessive discrimination levels and mostly existed in the health-related skills dimension. The difficulties of all the items were in a medium to slightly lower level, which was reasonable. Guessing behavior only happened to small number of items in the first two dimensions and had trivial effect on the overall survey.

[Key words]health literacy; infectious diseases; questionnaires; item response theory

[收稿日期]2016-04-12;

[修回日期]2016-04-21

[作者简介]王嘉宁(1991-),女,北京人,北京大学公共卫生学

*通讯作者:。E-mail:why_w2003@163.com

[中图分类号]R195

[文献标志码]A

[文章编号]1007-3205(2016)08-0878-05

院医学硕士研究生,从事公共卫生及临床数据分析研究。