期刊简介

               本刊创刊于1984年9月,是中华人民共和国卫生部主管,中国卫生信息学会(原中国卫生统计学会)和中国医科大学主办的全国性卫生统计专业学术性双月刊,是国内卫生统计专业的唯一学术性期刊和中国医学类中文核心期刊及国家科技部中国科技论文统计源期刊。本刊的任务是及时报道我国卫生统计学科的科研成果和卫生统计工作改革与卫生事业发展的信息。主要读者对象为各级卫生机构的卫生统计人员、卫生技术人员和高等医学院校卫生统计专业的教学和科研人员。                

首页>中国卫生统计杂志
  • 杂志名称:中国卫生统计杂志
  • 主管单位:中华人民共和国国家卫生和计划生育委员会
  • 主办单位:中国卫生信息学会 中国医科大学
  • 国际刊号:1002-3674
  • 国内刊号:21-1153/R
  • 出版周期:双月刊
期刊荣誉:中国学术期刊(光盘版)全文收录期刊期刊收录:北大核心期刊(中国人文社会科学核心期刊), 万方收录(中), 知网收录(中), JST 日本科学技术振兴机构数据库(日), 上海图书馆馆藏, 国家图书馆馆藏, 统计源核心期刊(中国科技论文核心期刊), CSCD 中国科学引文数据库来源期刊(含扩展版), 维普收录(中)
中国卫生统计杂志2013年第06期

高维数据回归分析中基于LASSO的自变量选择

张秀秀;王慧;田双双;乔楠;闫丽娜;王彤

关键词:高维数据, 数据回归分析, 模型预测, 变量选择, 偏最小二乘法, 主成分回归, 样本量, 统计推断, 可解释性, 集成方法, 未知参数, 数据集, 乳腺癌患者, 岭回归, 聚类算法, 统计学意义, 生物信息学, 累计贡献率, 多重共线性, 选择策略
摘要:生物信息学背景下普遍存在着高维数据,所谓的“高维”即待估计的未知参数的个数是样本量的一个或几个数量级[1],例如Van't Veer(2002)[2]等学者收集的乳腺癌数据集共包括259例乳腺癌患者,25000个微阵列基因数据,研究变量个数25000远远大于样本量259,存在“高维”现象.传统的方法进行参数估计和统计推断的一个必要前提是待估参数的个数小于样本量,这样统计推断的结果才是稳定、可靠的.对于高维数据回归分析,经验研究表明自变量进入模型的顺序不同所得到的回归系数的估计方差亦不相同,甚至变异很大,提示估计结果不稳定,此时通常需要考虑其他变量选择策略.Fan等(2001年)[3]提出变量选择应该满足以下要求:(1)模型预测的准确性;(2)模型的可解释性,即模型中选择的自变量在专业上是合理的、科学的;(3)模型的稳定性,即数据集中数据微小的变动不会导致模型较大变动;(4)应尽量避免在假设检验中出现的偏倚;(5)应尽量控制计算的复杂度.以往提出的一些降维方法如聚类、偏小二乘法、主成分回归、岭回归、基于树的集成方法等都只能达到其中的部分目标:通过聚类得到的模型对于聚类算法过于敏感;偏小二乘法与主成分回归通常根据累计贡献率、特征根的大小、统计学意义等准则选取成分,所得模型虽结构简约、估计稳定,但估计是有偏的[4],同时所得到的主成分虽或有一定的实际意义,但是不能清晰地解释单个协变量的效应[5];岭回归虽能较好地处理变量间的多重共线性,但因它不能降低维度而无法提供一个稀疏的模型;基于树的集成方法则因调整参数过多,而导致结果的可解释性往往较差.