期刊简介

               本刊创刊于1984年9月,是中华人民共和国卫生部主管,中国卫生信息学会(原中国卫生统计学会)和中国医科大学主办的全国性卫生统计专业学术性双月刊,是国内卫生统计专业的唯一学术性期刊和中国医学类中文核心期刊及国家科技部中国科技论文统计源期刊。本刊的任务是及时报道我国卫生统计学科的科研成果和卫生统计工作改革与卫生事业发展的信息。主要读者对象为各级卫生机构的卫生统计人员、卫生技术人员和高等医学院校卫生统计专业的教学和科研人员。                

首页>中国卫生统计杂志
  • 杂志名称:中国卫生统计杂志
  • 主管单位:中华人民共和国国家卫生和计划生育委员会
  • 主办单位:中国卫生信息学会 中国医科大学
  • 国际刊号:1002-3674
  • 国内刊号:21-1153/R
  • 出版周期:双月刊
期刊荣誉:中国学术期刊(光盘版)全文收录期刊期刊收录:北大核心期刊(中国人文社会科学核心期刊), 万方收录(中), 知网收录(中), JST 日本科学技术振兴机构数据库(日), 上海图书馆馆藏, 国家图书馆馆藏, 统计源核心期刊(中国科技论文核心期刊), CSCD 中国科学引文数据库来源期刊(含扩展版), 维普收录(中)
中国卫生统计杂志2017年第04期

多组学联合缺失数据填补方法的评价

董学思;林丽娟;赵杨;魏永越;戴俊程;陈峰

关键词:多组学数据, 块缺失, 统计学填补, 机器学习填补, 效果评价
摘要:目的 本研究旨在评价不同平台间“块缺失”数据的填补方法.如何在保证方差-协方差结构相对稳定的前提下提高多组学数据填补的精确度,对于后期数据挖掘有重要的意义.方法 利用癌症基因组图谱(TCGA)数据库的肺癌数据(甲基化数据、基因表达数据),构建不同缺失比例的数据集(缺失比例分别为5%、20%、35%、50%和65%).采用统计学填补方法均值法,马尔科夫蒙特卡洛法(MCMC)和机器学习填补法[邻近法(kNN),随机森林法(RF),多层感知机法(MLP)]对缺失数据进行填补,填补后数据集与原数据集进行比较.评价指标包括估计偏差和矩阵-2-范数.根据评价指标和填补时间,比较出填补效果优、填补时间较短的方法.结果 MLP和kNN算法在各种缺失比例下均比其他填补方法有更优的效果,填补时间也相对较短.均值法的时间短,在数据集缺失比例较小时(≤5%),填补效果与其他填补方法相当,但在高比例缺失情况下表现较差.在数据集高比例缺失情况下,RF和MCMC的填补效果优于均值法,但填补时间过长,不适用于实际工作.结论 综合比较,机器学习填补方法中的MLP和kNN两法适合于甲基化数据和表达数据的填补.