期刊简介

               本刊创刊于1984年9月,是中华人民共和国卫生部主管,中国卫生信息学会(原中国卫生统计学会)和中国医科大学主办的全国性卫生统计专业学术性双月刊,是国内卫生统计专业的唯一学术性期刊和中国医学类中文核心期刊及国家科技部中国科技论文统计源期刊。本刊的任务是及时报道我国卫生统计学科的科研成果和卫生统计工作改革与卫生事业发展的信息。主要读者对象为各级卫生机构的卫生统计人员、卫生技术人员和高等医学院校卫生统计专业的教学和科研人员。                

首页>中国卫生统计杂志
  • 杂志名称:中国卫生统计杂志
  • 主管单位:中华人民共和国国家卫生和计划生育委员会
  • 主办单位:中国卫生信息学会 中国医科大学
  • 国际刊号:1002-3674
  • 国内刊号:21-1153/R
  • 出版周期:双月刊
期刊荣誉:中国学术期刊(光盘版)全文收录期刊期刊收录:北大核心期刊(中国人文社会科学核心期刊), 万方收录(中), 知网收录(中), JST 日本科学技术振兴机构数据库(日), 上海图书馆馆藏, 国家图书馆馆藏, 统计源核心期刊(中国科技论文核心期刊), CSCD 中国科学引文数据库来源期刊(含扩展版), 维普收录(中)
中国卫生统计杂志2015年第06期

Rstudio和随机丛林在高维全基因组学数据分析中的应用

顾星博;李昂;温琪;焦辛妮;刘艳

关键词:全基因组关联分析, SNPs, Rstudio, 随机森林, 随机丛林
摘要:目的 结合Rstudio和Random Jungle两款软件的优势,通过远程登录简便、快捷地实现全基因组学数据的分析.方法 在服务器端搭建Rstudio Server,封装随机丛林R程序并对英国威康信托病例对照协会(WTCCC)高血压真实数据进行分析,通过Rstudio Sweave动态生成分析结果.结果 在客户端即可通过网络浏览器登陆服务器端搭建好的Rstudio Server;数据量较大时,封装后的随机丛林程序在Rstudio Server中运算速度方面相对于R randomForest包优势明显.2001名高血压病例及3004名对照的22条染色体共有490032个SNP位点,根据真实标签通过10次随机丛林过程筛选出稳定排序在前20位的SNPs位点,其Cochron-Armitage检验的P值也有10个排进前11位.结论 全基因组学数据的处理会消耗很多的时间和内存,普通计算机根本无法承受,Random Jungle软件的命令行运行方式又不易于数据处理、算法组合或嵌套及结果的再现、可视化,在服务器端搭建Rstudio Server并结合Random Jungle的分析策略可有效地应用于全基因组学数据分析,简化分析过程、提高分析速度和效率、方便实现分析结果的动态输出及再现.