GWAS的基本分析内容

之前给大家大致介绍了一下临床学生信分析中的GWAS,包括一些基本概念,原理,注意事项(出门往左->;临床生物信息学中的GWAS分析),这次我就具体说说GWAS的基本分析内容和结果解读(这也是我个人在百迈客云课堂的学习笔记,有兴趣学习的可以购买课程《百迈客GWAS生物信息学培训班》)。

此外,参考资料和图纸来自

GWAS的基本分析内容

1)按输入百分比过滤。

一般排除20%以上的站点删除率,如果数据量比较大可以放宽到50%。

2)通过等位基因频率过滤

如果第二个等位基因的频率小于5%,数据量大的话可以放宽到1%。

3)过滤多个等位基因

根据软件的需要,有些软件不支持多个等位基因。

4)哈迪温伯格平衡过滤

在人类病例/对照中,不符合Hardy Weinberg平衡的位点通常被过滤掉,动物和植物不使用这种过滤。

5)去除极端表型

最小饱和标记量=基因组大小/LD衰减距离

密度越高越好:检测功能位点的概率增加;同一块中的站点相互验证。

根据LD衰减距离可以确定候选基因的上游和下游范围。

1)目的:评价群体结构和遗传关系以确定所用的统计模型并获得相应的矩阵。

2)评价内容(如果遗传差异太大,应该淘汰,保留相似度高的那一个)

种群结构:构建进化树(必要)

NJ树(mega)构建在同一物种内序列差异很小,但序列差异很大。不同的物种构建ML树和贝叶斯树。

模型库的组结构分析

主成分分析

亲缘关系:相似系数热图,遗传距离

3)群体结构和遗传关系是导致假阳性关联结果的两个主要因素(在课程中,谢鲲用例子说明了群体结构和遗传关系对结果的巨大影响,如玉米矮秆基因?来自Dwarf8的关于结构化关联映射的优点和缺点的教训)

1)选择正确的统计方法:

?小分数数量:简单t检验或方差分析

?病例/对照质量性状:卡方检验,或检验,逻辑回归。

?数量性状:一般采用多个模型(GLM/MLM/埃马克斯/法斯特-LMM)同时分析。

2)确定显著性阈值

?邦费罗尼校正

3)结果的解释

可视化:曼哈顿地图

?分位数图(随机预测P和实际计算P的比较是否异常)

4)如果结果不显著:

可能的原因和解决方案:

不准确的特征调查-提供准确的表型

人物受环境影响很大——重复多年

性状是由多个小效应位点控制的——增加样本量

模型测试的能力是不够的-更换合适的模型

标记密度不够-标记数量更多

如果实在不可行,忽略阈值,选择峰值明显的区域进行验证。

获得显著位点后:

1)执行LD块分析以确定候选区间的范围。

2)功能标注(nr,GO,KEGG等。)的基因。

3)显著位点是否位于编码区,是否为非同义突变。

4)同源分析,结合其他物种对应的同源基因的功能来猜测候选基因的功能。

RT-PCR,蛋白质表达,转基因功能验证,RNA干扰。

高分文章示例:OSS PL 13控制栽培稻中的晶粒大小。