GWAS的基本分析内容
此外,参考资料和图纸来自
GWAS的基本分析内容
1)按输入百分比过滤。
一般排除20%以上的站点删除率,如果数据量比较大可以放宽到50%。
2)通过等位基因频率过滤
如果第二个等位基因的频率小于5%,数据量大的话可以放宽到1%。
3)过滤多个等位基因
根据软件的需要,有些软件不支持多个等位基因。
4)哈迪温伯格平衡过滤
在人类病例/对照中,不符合Hardy Weinberg平衡的位点通常被过滤掉,动物和植物不使用这种过滤。
5)去除极端表型
最小饱和标记量=基因组大小/LD衰减距离
密度越高越好:检测功能位点的概率增加;同一块中的站点相互验证。
根据LD衰减距离可以确定候选基因的上游和下游范围。
1)目的:评价群体结构和遗传关系以确定所用的统计模型并获得相应的矩阵。
2)评价内容(如果遗传差异太大,应该淘汰,保留相似度高的那一个)
种群结构:构建进化树(必要)
NJ树(mega)构建在同一物种内序列差异很小,但序列差异很大。不同的物种构建ML树和贝叶斯树。
模型库的组结构分析
主成分分析
亲缘关系:相似系数热图,遗传距离
3)群体结构和遗传关系是导致假阳性关联结果的两个主要因素(在课程中,谢鲲用例子说明了群体结构和遗传关系对结果的巨大影响,如玉米矮秆基因?来自Dwarf8的关于结构化关联映射的优点和缺点的教训)
1)选择正确的统计方法:
?小分数数量:简单t检验或方差分析
?病例/对照质量性状:卡方检验,或检验,逻辑回归。
?数量性状:一般采用多个模型(GLM/MLM/埃马克斯/法斯特-LMM)同时分析。
2)确定显著性阈值
?邦费罗尼校正
3)结果的解释
可视化:曼哈顿地图
?分位数图(随机预测P和实际计算P的比较是否异常)
4)如果结果不显著:
可能的原因和解决方案:
不准确的特征调查-提供准确的表型
人物受环境影响很大——重复多年
性状是由多个小效应位点控制的——增加样本量
模型测试的能力是不够的-更换合适的模型
标记密度不够-标记数量更多
如果实在不可行,忽略阈值,选择峰值明显的区域进行验证。
获得显著位点后:
1)执行LD块分析以确定候选区间的范围。
2)功能标注(nr,GO,KEGG等。)的基因。
3)显著位点是否位于编码区,是否为非同义突变。
4)同源分析,结合其他物种对应的同源基因的功能来猜测候选基因的功能。
RT-PCR,蛋白质表达,转基因功能验证,RNA干扰。
高分文章示例:OSS PL 13控制栽培稻中的晶粒大小。