【SubPhaser-多倍体亚基因组分型流程解读】-锐单电子商城

写这篇文章的主要目的是从tmp亚基因组分型分析解读文件和软件运行信息。

进入tmp文件夹后，实际上可以看到相应的文件：

如何查看哪些步骤产生了什么样的结果文件？

上述在进行SubPhaser试运行时使用nohup命令、软件调用的软件、产生的结果文件等信息都记录在最后nohup.out。

1、参数配置

我们可以从截图中获得很多信息

分析使用的k是多少(默认情况下，k=15）
min_fold是多少
min_freq是多少
lower_count是多少
LTRfinder使用的参数
LTRharvest使用的参数
所使用cpu数
使用的内存大小

根据染色体，软件首先将基因组划分为：/opt/biosoft/SubPhaser/example_data/Arabidopsis_suecica_tmp/Arabidopsis_suecica_chromosomes

2、Kmer计数

这一步成功生成.histo之后，会产生一个.ok文件

# e.g. # 10.fasta # 10号染色体序列文件 # 10.fasta_15.fa # 使用k=15切割，并对15mer频数统计结果 # 10.fasta_15.fa.ok # ok文件 10.fasta_15.histo           # Jellyfish结果文件 10.fasta_15.jf.ok           # ok文件

根据上述结果，构建了一个Kmer类型为行，染色体ID为列的矩阵，每一个单元代表该类型的Kmer染色体的比例：

亚基因组特异性鉴定Kmer几个重要阈值:

该Kmer全基因组范围内的频率需要超过200
该Kmer在A homoeolog至少要求中频B homoeolog中间的两倍是A中的特异性Kmer

3、聚类

作者对聚类的描述如下，

使用k-means聚类法将染色体组聚集在某一类中（bootstrap默认为1000，每次bootstrap聚类分析只提取原始数据的50%)
使用PCA对phasing评价结果是否成功(我没有仔细研究，但我猜用方差来衡量)

the k-Means algorithm is used to cluster chromosomes into N groups (subgenomes) and perform 1,000 bootstrap resampling of 50% of these k-mers to proceed with analyses of the sampling distribution and statistical inference.

过程Output信息如下：

[外链图片存储失败，源站可能有防盗链机制，建议保存图片直接上传(img-brdMc0dh-1652088221884)(https://upload-images.jianshu.io/upload_images/24361169-7f8cfdadf4a40b6f.png?imageMogr2/auto-orient/strip|imageView2/2/w/1240)]

Output信息还包括绘制PCA图所使用的脚本：Arabidopsis_suecica_k15_q200_f2.kmer.mat.R

结果文件：Arabidopsis_suecica_k15_q200_f2.kmer_pca.pdf

图示：

亚基因组划分的最终结果是：Arabidopsis_suecica_k15_q200_f2.chrom-subgenome.tsv

>#chrom subgenome bootstrap 1  SG1  100 2  SG1  100 3  SG1  100 4  SG1  100 5  SG1  100 6  SG2  100 7  SG2  100 9  SG2  100 8  SG2  100 10  SG2  100 13  SG2  100 11  SG2  100 12  SG2  100

4、统计检验

统计检查有两个目的：

检验该Kmer对应的亚基因组是否具有特异性

使用方法：student’s t-test
检验该Kmer在某区域是否处于富集状态

使用方法：Fisher’s exact test（原理与GO富集分析是一样的，提醒忘记的学生)

Output关键信息提取：Consistent with subgenome assignment: 248 (91.85%); potential exchange: 10 (3.70%)。

即，经统计检验之后，对应亚基因组某些部分或许与phasing结果不同，可能有染色体重排等。

5、亚基因组特征分析

Output信息如下：

SubPhaser其他一些功能，即在某一亚基因组中识别基因组的特征。 e.g. 转座子，gene，内含子、外显子、转录本同时，SubPhaser还可以使用LTR-RTs(实际上是调包)估计异源多倍体的形成时间。

By default, the software identifies and analyzes subgenome-specific long terminal repeats retrotransposons (TR-RTs) to calculate their insertion time and hence estimate the time boundaries from ancestor differentiation to allohybridization.

该分析所使用的软件：LTRharvest v1.6.1 & LTRfinder v1.07，同时使用TEsorter v1.3.0降低LTR-RTs检测的假阳性。

这边有一个非常重要的背景知识，即多倍体化之后，会激活LTR-RTs的活动：

Subgenome-specific LTR-RTs are considered to be actively inserted only when diploid progenitors have evolved as independent species (without exchanging LTR-RTs),

最终再将特异性Kmer回帖到鉴定出的LTR-RTs序列，鉴定出特异性的LTR-RTs序列。

关于异源多倍体化时间鉴定

（1）分化时间估计使用来自不同亚基因组的LTR-RTs序列，使用Jukes-Cantor 69模型，对序列分化时间进行估计。

插入时间计算公式： T = K 2 r T = \frac{K}{2r} T=2rK，

r = 1.3 × 1 0 − 8 s u b s t i t u t i o n s p e r y e a r r = 1.3×10^{-8} substitutions per year r=1.3×10−8substitutionsperyear
K，LTR之间的分化时间

（2）构建系统发育树：使用MAFFT进行多序列比对 —— IQ-tree构建系统发育树 —— ggtree可视化

资讯详情

【SubPhaser-多倍体亚基因组分型流程解读】

如何查看哪些步骤产生了什么样的结果文件？

1、参数配置

2、Kmer计数

3、聚类

4、统计检验

5、亚基因组特征分析

关于异源多倍体化时间鉴定

详细介绍电流互感器功能区别3CT SR ZCT

【SubPhaser-多倍体亚基因组分型流程解读】

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录