基于双重索引矩阵的蛋白质功能预测

时间：2023-01-14

小编：

摘要：针对单一数据源预测蛋白质功能效果不佳以及蛋白质相互作用网络信息不完全等问题，提出一种多数据源融合和基于双重索引矩阵的随机游走的蛋白质功能预测（MSIRWDIM）算法。该算法使用了蛋白质序列、基因表达和蛋白质相互作用数据预测蛋白质功能，并根据这些数据源特性构建相应的相互作用加权网络；然后融合各数据源加权网络并结合功能相关性网络构建双重索引矩阵，使用随机游走算法计算得分进而预测蛋白质功能。在酵母数据集的五折交叉验证中，MSIRWDIM算法具有较高的准确率和较低的覆盖率，还可降低功能标签损失率。研究结果表明，MSIRWDIM算法的总体性能优于常用的k近邻、直推式多标签集成分类和快速同步加权方法。

关键词：多数据源融合；随机游走；双重索引矩阵；功能相关性网络；蛋白质功能预测

中图分类号： TP181 文献标志码：A

英文摘要

Abstract： The single data source cannot effectively predict the function of protein and the information of protein interaction network is incomplete. In order to solve the problem， A MultiSource Integration and Random Walk with Doubly Indexed Matrix （MSIRWDIM） algorithm was proposed. The proposed algorithm used protein sequence， gene expression and proteinprotein interaction for the prediction of protein function. The weighting networks were constructed from the data sources with their characteristics. A network， which was fused by the weighting networks， integrated with function correlation network to construct a doubly indexed matrix. Random walk was used to calculate annotation scores and predict protein function. The crossvalidation experiments on Yeast show that MSIRWDIM can achieve higher prediction accuracy， lower coverage and lower loss rate of function labels. The research results show that the overall performance of MSIRWDIM is much better than commonly used knearest neighbor， transductive multilabel ensemble classifier and fast simultaneous weighting method.

英文关键词

Key words：multiple data integration； random walk； doubly indexed matrix； function correlation network； protein function prediction

0 引言

标签传播方法不仅考虑近邻蛋白质，同时还考虑网络全局拓扑特性，充分利用蛋白质数据网络特性预测蛋白质功能。可以利用Jaccard系数衡量功能之间相关性，并将这种关系融入正规化的半监督学习框架[7]；双关系图的功能预测（Protein function prediction based on Birelational Graph，PfunBG）算法[8]利用功能相关性扩展蛋白质相互作用，使用网络传播衡量蛋白质与功能邻近性；基于松弛标记和功能相关性结合的方法是通过功能相关性影响松弛标记迭代过程，从而预测蛋白质的功能 [9]。上述方法利用了功能相关性网络的半监督学习框架，但都是基于单一数据源的预测模型，并且如何有效地结合相互作用网络和功能相关性方法都有待进一步研究。从不同数据源可以得到蛋白质的不同表征特性，结合这些异构数据可以从多角度分析蛋白质功能[6]。蛋白质功能与蛋白质结构密切相关，蛋白质结构依赖于蛋白质序列，可从蛋白质序列信息预测蛋白质功能。共表达基因更可能是功能相关的，并影响生物功能，基因表达数据能反映共表达基因表达过程，可用于构建基于表达数据的相互作用网络预测功能。蛋白质并非单独完成生物功能，同时一个特定生物功能一般由一组蛋白质完成，基于这种特性的蛋白质相互作用可直接用来预测蛋白质功能。本文融合蛋白质序列、基因表达和蛋白质相互作用三类数据来构建相互作用加权网络，提出了多数据融合和基于双重索引矩阵的随机游走（MultiSource Integration and Random Walk based on Doubly Indexed Matrix，MSIRWDIM）的蛋白质功能预测算法。该方法根据蛋白质数据特性分别构建网络，将异构网络融合成单个加权网络，与功能相关性网络构建双重索引矩阵，使用随机游走算法得到蛋白质功能注释得分，从而预测蛋白质的功能。

1 相关工作

1.1 融合多数据源构建蛋白质网络

不同蛋白质数据在表征蛋白质功能方面具有不同形式，如何有效地构建相应蛋白质相互作用网络来表现蛋白质功能特征信息，对于准确地预测功能具有重要影响。本文根据各种蛋白质数据的本身特性，选用相应方法构建蛋白质加权网络。

1.1.1 蛋白质序列数据

该方法构建的网络利用蛋白质序列间相似性程度来衡量近邻权重，但这种网络是稠密网络，其中很多相似边都具有很小的权值。蛋白质功能预测的效率很大程度上依赖于网络中权值非零边的数目，为此可将稠密网络调整为稀疏网络，即选取k近邻蛋白质作为邻居蛋白构建网络。

基因表达数据体现了基因在不同条件下的活动信息，通过其基因表达的改变来反映蛋白质当前的生命过程。共表达基因一般具有功能相关性，并在一定条件下影响生物过程。本文引入皮尔逊相关系数（Pearson Correlation Coefficient，PCC）将基因表达数据构建成共表达网络，并使用PCC来衡量共表达强弱程度，其定义如下：

其中：ui和vi表示蛋白质Pu和Pv在某一条件下的表达值，和表示蛋白质Pu和Pv的所有表达值的均值。m为表达数据的条件维度。PCC的取值范围为[-1， 1]，其值小于0时，说明蛋白质之间为负相关；大于0时，表现为正相关；等于0时，说明不存在相关性。构建的网络同样采用k近邻方法进行稀疏化。标准化后得到基因表达数据网络PCCstd。

1.1.3 蛋白质相互作用数据

为体现无向的无权蛋白质相互作用网络中相互作用的程度，需要衡量网络中边的权重。可以用边聚集系数（Edge Clustering Coefficient，ECC）[11]来描述一个节点在网络中的属性，其已广泛应用在分析蛋白质相互作用网络的拓扑特性等领域。ECC是向量黑斜还是普通变量斜体，请核实。ECC是矩阵ECC是一个局部变量，能有效地表述某条边上蛋白质之间的亲疏程度和重要性，可用来评估蛋白质相互作用网络边的权重。给定网络中边（Pu，Pv），其边聚类系数ECC定义如下：

其中：Zu， v为网络中边（Pu， Pv）构成的三角形数量，dimu和dimv分别为点Pu 和Pv的在网络中的度。其值越大，表明两个节点之间相关性越大。标准化后得到蛋白质相互作用加权网络ECCstd。

1.1.4 多数据源融合

利用不同源蛋白质数据构建多种异构相互作用网络，由于这些网络基于不同性质和来源，各数据源间相互独立，经过标准化处理，可使用朴素贝叶斯模型[12]将这些异构网络融合成单个加权网络。当某条边由多个网络共同拥有时，表明此边在网络中具有更高的可信性，合并后权值一般大于单个网络对应的权值。朴素贝叶斯模型公式如下所示：

其中：Wri， j代表在三个数据源网络SEQstd、PCCstd和ECCstd中边（i， j）的权值，Wcomi， j为合并后边（i， j）的权值。本文使用基于不同性质和来源的蛋白质数据，符合此方法要求的独立性假设。通过此方法可将三个数据源网络合并为相互作用网络Gcom。当网络数目增多时，寻找一个广泛适用的方法能快速可扩展地融合这些网络仍然是一个挑战；并且多个网络合并可能会覆盖某个网络对特定类别功能预测优势。

2 基于双重索引矩阵的随机游走

MSIRWDIM算法具体实现步骤为：

输入蛋白质序列、基因表达和蛋白质相互作用数据；蛋白质功能注释集合C，参数α和k。

输出蛋白质预测注释得分矩阵S。

步骤1 采用三种数据源所共有的N种蛋白质，构建基于三种数据源的异构有权网络，进行标准化处理（SEQstd，PCCstd和ECCstd），提取并初始化M种标签的标签矩阵Y；

步骤2 根据式（5）合并多源异构网络得到网络Gcom；

步骤3 根据式（6）计算功能相关性得到网络Gcorr；

步骤4 由矩阵标准化后的Gcom和Gcorr得到双重索引矩阵A；

步骤5 将矩阵A、α 代入式（9），迭代直到收敛；

步骤6 最后得到注释矩阵S为St收敛结果，将top n 得分值对应的功能标签赋予未注释蛋白质。

3 实验结果分析

3.1 实验数据集

3.2 算法的性能分析

为了评估MSIRWDIM算法的有效性和可行性，采用平均查准率（Average precision）、1-排名损失率（1-RankingLoss）缺少说明Average precision（平均查准率），1-RankingLoss（1-排名损失率）和Coverage（覆盖度）指标和覆盖度（Coverage）指标[17]，同时引入反映分类敏感性和特异性的接受者操作特征（Receiver Operating Characteristic，ROC）曲线下面积值（Area Under of the roc Curve，AUC）指标来衡量其预测性能。

Average precision表示平均查准率，评估了排序得分向量中排在真实标签前面的标签中也是真实标签的概率。

其中i 为Li的补集，表示蛋白质没有的标签集。为了与前面指标保持一致性，此处使用1中间是连字符还是减号.是减号-RankingLoss，其值越大，性能越好。

Coverage表示对于预测到的标签排序结果，排在最前面的多少个标签可以覆盖实例所有真实标签，其值越小，性能越好。

AUC是用来度量分类模型好坏的指标，通过ROC曲线分析其值大小，而ROC曲线通过真阳性率（True Positive Rate，TPR）和假阳性率（False Positive Rate，FPR）值对绘制而成。如果一个实例被正确预测为正类，即为真正类（True Positive，TP）；如果实例是被错误预测为负类的正类，即为假负类（False Negative，FN）；如果实例是被错误预测为正类的负类，称之为假正类（False Positive，FP）；负类被预测为负类，称之为真负类（True Negative，TN）。AUC取值范围为[0， 1]，取值越大，效果越好。为适应多标签分类问题，使用适应多标签学习的AUC[18]。

综上所述，MSIRWDIM方法能有效地利用各数据源的互补性和功能相关性信息预测蛋白质功能，在预测效果上较其他算法有了一定提高。

3.3 参数选择

MSIRWDIM算法主要有k和α两个参数。α控制随机游走过程中返回起始点的概率，它限制了粒子离开起始点的距离，权衡了局部和全局拓扑特性。为了有效选取α值，测试了其在10个取值点（0.05， 0.15， …， 0.95）上的AUC值。由图3可知，当α=0.15时，两种标签集在AUC上都能取得最好的预测结果。从α取值可以看出，网络的局部拓扑对于功能预测具有更高的贡献度，这也符合近邻蛋白质具有较强的功能相关性特征。k为构建稀疏网络时近邻蛋白数目。如果k值太大，很多相似度小的无关蛋白也作为近邻蛋白，会使预测结果产生偏差；如果k值太小，又会忽略可能存在的近邻蛋白。根据以往经验和实验取k 为100时稀疏矩阵性能不会降低[19]。

3.4 预测结果分析

用酵母数据集对预测得到的蛋白质GO术语概率得分排序，将得分值排在前面的功能标签与文献报道以及SGD数据库功能注释信息进行比较分析。表3显示了9种蛋白质在BP术语和MF术语下的预测功能、文献报道功能以及预测到该标签得分的排名情况。

4 结语

本文提出一种基于双重索引矩阵的随机游走算法，并采用多数据源融合方法进行蛋白质功能的预测。该算法结合功能相关性网络构建双重索引矩阵，基于蛋白质网络和功能相关性网络同时进行随机游走迭代，将达到收敛后的待预测蛋白质对应所有功能注释得分排序在top n的功能赋予该蛋白质。算法主要焦点在于如何在多源蛋白质网络和功能相关性网络中应用随机游走来提高预测精度。在酵母蛋白质序列、基因表达和蛋白质相互作用三种数据源上的五折交叉验证实验结果表明，提出的方法能够提高功能的预测准确率，并具有较小覆盖度。但针对注释蛋白质少的功能标签，算法预测到的概率还是偏低。今后研究的重点在于设计更有效的功能权重度量策略构建功能相关性网络，结合并优化层次相关性和非层次相关性度量方法。

参考文献：

[3]MOOSAVI S， RAHGOZAR M， RAHIMI A. Protein function prediction using neighbor relativity in proteinprotein interaction network [J]. Computational Biology and Chemistry， 2013， 43： 11-16.

[6]LAN L， DJURIC N， GUO Y， et al. MSkNN： protein function prediction by integrating multiple data sources [J]. BMC Bioinformatics， 2013， 14（Suppl 3）： S8.

[7]ZHANG XF， DAI DQ. A framework for incorporating functional interrelationships into protein function prediction algorithms [J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics， 2012， 9（3）： 740-753.

[9]HU P， JIANG H， EMILI A. Predicting protein functions by relaxation labelling protein interaction network [J]. BMC Bioinformatics， 2010， 11（Suppl 1）： S64.

[27]MILLIGAN L， DECOURTY， L， SAVEANU C， et al. A yeast exosome cofactor， Mpp6， functions in RNA surveillance and in the degradation of noncoding RNA transcripts [J]. Molecular and Cellular Biology， 2008， 28（17）： 5446-5457.

基于双重索引矩阵的蛋白质功能预测

小编：

相关推荐

热点推荐

相关搜索

最新排行