学术堂首页 | 文献求助论文范文 | 论文题目 | 参考文献 | 开题报告 | 论文格式 | 摘要提纲 | 论文致谢 | 论文查重 | 论文答辩 | 论文发表 | 期刊杂志 | 论文写作 | 论文PPT
学术堂专业论文学习平台您当前的位置:学术堂 > 生物学论文 > 生物化学论文

蛋白质功能预测新策略探究

来源:学术堂 作者:韩老师
发布于:2015-05-22 共3263字

  引言
  
  人类基因组测序计划的完成使全基因组序列测定成为可能,分子生物学各种高通量实验技术迅猛发展,大量生物数据急剧增长,此时揭示众多基因在生命过程中承担的生理角色成为了全世界生命科学工作者的共同课题。生物信息学在基因组水平上的分析能力使其在海量数据处理上的优势充分表现出来,得到了快速发展[1].随后,系统生物学研究逐渐从基因组学扩展到了蛋白质组学。

  蛋白质是生命的物质基础,是生命活动的主要承担者,深入研究一些基因的编码蛋白,能帮助预测肿瘤的侵袭性,从而为人类战胜癌症提供契机[2].

  蛋白质功能的预测已经成为生物信息学一个重要的研究课题。要确切知道一个蛋白质的功能,必须经过复杂的生物学实验来验证,需要投入大量的人力,耗费巨大成本。但生物信息学技术可对待研究的蛋白质提供预测分析,从而为生物实验提供很好的指导作用,大大减少了实验所需耗费的成本[3].

  一般蛋白质功能的预测方法采用序列相似性比对,结构和保守区分析等。序列相似性比对是蛋白质功能预测的最重要方法,这是一类比较成熟的预测方法,是将蛋白质的氨基酸在序列中的排列位置表达成一条含氨基酸字母的序列,通过对比这条序列预测蛋白质功能,这类方法有 BLAST[4]、FASTA[5]以及 PSI-BLAST[6]等,然而这些方法仅简单地从序列的相似对比出发,准确率较难提升,而且效率低下。

  近年来,许多学者在传统的蛋白质序列相似性比对的基础上,提出了很多新的预测功能方法,如基于序列改进的预测方法 FANN[7]、DWKNN 方法[8]和 DSCP 方法[9]等,都是基于蛋白质序列的方法。对比以往传统的简单方法,这些新的方法在效率以及准确率上均有明显的提升。但是,这些方法仅仅从序列的相似性比对进行研究,忽略蛋白质之间关系的全局结构。本文采用蛋白质序列排列循环匹配,比对并寻找相似的蛋白质,构建蛋白质的关联网络,并在关联网络的基础上,采用数据挖掘技术的推荐算法,对蛋白质的功能进行预测。

  1 相关知识
  
  1.1 蛋白质的循环排列
  
  蛋白质的循环排列也称为蛋白质的全局循环排列,是指将蛋白质氨基酸序列首尾相连,从中分离出新的 N- 和 C- 端,这样的排列可以与另一个蛋白质氨基酸序列进行近似匹配。从 1997 年起就陆续有很多蛋白质全局循环排列的例子,这些循环排列对蛋白质的功能、结构具有非常重要的作用[10-11].现有研究主要集中在循环模式和蛋白质功能上的关系,其中一些研究发现蛋白质全局循环模式能够为蛋白质的功能提供重要帮助。如图 1,从头比对的两条不相匹配的蛋白质序列,将其中一条序列旋转就能够匹配上另一条序列[11].本文采用笔者已有成果的循环匹配算法[12],将蛋白质的循环序列进行匹配,找出互相匹配的蛋白质,并将这种具有匹配关系的蛋白质构建相关联蛋白质数据网络。构建的蛋白质网络图,如图2 所示。图中 P1到 P10表示网络图中的蛋白质节点,连线表示蛋白质之间的匹配关系。
  
  1.2 推荐算法
  
  推荐算法是数据挖掘中常用的一种算法,就是利用用户的一些行为,通过一些数学算法,推测出用户感兴趣的物品[13].推荐算法主要分为基于内容推荐、协同过滤推荐和基于规则推荐等多种类型。各种推荐算法都有各自的优缺点,如基于内容的推荐算法和协同过滤推荐算法推荐的结果直观,容易解释,但是无法解决新用户的推荐问题,基于规则推荐算法能很好解决发现新用户的兴趣点,但是规则抽取难、耗时[14].随着大数据时代的到来,推荐算法不断被优化提升[15],如今广泛应用于电子商务、电影网站以及社交网络交友[16]等多个不同行业领域中。目前已有一些蛋白质功能预测的算法应用推荐算法的思想,如直接推荐注释方法,这种方法类似于在社交网络中好友兴趣推荐算法,将与待预测蛋白质相关联的已知蛋白质通过一些序列相似算法找出来,并将功能直接推荐给未知蛋白质,这种做法通常将传统的推荐算法直接使用,并没有在这种推荐算法上做进一步的深入研究优化,使之更适用于蛋白质功能预测。

  本文针对蛋白质功能预测的目的,根据推荐算法思想,提出一种基于关联规则与功能标签的推荐算法,相对于直接推荐注释方法的预测结果有一定的提高。

  2 推荐算法预测蛋白质功能
  
  笔者使用的基于关联规则与功能标签的推荐算法,对蛋白质功能进行预测的目标是未知功能的蛋白质 Pu.功能预测的步骤如下:

  第一步:序列循环匹配数据集生成推荐规则集针对每个待预测的 Pu,使用 1.1 章节提到的蛋白质序列循环匹配算法,生成相关联蛋白质数据集,将其作为关联规则推荐的数据集,如表 1 所示,P1到 P5为与 Pu 构成匹配的已知功能的蛋白质,GO1到 GO6表示不同的功能标签,同一行数据表示蛋白质 P1到 P5分别对应的功能。第二步:根据频率最高的 Top-k 功能,搜索数据库寻找具有相似的蛋白质根据表 1,计算出出现频率最高的 Top-k 个功能取出赋给未知蛋白质,为了便于计算,取出现功能频率最高的前两个,即 Top-k=2.表 1 出现频率最高的两个功能为 GO2和 GO4.搜索蛋白质功能数据库,查找同时具有 GO2和 GO4的蛋白质,查1功能个数作出预测执行第二步骤,寻找具有包含相同 Top-k 个功能的相似蛋白质,并统计这些相似蛋白质的功能出现频率,由高到低排列选取前 N 个出现频率最高的功能作为待预测的未知蛋白质的功能。使用式(1)进行选取前 N 个功能:【1】

  
  式(1)中,X 为该功能出现频度,σ 为统计功能出现频度的方差,x为子群中功能出现频度的平均值。

  根据式(1),通过确定 z 值设定阀值,选取功能出现频度大于阈值设定的功能作为预测结果。

  3 实验分析
  
  使用这种推荐算法对蛋白质功能进行预测,推荐结果有效性判断的常用方法是判断的准确率(Precision)和召回率(Recall)。准确率是衡量预测结果与被测量真值之间一致的程度,准确率公式由式(2)给出。召回率即覆盖率,用来衡量预测的结果包含了全部数据库已有功能的正确结果的程度,公式由式(3)给出。准确率和召回率看似并没有直接关系,但在实际的计算过程中往往存在一定的矛盾,准确率提高则其召回率降低,反之亦然。

  因此,在实际计算中,经常选用一个综合度量指标F1-Measure 作为两者的调和平均数来衡量,将F1-Measure 作为最终的评判结果,公式由式(4)给出。式(2)至(4)中,参数 TP 为预测的功能和标准数据库中蛋白质对应的功能匹配的个数,FP 为预测的功能与标准数据库的功能不匹配的个数,TN 为标准库中包含的但却没有被预测到的功能。【2】

  
  本文采用的功能数据来源于 UniProtKB-GOA数据库,从库中获取48 000 条蛋白质的序列及功能信息。

  选取不同的 z 值作为阀值,通过控制 z 值的改变,选取预测结果功能出现频度高的作为预测得到的功能。将 z 值选取在 0.1 到 1.0 区间内,此区间的覆盖率和召回率变化对比明显,波动范围不会相差太大。改变 z 值从 0.1 到 1.0,实验结果如图 3 所示,随着 z 值增大,准确率提高,召回率下降,F1-measure 的值稳定在 0.74 附近。

  为了验证方法的有效性,将蛋白质序列做相似匹配后,对直接将功能推荐给未知蛋白质的方法(传统方法)与本文方法的结果进行比较,只取F1-measure 作为最终比较结果。结果对比如图 4所示,可以看到,本文的方法最终的 F1-measure 结果整体上要优于传统的直接推荐注释方法。
  
  4 总结
  
  近几年来,随着生物信息学的发展,应用计算机对蛋白质功能进行预测技术的研究迈上了一个新台阶。本文采用的蛋白质功能预测策略是从蛋白质序列的角度出发,采用序列循环匹配算法,训练得到相关联的蛋白质数据集,提出一种适用于蛋白质功能预测的基于关联规则与功能标签的推荐算法,对蛋白质功能进行预测,并根据结果验证所使用方法的有效性。这种预测方法的效果还有更大的提升空间,因为在根据功能标签搜索数据库获取包含有提取的相同功能标签的蛋白质时,还可以进一步讨论进行选取的参数,采用更好的选取模型,相信在这方面继续深入研究将会有更好的实验结果。

  参考文献:

  [1] 孙啸,陆祖宏,谢建明。 生物信息学基础[M]. 北京:清华大学出版社,2005:15-53.
  [2] 王超,何利平。 抑癌基因 WWOX 在结直肠癌中的表达[J]. 莆田学院学报,2010,17(2):43-47.
  [3] 刘言,沈素萍,方慧生,等。 蛋白质功能预测方法概述[J].生物信息学,2013,11(1):33-38.

相关标签:
  • 报警平台
  • 网络监察
  • 备案信息
  • 举报中心
  • 传播文明
  • 诚信网站