设为首页 加入收藏 期刊导航 网站地图
  • 首页
  • 期刊
    • 数学与物理
    • 地球与环境
    • 信息通讯
    • 经济与管理
    • 生命科学
    • 工程技术
    • 医药卫生
    • 人文社科
    • 化学与材料
  • 会议
  • 合作
  • 新闻
  • 我们
  • 招聘
  • 千人智库
  • 我要投搞
  • 办刊

期刊菜单

  • ●领域
  • ●编委
  • ●投稿须知
  • ●最新文章
  • ●检索
  • ●投稿

文章导航

  • ●Abstract
  • ●Full-Text PDF
  • ●Full-Text HTML
  • ●Full-Text ePUB
  • ●Linked References
  • ●How to Cite this Article
Hans Journal of Computational Biology 计算生物学, 2011, 1, 5-10
http://dx.doi.org/10.12677/hjcb.2011.12002 Published Online December 2011 (http://www.hanspub.org/journal/hjcb)
Copyright © 2011 Hanspub HJCB
Research of Protein Named Entity Recognition
Based on SVMs*
Lejun Gong1,2, Yaxing Fu1, Xiao Sun1, Jianming Xie 1, Shuangxin Yu1
1Department of Biological Sc ie n ce an d Medical Engineering, Southeast University, Nanjing
2Faculty of Computer Engineering, Huaiyin Institute, Huai’an
Email: glj98226@163.com
Received: Sep. 8th, 2011; revised: Oct. 19th, 201 1; accepted: Oct. 23rd, 2011.
Abstract: This paper describes an approach to identify protein named en tity using Supports Vector Mach ines
(SVMs), and selects four groups of features to do experiments for the protein corpus. Experiment results show
the system performance of context features increases smaller than baseline system, and the combined feature
of part of speech (POS) and word type is achieved 78.43% accuracy which is the best performance in all ex-
periments. The research results show the combined feature of POS and word type play important roles in the
protein entity recognition.
Keywords: Supports Vector Machines (SVMs); Protein Entity Recognition; Feature Selection
基于支持向量机的蛋白质命名实体识别的研究*
龚乐君 1,2,付亚星 1,孙 啸1,谢建明 1,于双鑫 1
1东南大学生物科学与医学工程学院,南京
2淮阴工学院计算机工程学院,淮安
Email: glj98226@163.com
收稿日期:2011 年9月8日;修回日期:2011 年10 月19 日;录用日期:2011 年10 月23 日
摘 要:发展一种利用支持向量机识别蛋白质命名实体的方法,选择四组特征对蛋白质语料进行识别
实验。实验表明,与基线系统相比,上下文特征有较小的增幅,而当前词的词性及词形的组合特征获
得了最好的性能,达到 78.43%的准确率。这一研究结果显示词性及词形特征在蛋白质实体识别中起着
重要的作用。
关键词:支持向量机;蛋白质实体识别;特征选择
1. 引言
生命科学和技术的发展促进产生各种生物信息,
而大量的生物信息散布在各种文献中,以文本的形式
呈现。对这些生物医学文献进行加工和集中处理,可
以从中提炼出更多的生物信息[1]。生物医学命名实体
识的任务则主要是从生物医学文献中抽取生物医学实
体[2],例如,蛋白质、基因、DNA、RNA、疾病、化
合物、药物名称等。这些实体的识别将对进一步发现
它们之间的联系及相互作用有着非常重要的意义。
蛋白质是生命机器,是一类非常关键的生物医学
实体。蛋白质参加绝大部分的生命活动,在生命活动
过程中扮演极其重要的角色。蛋白质是基因功能的执
行者,蛋白质机器运转失常会引发机体功能障碍,从
而导致疾病。因此,生命科学中大量的生物医学文本
与蛋白质关联,识别生物医学文本中的蛋白质名称是
命名实体的主要研究任务。
当前,命名实体的研究的方法大致有三类,基于
规则的方法、基于字典的方法及基于机器学习的方法。
基于规则的方法需要领域专家建立规则库,而基于字
典的方法存在着实体名称冲突和覆盖率不足的缺陷。
随着语料库标注的迅速发展,基于机器学习的方法也
*基金项目:国家自然科学基金(60971099)。
龚乐君 等 基于支持向量机的蛋白质命名实体识别的研究
6
迅速发展起来,本文研究如何将支持向量机(SVMs)[3]
学习模型和蛋白质命名实体特征分析结合起来,发展
蛋白质实体识别方法。
2. 材料与方法
2.1. 数据集
本文的实验数据来源于AIMed(ftp://ftp.cs.utexas.
edu/pub/mooney/bio-data/proteins)中的蛋白质语料,采
用84 篇文摘作为测试数据。
2.2. 蛋白质实体表示形式
生物医学文献中的蛋白质实体表示形式极其复
杂。这些复杂性表现在实体既有单个单词形式的实体,
单词的长度不一,并且大写和小写杂合在一起,例如:
urokinase,Cactu s,IkappaBalpha等;也有多个单词组
成的短语,例如:bradykinin B(1) receptor,Protein
phosphatase 2A,这给蛋白质实体边界的确立带来了很
大的困难;有些相同的词或者短语又可以表示不同类
别的生物医学实体,例如 c-myc,IL-2 即可表示蛋白
质,也可表示基因,要通过上下文才能判别出来;有
些蛋白质实体拥有多个不同的书写形式,例如:Protein
phosphatase 2A,protein phosphatase 2A,protein
phos-phatase 2A等表示同一蛋白质实体;文本中的蛋
白质实体的缩写词占有很大的比重,如 PP2A(表示
protein phos p h a t ase 2A蛋白质实体),PKC(表示 protein
kinase C蛋白质实体)。生物医学文献中的蛋白质实体
由于存在这些复杂的表示形式,使蛋白质实体的识别
成为富有挑战性的一项研究。
2.3. 蛋白质实体特征分析
本文针对蛋白质实体识别所面临的困难及所表现
出的特性,构建一个基于机器学习的蛋白质识别系统。
构建该系统时选择合适的实体分类特征集合非常重
要,我们主要通过对训练语料的语言信息进行统计和
分析,从训练语料中提取蛋白质实体特征。所选用的
特征主要有以下几种:1) 单词特征;2) 词形特征;
3) 词性特征;4) 上下文特征。
1) 单词特征
将生物医学文本中单词本身作为特征向量的组成
部分。单词是文本的基本组成部分,同时也是组成生
物医学实体的基本成分,有些单词本身就是蛋白质的
名称。因此,将当前单词作为特征是符合客观问题实
质的。从实验语料中抽取单词组成词汇表从而单词特
征可用式(1)的正交编码的形式来表示。
1
word
0
ii






如果该词在词汇表
中第 个位置
其它
(1)
2) 词形特征
由于蛋白质名称多数含有数字、大写字母、特殊
符号等,将这些特征作为表面线索识别蛋白质实践证
明有着较好的效果。在本文中主要使用表 1所示的词
形特征。采用的也是正交编码的形式以 15 位二进制数
唯一标示某一个词的词形如式(2)所示。
1
wordType
0
ii






如果该词的词形在词形表
中第个位置
其它
(2)
3) 词性特征
在一般情况下,蛋白质实体可能是一个名词短语,
这些短语包括的词性类别可以分为 NN(名词),NNS(名
词复数形式),CC(连接词),JJ(形容词),IN(介词)等。
Table 1. Word type feature
表1. 词形特征
序号 词形特征 举例说明
1 ALL_Captial DNA
2 Init_Captial P53
3 InitCaptialSecondLower Cdc28
4 Letters DNA,hairy
5 Include_Digit IL-2, Cdc28
6 OneDigit 8,5
7 TwoDigit 53
8 Natural_Number 521
9 Letter_Digit HIV-1
10 Include_hyphen IL-2
11 GreekLe tter alpha, beta , kappa
12 Tail_hyphen Receptor-
13 Initial_hyphen -mediated
14 punctuation , . : …
15 RealNumber 80.1
Copyright © 2011 Hanspub HJCB
龚乐君 等  基于支持向量机的蛋白质命名实体识别的研究
Copyright © 2011 Hanspub HJCB
7
其中,k定义为与当前词相关的上下文词的位置,
取负值表示上文,取正值表示下文,等于零时为当前
词。本研究中,上下文窗口定义为3, ,
即当前词的前一个词、当前词及当前词的后一个词。
词性上下文、词形上下文的定义与此类似。
{1,0,1}k
词性特征在识别生物医学命名实体能够提供更有帮助
的信息,本研究中采用了斯坦福的词性标注器 stanford-
postagger[4]对文本语料进行词性标注,该词性标注 器
采用了最大熵的模型进行词性标注,在生物医学文本
词性标注中具有较高的性能。本文通过组建词性表,
采用式(3)的36 位二进制正交编码来唯一表示某一个
词的词性。词性特征如表 2所示: 2.4. 系统框架
本文采用了基于语料库的机器学习法进行蛋白质
实体的识别,文本在投入到分类器中之前,需要进行
预处理。首先采用启发式规则过滤文本中与蛋白质实
体分类特征无关的符号,并对文本进行分句、分词、
词性标注,抽取相应的单词信息、词形信息、词性信
息,针对实验样本数据把这些信息汇集组成相应的表
目,并做好标记。预处理完成后,就可以针对实验数
据进行特征选择、特征抽取,生成特征文件,再把该
特征文件投入到分类器中进行学习或预测。
1
partOfSp eech
0
ii





如果该词的词性在词性
表中第个位置
否则
(3)
4) 上下文特征
上下文特征是基于物以类聚的思想,考虑的是蛋
白质实体的存在可能跟它前面的词或后面的词的特征
有关。本文中上下文特征嵌入其它特征的表示法中,
组成单词上下文特征、词形上下文特征、词性上下文
特征。例如采用了上下文的单词特征正交编码的形式
可用公式(4)来定义:
支持向量机是近年来广泛使用的机器学习方法,
已经成功应用于许多自然语言问题,如基本的短语块
的识别[5]、词性标注[6]、命名实体识别。它有以下几个
优点:a) 可以解决样本有限情况下的机器学习问题,
目标是得到现有情况下的最优解;b) 算法最后转化为
二次型寻优问题,得到全局最优解,可以避免神经网
1
wordContext
0
ki
k
i





如果该词在 位置且在词汇表
中属于第个位置
其它
(4)
Table 2. Part-of-Speech feature
表2. 词性特征
序号 词性 描述 序号 词性 描述
1 CC Coordinating conjunc t ion 19 PRP$ Possessive pronoun
2 CD Cardinal number 20 RB Adverb
3 DT Determiner 21 RBR Adverb, comparative
4 EX Existential the re 22 RBS Adverb, superlative
5 FW Foreign word 23 RP Particle
6 IN Preposition or subordinating conjunction 24 VBP Verb, non-3rd person singular present
7 JJ Adjective 25 TO to
8 JJR Adjective, comparative 26 VBZ Verb, 3rd person singular present
9 JJS Adjective, superlative 27 VB Verb, base form
10 LS List item marker 28 VBD Verb, past tense
11 MD Modal 29 VBG Verb, gerund or present pa rticiple
12 NN Noun, singular or mass 30 VBN Verb, past participle
13 NNS Noun, plural 31 SYM Symbol
14 NNP Proper noun, singular 32 UH Interjection
15 N NPS Proper noun, plural 33 WDT Wh-determiner
16 PDT Predeterminer 34 WP Wh-pronoun
17 POS Possessive ending 35 WP$ Pos s essive wh-pronoun
18 PRP Personal pronoun
36 WRB Wh-adverb
龚乐君 等 基于支持向量机的蛋白质命名实体识别的研究
8
络结构选择和局部极值问题;c) 算法将实际问题通过
非线性变换到高维特征空间,在高维空间中构造线性
判别函数解决非线性问题,可以提高泛化 性能; d) 通
过对二类问题的推广,可以解决多类分类问题。针对
上述特点本文选用支持向量机作为分类器进行蛋白质
实体识别的研究,系统框架如图1所示。
2.5. 蛋白质实体识别多分类分析
蛋白质实体的识别问题可以看作为分类问题,输
入的是一组词序列,例如文本中的词序列“p38
stress-activated protein kinase”可用{wi}(i = 1, ,n)表
示,针对文本中词序列中的文本符号 wi分配一个预先
定义的分类标签 ti,学习系统的任务就是预测每一个文
本符号 wi的分类标签 ti。由于蛋白质实体在文本中表
示的复杂性,常以多词短语的形式出现,为确定蛋白
质实体的边界,本文采用的 BIO[7]表示法对蛋白质实
体进行分类,可以更好的区分蛋白质的边界。其中 B
表示蛋白质开始部分,I表示 蛋白质的中间部分, O
表示非蛋白质实体。词序列{wi}(i = 1,,n)例如“p38
stress-activated protein kinase inhibitor reverses brady-
kinin B(1) receptor”可用分类标签ti(B、I、O)进行分
类所对应的结果如图 2所示。
本文使用了 BIO表示法对蛋白质实体进行分类涉
及了三类情况,标准的SVMs 分类器只是针对两类样本
进行分类,解决这个问题构建一个多类支持向量机通常
有两种方法,一种是 one-vs-rest,另一种是one-vs-one。
测试语料 特征抽取 预处理 模型文件
SVM 分类器
特征抽取
预处理
测试过程
训
练
过
程
基于SVMs的蛋白质实体识别
系统框架
训练语料
分类文本
Figure 1. System architecture of protein entity recognition based on SVMs
图1. 基于 SVMs 的蛋白质实体识别的系统框架
原文本为:
p38 stress-activated p rotein kina se inhibitor reverses br adykinin B(1) recep tor
protein protein
采用了BIO表示法变换为:
p38 stress-activated protein kinase inhibitor reverses bradykinin B(1) receptor
B I I I O O B I I
Figure 2. Boundary determination of protein entity by BIO format
图2. 使用 BIO 确定蛋白质实体边界
Copyright © 2011 Hanspub HJCB
龚乐君 等 基于支持向量机的蛋白质命名实体识别的研究 9
one-vs-rest 对于k类的问题,将其中某一类的 n
个训练样本视为一类,其他训练样本归为一类,这样
就需要构建 k个二元 SVMs 分类器12
,,,
k
f
ff。每个
测试样本 x都利用这k个分类器进行分类,得到 k个
函数值
 
12
,,,
k
f
xfx fx
 
12
max,, ,
k
kfxfx
,识别类别为
。


ˆarg k
fx
one-vs-one 对于k类问题,为每两类的组合构造
一个分类器,这样共有


12Kkk个分类器,采用
投票机制对每一类分别打分投票 ,每个测
试样本 x分别经K个分类器 SVMij 进行识别,如其属
于第 i类,则 ,否则 ,识别类别为
得票值最多的一类即
12
,,,
k
vv v
1
jj
vv1
ii
vv








12
,kvx
ˆarg max,,
kvxk
vx
。
两种方法比较,据文献[8]报告 one-vs-one 比
one-vs-rest效果更好。实验中采用的工具包 libSVM[9]
使用了 one-vs-one解决多分类问题。
3. 结果与讨论
我们从该实验数据抽取出 695 个句子,936 个蛋白
质,18,768 个单词的,形成词汇表含有 4330个词汇。
实验中使用十倍交叉验证法,采用准确率(ACC)来衡量
系统的性能,其定义如式(5),为使实验结果简洁明了,
本文针对 2.3 节分析的蛋白质实体特征作标记(见表3),
实验结果见表 4所示。
TP+TN
ACC =TP +FP+TN+ FN (5)
其中 TP 为正确的肯定的分类标记数,FN 为系统
错误的否定分类标记数,FP 为错误的肯定的分类标记
数,而 TN 为正确的否定的分类标记数。
Pre_class 代表当前词之前一个词分类结果,体现
当 前词的分类与上文的词类特征有关,例如,如果当前
词的分类标签为 B,那么该词的前面第一个词的分类标
签一定为 O。由于当前词及下文的词类标记是将要预测
的项目,因此本研究中只考虑上文的词类特征。本研究
中以特征组合 Cur_lex + Cur_shape + Cur_loc作为基线
系统(baseline),其它特征组合及实验结果如表 4所示。
通过上面一系列的实验可知,基线系统性能为
69.70%的准确率,单组的词性特征及词形特征都远远高
于基线系统,而单词特征稍低于基线系统;词性与词
形的组合特征获得了实验中最好的效果达到了 78.43%
的准确率,词形与单词的组合特征稍低于基线系统,而
词性与单词的组合特征稍高于基线系统。结果表明,
当前词的词性特征对系统的性能起着决定性的作用,
其次是词形特征,单词特征最弱,这可通过两方面确
立,第一,单组特征中词性特征性能最高,词形次之,
最后是单词特征,第二,组合特征中词性与词形特征
Table 3. Feature token
表3. 特征标记
上下文(窗口大小为 3) 单词特征 词形特征 词性特征 词类特征
Word_Pre (上文) Pre_locPre_shape Pre_lexPre_class
Word_Cur (当前词) Cur_locCur_shape Cur_lex-
Word_Suf (下文) Suf_locSuf_shape Suf_lex-
Table 4. Performance of all the features of the system
表4. 系统各项特征及其组合的性能
特征项目 ACC ( %) 特征项目 ACC
(%) 特征项目 ACC ( %)
baseline 69.70
⊕Pre_class 69.70 ⊕Word_Pre⊕Suf_loc 69.76
↓Cur_lex 69.66 ⊕Pre_lex 69.70 ⊕Word_Pre⊕Suf_shape 69.77
↓Cur_shape 69.74 ⊕Pre_loc 69.70 ⊕Word_Pre⊕Suf_lex 69.76
↓Cur_loc 78.43 ⊕Pre_shape 69.72 ⊕Word_Pre⊕Suf_lex⊕Suf_loc 69.77
Cur_lex 76.29
⊕Pre_shap e⊕Pre_class 69.72 ⊕Word_Pre⊕Word_Suf 69.74
Cur_shape 72.67
⊕Pre_clas s⊕Pre_shap e⊕Pre_lex 69.74
Cur_loc 69.64
⊕Word_Pre 69.76
“↓”表示在基线的基础上减去相应的特征;“⊕”表示在基线的基础上加上相应的特征;Word_Pre 表示上文的所有特征;Word_Suf表示下文的所有特征。
Copyright © 2011 Hanspub HJCB
龚乐君 等 基于支持向量机的蛋白质命名实体识别的研究
10
的组合获得了最好的效果,但是词形与单词特征的组
合稍低于基线系统的性能。单词特征不明显究其原因
是没有采用停用词特征,出现较多的冗余信息,致使
单词本身的特征信息不显著。这一问题将在后续的工
作中予以解决。
上下文特征的组合中,加入上文的特征性能稍弱
于加入上下文特征的性能,上下文特征组合的性能与
基线系统相比,没有得到大幅度的提高,而是缓慢增
长,这一结果表明,上下文特征对系统的性能的提高
起着一定作用,增幅不大的原因是上下文窗口过小,
致使该特征不明显,后续工作将调整上下文的窗口,
增大窗口大小使该特征显著提高系统的性能。
4. 结论
本文采用支持向量机针对蛋白质实体识别进行研
究,特征选择主要采用了单词特征、词性特征、词形
特征、上下文特征。实验中采用了 AIMed语料中的蛋
白质语料,实验结果表明单组特征中单词词性特征的
效果最好,词形次之,单词本身的特征最弱;特征选
择中词性与词形特征组合达到78.43%的准确率,这也
是实验取得的最好效果;上下文特征对基线系统的性
能有较小幅度的提高,与基线系统相比,性能增幅不
大,主要原因是上下文窗口设置过小,使该特征不明
显;本文的研究表明词性及词形特征在蛋白质的识别
中起着重要的作用。下一步的工作将是启用停用词特
征、增加上下文窗口的大小、增加生物医学本体这一
外部特征,将机器学习与生物医学本体技术有机结合
起来进一步提高蛋白质实体识别的性能。
5. 致谢
本文由国家自然科学基金(60971099)资助。
参考文献 (References)
[1] P. Zweigenbaum, D. Demner-Fushman, H. Yu, et al. Frontiers of
biomedical text mining: Current progress. Brief Bioinform, 2007,
8(5): 358-375.
[2] U. Leser, J. Hakenberg. What makes a gene name? Named entity
recognition in the biomedical literature. Brief Bioinform, 2005,
6(4): 357-369.
[3] J. Kazama, T. Makino, Y. Ohta, et al. Tuning support vector
machines for biomedical named entity recognition. In: Procee-
dings of the Workshop on Natural Language Processing in the
Bio-Medical Domain at ACL, 2002: 1-8.
[4] K. Toutanova, C. D. Manning. Enriching the knowledge sources
used in a maximum entropy part-of-speech tagger. In: Proceedings
of the Joint SIGDAT Conference on Empirical Methods in Natural
Language Processing and Very Large Corpora (EMNLP/VLC-2000),
2000: 63-70.
[5] T. Kudo, Y. Matsumoto. Use of support vector learning for chunk
identification. Proceeding ConLL’00 Proceedings of the 2nd Work-
shop on Learning Language in Logic and the 4th Conference on
Computational Natural Language Learning, 7: 142-144.
[6] T. Nakagawa, T. Kudoh and Y. Matsumoto. Unknown word gue-
ssing and part-of-speech tagging using support vector machines. In
Proceeding of the 6th NLPRS, 2001: 325-331.
[7] L. A. Ramshaw, M. P. Marcus. Text chunking using transfor-
mation-based learning. In Proceedings of the ACL Third Work-
shop on Very Large Corpora, 1995: 82 -94.
[8] C. W. Hsu, C. J. Lin. A comparison of methods for multiclass
support vector machines. IEEE Transaction on Neural Networks,
2002, 13(2): 415-425.
[9] C. C. Chang, C. J. Lin. Training un-support vector regression:
theory and algorithms. Neural Computer, 2002, 14(8): 1959-1577.
Copyright © 2011 Hanspub HJCB

版权所有:汉斯出版社 (Hans Publishers) Copyright © 2012 Hans Publishers Inc. All rights reserved.