设为首页 加入收藏 期刊导航 网站地图
  • 首页
  • 期刊
    • 数学与物理
    • 地球与环境
    • 信息通讯
    • 经济与管理
    • 生命科学
    • 工程技术
    • 医药卫生
    • 人文社科
    • 化学与材料
  • 会议
  • 合作
  • 新闻
  • 我们
  • 招聘
  • 千人智库
  • 我要投搞
  • 办刊

期刊菜单

  • ●领域
  • ●编委
  • ●投稿须知
  • ●最新文章
  • ●检索
  • ●投稿

文章导航

  • ●Abstract
  • ●Full-Text PDF
  • ●Full-Text HTML
  • ●Full-Text ePUB
  • ●Linked References
  • ●How to Cite this Article
Hans Journal of Data Mining 数据挖掘, 2013, 3, 33-39
http://dx.doi.org/10.12677/hjdm.2013.33007 Published Online July 2013 (http://www.hanspub.org/journal/hjdm.html)
Research of Chinese News Classification Based on Titles*
Haitao Wa ng1, Yanqiong Zhao2, Bang Yue1
1College of Computer Science & Software Engineering, Shenzhen University, Shenzhen
2Network Department, China Mobile Limited (Anhui), Hefei
Email: htwang@szu.edu.cn
Received: May 17th, 2013; revised: Jun. 9th, 2013; accepted: Jun. 19th, 2013
Copyright © 2013 Haitao Wang et al. This is an open access article distributed under the Creative Commons Attribution License, which permits
unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.
Abstract: Retrieving online information efficiently becomes a crucial issue in nowadays online experience. Compared
with traditional news in paper form, online news are faster, more convenient and more flexible. It is a trend that online
news are replacing their traditional counterpart and becoming the most common way for people to obtain daily
information. However, the volume of frequent updated news becomes so large that the traditional manual news
classification cannot meet the needs of online users. One of the solutions for this will be applying automatic text
classification technologies to classify online news. Many IT companies are developing automatic news classification
systems. There are different forms of network news. Some of the news are composed mostly by graphics or videos
instead of text and therefore not able to be coped with by classic text classification. A new approach of news classifier
based on news titles is proposed to dealing with such news. In this paper, the title based classification model was
created. The model was evaluated by a built corpus and compared with contents based classification. A two-phase news
classification system is constructed and category key feature is proposed.
Keywords: Text Classification; Title Classification; News Classification; Semantic Similarity
基于标题的中文新闻分类研究*
王海涛 1,赵艳琼 2,岳 磅1
1深圳大学计算机与软件学院,深圳
2安徽移动网络部,合肥
Email: htwang@szu.edu.cn
收稿日期:2013 年5月17 日;修回日期:2013年6月9日;录用日期:2013 年6月19 日
摘 要:如何快捷、准确、全面地检索互联网信息是互联网时代的重要问题。网络新闻比传统纸质媒体新闻速
度更快、内容更丰富、形式更灵活生动,正逐渐取代传统新闻媒体成为很多人获取新闻信息的主要途径。然而,
面对快速更新的大量新闻信息,传统的手工分类方式无法满足用户的需求。新闻的主要内容一般都是以文本的
方式呈现,因此,利用文本自动分类技术对网络新闻进行自动分类是解决手工新闻分类问题的一个有效途径。
由于网络新闻信息形式多样,很多新闻内容完全是由图片或者视频组成,不包含文本内容。本文提出通过新闻
标题对网络新闻进行分类的方法,比通过内容进行分类的方法分类速度更快,并且有更强的适应性,可对无文
本内容的新闻(如图片新闻、标题新闻等)进行分类。本文创建了基于标题的文本分类模型;从网络上获取新闻语
料,验证模型的工作情况;并通过与基于内容的文本分类方法比较,验证基于标题的文本分类模型的优劣。本
文构建了基于标题的两步分类系统,所提出的类别唯一特征,对于可分样本可以实现高分类准确率。
关键词:文本分类;标题分类;新闻分类;语义相似度
*资助信息:国家自然科学基金面上项目,编号 61170076;2010 年深圳市基础研究项目,编号 JC201005280408A。
Copyright © 2013 Hanspub 33
基于标题的中文新闻分类研究
Copyright © 2013 Hanspub
34
1. 引言
随着信息技术的发展,特别是互联网技术的发展
和普及,网络已经成为人们发布、交流和获取信息的
主要途径。然而,网络上的信息正在爆炸性地增长。
Google 官方博客[1]指出,Google 检索的独立ULR 数
量已经达到万亿级别,并且Google工程师发现,互
联网上每天新增网页数量达到数十亿个。
以网络新闻为例,它以更新速度快、内容丰富、
形式多样的特点逐渐替代报纸、广播或者电视成为很
多人获取新闻的主要来源。然而网络新闻更新快、内
容多的优点同时也成为不利于人们阅读的缺点,人们
为了找到自己关心的新闻往往要费一番功夫。为了满
足阅读者的需求,各新闻网站都在对自己的新闻进行
越来越详细多样的分类。然而这些分类基本上都是手
工完成的,对于迅速更新的大量新闻需要耗费大量的
人力。同时,由于个人的分类标准具有很大的主观性,
导致分类结果存在差异。
目前,很多新闻门户网站都在发展自动分类技术
的应用,例如谷歌(Google) 的“谷歌资讯(Google
News)[2]”,将超过1000 个中文网站的新闻进行汇集,
整合相似报道,其网站内容完全是由计算机自动生成
的,其中大量使用了文本分类和聚类技术。
由于网络新闻信息形式多样,很多新闻内容完全
是由图片或者视频组成,不包含文本内容。本文提出
通过新闻标题对网络新闻进行分类的方法,比通过内
容进行分类的方法有更强的适应性,可对无内容的新
闻(如图片新闻、标题新闻等)进行分类,而且在RSS
精确阅读等方面可以提供有效的帮助。
本文以网络新闻为例,只通过新闻标题对新闻进
行分类,实验语料库从网络新闻中获取,选自QQ 新
闻[3]的6类新闻内容:财经、房产、科技、汽车、体
育、游戏,总数为 8200 多条。其中 70%作为训练样
本,30%作为测试样本。
使用 N元模型和中文分词两种方式提取新闻标
题中的特征,通过训练样本中的特征建立类别的特征
表示,实验验证两种方式的分类效果;提取特征中对
相应类别具有代表性的特征,定义为唯一特征,通过
唯一特征提高分类的准确率;使用新闻内容文本,利
用基于 VSM 的余弦距离和基于机器学习的 KNN 文本
分类模型对新闻进行分类,通过实验对比基于标题和
基于内容的分类速度和分类准确率。
2. 基于 N元模型的特征选择及实验
N元模型是一个简单但是非常实用的统计语言模
型,它是对统计语言模型的简化。假设一个文本序列
为12 n
Www w

,那么想要计算W在文本中出现的
概率


Pw
i
w
,需要计算 到的所有词的出现概率,
而每一个 的出现概率都与它前面的个词的概
率有关,
这样计算起来太复杂,如果只与前面的
1
wn
w
1i
1N

个词有关那么就可以大大简化计算,这样简化之后的
模型就是N元模型。




1iiiN
Pw Pwww
 
1i
(1)
其中最常使用的是 2元和3元模型,当
N
3

,公式
可简化为:



21iii
PwPww w



i
(2)
尽管这个模型非常简单,但其效果却相当好,远
远超过单独使用统计和语法模型,科学家曾试图用别
的方法来代替此模型,但都没有获得成功,这本身也
是语言模型的一个困惑,即如此简单的一个模型,效
果却为何远远超过许多复杂模型[4]。N元模型只是简
单地利用了字和词的同现信息,但是在自然语言处理
的很多领域的应用中起着有效的作用,问题在于目前
国内外还没有哪一种语言的句法语义分析系统可以
胜任大规模真实文本处理的重任。因此,对于世界各
国的语言来说,当前的主流技术仍是语料库方法和统
计语言模型[5]。
即使经过大大简化后的N元模型的时间复杂度
依然还是较高,在实际应用中大多不使用单词作为基
本的单位,而是使用基于英文短语的N元模型来简化
计算。David Lewis认为,英文文本分类中使用优化合
并后的词组比较合适[6]。
在本文研究中首先使用N元模型作为特征表示,
提取语料中的特征。然后通过实验测试N元模型对于
基于标题的分类效果。
2.1. 特征空间的建立
在使用 N元模型时,N值的选择对于效率有着决
定性的影响。因为只是对新闻的标题进行实验,鉴于
标题的长度都很短,为了更好地提取出标题中的特
基于标题的中文新闻分类研究
征,将N值定在 2~5 之间,也就初步建立的特征空间
将包含长度在2到5之间的所有特征。
对于英文的N元模型一般在切分的同时进行剪
枝的操作,以便除掉切分过程中产生的停用词,减少
计算和存储的开销。对于中文来说,由于中文的词语
之间没有明确的分隔,所以无法确定在切分过程中产
生的汉字序列是否对以后的分析处理有作用,在切分
过程中不能进行剪枝的操作。这样就导致在切分结束
后产生大量的特征,因此在利用 N元模型进行切分完
成之后,需要使用特征降维方法进行降维。
在本文的实验中,初步建立的特征空间的容量是
262,922 个特征,这其中绝大部分特征的出现频率为
1。在实验中,首先使用 TF 对特征进行降维,降维后
的特征数量为38,606。
2.2. 实验及结果
在实验中,特征权重分别使用TF和TFIDF。两
个长度不同的特征,长的特征对于主题的表达作用明
显要大于短的特征,因此,对于TF 权重,不同长度
的特征词赋予不同的权重,对应长度为 2、3、4、5
的特征,其特征权重分别为1、2、4、8。
对于新闻标题与类别的相似度,通过测试样本中
包含的特征在类别中的共现频率来确定。同时,因为
特征的提取是通过N元模型的方式实现的,因此就会
出现长特征中包含短特征的情况,在计算过程中,对
于同一个标题中的短特征的贡献度要除去包含该短
特征的长特征的贡献。例如在一个标题中包含“电脑”
和“电脑城”两个特征,它们在某个类别中的共现频
率分别为 25 和20,那么“电脑”的共现频率就应该
修改为 5。
在计算 TFIDF权重时,由于标题长度很短,把一
个标题作为一个文档来处理不合适,因此在计算过程
中,把整个类别包含的所有特征作为一个文档,来计
算特征相对于每个类别的TFIDF 权重。
从表 1的实验结果可以看出,使用N元模型进行
特征切分的分类准确率不高。在使用 TFIDF 权重之
后,对于N元模型的影响效果不大,在本身分类结果
精度不高的情况下,只提高了1个百分点。这说明,
使用 N元模型对特征进行切分从而产生的特征空间
对于基于标题的新闻标题不适合,下面将采用基于中
Table 1. The classification result based N-gram
表1. 使用 N元模型的分类实验结果
样本数 使用TF权重 使用TFIDF 权重
财经 450 77.33% 76.67%
房产 240 65.42% 64.17%
科技 540 72.78% 76.30%
汽车 744 75.27% 76.34%
体育 216 49.54% 50.00%
游戏 121 72.73% 76.86%
微平均 2311 71.53% 72.70%
文分词工具的特征选择。
3. 基于 ICTCLAS 中文分词的特征
选择及实验
中文自动分词是中文信息处理的基础,在中文信
息检索、中文自动翻译等领域被广泛使用。与英文词
语之间有空格不同,中文词语之间没有明显的分界,
而中文词语比中文汉字拥有更多的信息。因此,为了
更有效地处理中文文本,首先需要对中文文本进行自
动分词,将由汉字组成的字串正确切分为中文词语序
列。
3.1. ICTCLAS中文分词
本文选择开源项目ICTCLAS[7]作为分词组件。
ICTCLAS 是中国科学计算技术研究所在多年研究积
累的基础上研制的汉语词法分析系统。主要功能包括
中文分词、词性标注、命名实体名、新词识别等。该
系统分词速度快、精度高,其最新版本ICTCLAS 3.0
的分词速度单机996 KB/s,分词精度达到 98.45%,是
当前世界上最好的汉语词法分析器[7]。
3.2. 特征权重的确定
训练样本经过分词处理后去除停用词,包括虚词
(如连词、叹词、拟声词、助词、标点、语气词等)和
表示媒体类别的名词(如组图、视频等),形成特征词
表


12 3
,,, ,
n
Vttt t。
通过对特征词表中的词汇进行加权处理后形成
类别的一般特征。类别 Ci的一般特征可以表示为


1 2233
, ,, ,,,,,
ii1iin
Ptwtwtw twin
。要 确定 特
Copyright © 2013 Hanspub 35
基于标题的中文新闻分类研究
征词的权重应该考虑以下因素:1) 特征词在一个类别
中的出现次数,出现的次数越多说明该特征词对该类
别的影响越大;2) 包含一个特征词的类别个数,类别
个数越多,特征词的影响越小;3) 特征词的长度,长
度越大特征词的影响越大;4) 训练样本的个数对特征
词的出现次数也有决定性的影响,应予以考虑。
定义一个特征词ti在类别Cj中的权重 wij 为:


ij ijiij
wtficftlwcw (3)
其中,tfij 为特征词在类别 Cj中的出现次数,icf(ti)为
特征词 ti的逆类别频率值,lwi为特征词 ti的长度权重,
cwj为类别 Cj的调整参数。下面分别介绍各个部分的
计算方法:
1) 逆类别频率 icf(wi)。借用逆文档频率 idf的计
算方法来计算逆类别频率icf:


log
i
icfwN cf

ij
(4)
其中,N为类别总数,cfij为出现特征词 ti的类别数。
2) 长度权重 lwi。不同长度的特征词对于分类的
影响显然是不同的,尤其是标题本身的长度就很短,
一个长度为 5的特征词比一个长度为2的特征词对决
定该标题所属类别的重要性要大的多。规定特征词的
长度 l和长度权重 lwi的关系如表 2所示。
3) 类别调整参数 cwj。三个彼此相关的参数可以
影响 cwj,分别为:该类别的训练样本数 CoS,出现在
该类别中的特征词数 CoF,出现在该类别中的特征词
词频之和 SoF。为了确定类别调整参数,分别使用上
述三个参数的指数函数作为类别调整参数进行了实
验。通过图 1的实验结果可以看出,当
和时,取得最佳的分类准确率。
CoS 0.5cw 
cwSoF 0.6
4. 类别唯一特征
在特定的情况下,有时根据标题中的一个特征词
就能基本确定标题所属的类别,例如:包含奇瑞、雅
阁、凯美瑞等词语的标题一般可以确定为汽车类新
闻。这样的特征词本文定义为类别的唯一特征。
选择特征词表中的人名、地名、团体名、其他专
有名词、英文名词、简称、习用语作为备选的唯一特
征,然后根据各备选唯一特征在各个类别中的出现次
数和出现次数所占所有类别中出现次数之和的比率,
来确定其是否成为唯一特征。设类别的一般特征向量
Table 2. The relation between the length of features and weights
表2. 特征词的长度 l和长度权重 lwi的关系
l 2 3 4 5 6 7 ≥8
lwi 1 2 4 8 12 14 L + 7
82.20%
82.40%
82.60%
82.80%
83.00%
83.20%
83.40%
83.60%
83.80%
84.00%
0-1-0.75 -0.6-0.5-0.4 -0.25-0.125
指数值
分类准确率
CoS
CoF
SoF
Figure 1. Experiment result about class adjustment parameter
图1. 类别调整参数实验结果
为:


11223 3
,,,,,,,,
nn
Ptwtwtw tw
对于特征词 ti,设其词频为 tfij,如果 tfij 满足条件:
1
,
N
ijij ik
k
tftf tf



 



则特征词 ti称为唯一特征,其中 Θ和θ为预先确
定的阈值,N为类别数。一般特征向量 P的唯一特征
向量为:


112233
,,,,,,,,
nn
Utftftf tf
其中 fi是特征词 ti的唯一性权重,如果 ti是唯一特征,
那么
1
N
iij ik
k
i
f
tftf w







(5)
否则 fi = 0。
选择不同的频率阈值Θ和比率阈值 θ进行实验。
测试样本数量为2311。
从表 3的实验结果可以看出,在θ等于 0.90时,
单独使用类别唯一特征进行分类可以取得非常高的
平均准确率;随着阈值Θ和θ的增大,分类平均准确
率增高,同时可分样本数相对于测试样本2311 的总
数量逐渐降低。
5. 基于标题的两步新闻分类系统
从上一节的实验结果可以看出,单独使用唯一特
征对于可分样本可以达到很好的分类效果,但是很多
Copyright © 2013 Hanspub
36
基于标题的中文新闻分类研究
的样本无法通过唯一特征进行分类。通过两步分类可
以充分利用唯一特征分类准确性的优势,同时对所有
的样本进行分类。
对于某一新闻标题,因其长度很短,所含词汇很
少,容易得到其一般特征向量

112 23 3
,,,,,,,,
nn
TPt hththth。其中 hi一般
为1或者 0,如果新闻标题包含特征ti,hi值为1,否
则hi值为0。
如图 2所示,分类过程由两步组成:
1) 计算标题一般特征向量 TP 与类别唯一特征向
量U的相似度。如果标题中包含类别唯一特征,标题
就可分,则分类完成,否则通过下一步对标题进行分
类;

1
1, ,
n
P
ii
i
SimT CSim TUhf



2) 计算标题一般特征向量 TP 与类别一般特征向
量PN 的相似度,确定标题所属的类别;

1
2, ,
n
P
ii
i
SimT CSim TPhw



下面的实验首先只使用 TFIDF 的一般特征进行
分类,然后在唯一特征频率阈值 和比率阈值
10
1. 0 0

时,通过两步分类对测试样本进行分类。从
表4的结果中可以看出,使用两步分类方法对分类结
果有一定的改进,平均准确率为89%,在分率精度上
可以满足实际应用的需求。
6. 基于标题与基于内容的实验对比与分析
基于内容的文本分类实验采用与基于标题的分
类实验对应的新闻内容语料。实验分别采用基于VSM
的余弦距离分类算法和KNN 分类器。Salon 等人提出
的向量空间模型(VSM)[8,9]被广泛地应用在了信息检
索和文本分类领域,使一串离散的文本能够以一个向
量的方式来表示,现在已经成为最简便高效的文本特
征表示模型之一。以选择 KNN 分类器进行基于内容
的分类实验,是因为KNN 分类器虽然是简单易行的
文本分类器,但是分类效果良好,对于不同数据集都
有很好的可操作性,被广泛地应用于基于统计的机器
学习中[10]。
6.1. 特征权重和特征选择
在进行文本分类的过程中,因为出现在文本不同
Table 3. The classification result based unique features
表3. 使用唯一特征的分类结果
Θ θ 可分样本数 正确样本数 平均准确率
0.50 1289 1123 87.12%
0.60 1127 1040 92.28%
0.70 1073 1013 94.40%
0.80 971 934 96.19%
0.90 840 820 97.62%
3
1.00 747 734 98.26%
0.50 1106 971 87.79%
0.60 954 887 92.98%
0.70 914 867 94.86%
0.80 842 811 96.32%
0.90 728 715 98.21%
5
1.00 633 627 99.05%
0.50 872 697 89.13%
0.60 697 658 94.40%
0.70 677 646 95.42%
0.80 612 597 97.55%
0.90 565 556 98.41%
10
1.00 466 464 99.57%
通过唯一特
征对样本进
行分类
样本可
分?
通过一般特
征对样本分
类
结束
Y
N
Figure 2. The processing of two steps classification algorithm
图2. 两步分类算法流程图
Table 4. The classification result based normal and unique features
表4. 综合使用一般特征和唯一特征的分类结果
样本数 只使用 TFIDF 一般特征和唯一特征
财经 450 74.67% 78.67%
房产 240 65.41% 88.75%
科技 540 86.11% 89.26%
汽车 744 93.10% 93.28%
体育 216 84.26% 95.37%
游戏 121 77.69% 90.91%
微平均 2311 83.47% 89.10%
Copyright © 2013 Hanspub 37
基于标题的中文新闻分类研究
地方的特征词具有不同的影响力,对于不同位置的特
征词应该赋予不同的特征权重。例如出现在标题中的
特征词因为更能代表该文本的主题,应该赋予最大的
特征权重;而出现在首段的特征词相对于其他段落的
权重要大;而对于一个段落中,出现在段首、段中、
段尾的特征词,也将赋予不同的权重;一些科技类论
文还拥有摘要和关键词,在处理这类文本的权重时对
这些位置出现的特征词,其权重都应该相应地加大。
在本文应用中,对于一般特征词的权重设定为1;
如果出现在段首和段尾将其特征权重加 1;如果出现
在首段和末段,其特征权重加1;如果出现在标题中
其权重将为最大值 5。因此对于出现在不同地方的特
征词,它的特征权重根据重要性的大小分别被赋予1、
2、3和5。
在特征降维阶段,采用互信息(MI)的方法。由于
互信息对于低频特征词的过渡拟合现象会导致低频
特征词评价过高问题,因此在实际使用中首先通过特
征词频 TF过滤掉低频特征词,再计算各个特征词的
互信息大小。选择互信息大于指定阈值的词作为特征
词汇表中的特征词。
6.2. 实验及结果分析
与基于内容的文本分类结果从两个方面来进行
比较:1) 分类准确率;2) 分类速度。
从表 5的实验结果中可以看出,基于标题的分类
结果好于基于内容的 KNN 分类结果。基于内容的
KNN 分类结果各个类别的分类准确率比较平均,而基
于标题的分类结果对某些类别的分类效果明显要好
于其他类别,这是由于基于标题的分类方法对于某些
类别的标题敏感度比较高,对另一些类别要差一些;
而基于内容的KNN 分类由于使用了新闻的全部文本
内容,能够更好地表现样本的主题。
下面将进行分类速度与分类准确率的综合实验
对比。其中基于内容的分类实验使用两种分类方法,
一种使用上面的KNN 分类器,另一种使用基于 VSM
余弦距离的分类算法,以下简称VSM 分类算法。
在进行 VSM分类实验时,使用所有训练样本的
权重之和来表示类别的特征权重。类别与测试样本的
相似度通过类别向量与测试样本向量的余弦值来计
算。
从表 6的实验结果可以看出,对于分类精度,基
Table 5. The comparison of classification result between basing
content and basing titles
表5. 基于内容 KNN 分类与基于标题分类结果对比
基于内容(KNN) 基于标题
测试样本数
正确样本 准确率 正确样本 准确率
财经 450 385 79.56% 358 79.56%
房产 240 207 86.25% 213 88.75%
科技 540 465 86.11% 482 89.26%
汽车 744 675 90.73% 693 93.15%
体育 216 189 87.50% 207 95.83%
游戏 121 103 85.12% 112 92.56%
微平均 2311 2024 87.58% 2065 89.36%
Table 6. The comparison of time-consuming between basing
content and basing titles
表6. 基于内容与基于标题分类的用时对比
基于内容
VSM KNN
基于标题
平均准
确率
分类用
时
平均准
确率
分类用
时
平均准
确率
分类用
时
83.75% 285s 87.58% 435s 89.36% 100s
于标题的分类结果最好,KNN次之,VSM最差;对
于分类所用的时间,基于标题的时间最少,
VSM次之,
KNN 所用时间最长。
KNN 与基于标题的分类精度在上面已经作了分
析,对于 VSM 和KNN 的分类效果差别是因为 VSM
只是简单地计算了类别特征向量与测试样本的特征
向量的余弦值,而类别特征向量的设置完全通过所有
训练样本的特征向量来确定,这样就将个别训练样本
的噪声全部累加到类别特征向量之中,导致类别特征
向量的噪声增大。
对于分类所用时间的差异,可以从对样本的处理
(包括中文分词和特征向量的生成)时间和分类算法分
类所用的时间两方面来考虑。对比VSM 与基于标题
的分类实验,两者在第二步所作的操作所用的时间差
别不大,所以主要的用时差异在第一步。对于基于标
题的分类,两者处理样本的用时主要是由样本文本长
度决定的。由于标题的长度明显短于文本内容的长
度,最终导致VSM 的分类用时是基于标题的用时的
2.85 倍。
因为 VSM与KNN 在处理样本的时候所做的操作
基本相同,因此对于VSM与KNN 的分类用时的差异
Copyright © 2013 Hanspub
38
基于标题的中文新闻分类研究
Copyright © 2013 Hanspub 39
主要是由分类阶段用时差异决定的。在分类阶段,
VSM 只需要计算样本特征向量与类别特征向量的相
似度,而 KNN 要计算样本特征向量与所有训练样本
特征向量的相似度,从而导致KNN 用时比VSM 的用
时有了巨大的增加。
对于本文中 KNN 分类所用时间过长是由于在分
类阶段计算了测试样本与所有训练样本的相似度,最
后选择相似度最小的K个训练样本,通过它们所属的
类别来确定测试样本的类别。可以通过一些改进算法
来加快这一步分类过程,这方面的研究比较多。文献
[11]中在 KNN算法中加入了训练阶段,将训练结果保
存到特殊设计的数据库中,在分类阶段通过检索引擎
快速返回K个最邻近的结果;通过优化检索引擎可以
在百万级训练样本的情况下用几百毫秒返回搜索结
果。文献[12]中提出了一种基于核的 KNN 思想,在训
练阶段将每个类别的训练样本聚类为多个小的类别,
用这些小的类别的中心代表全部训练样本,而这些中
心就是类别的核,在分类阶段只需要计算测试样本与
这些类别的核的相似度,从而加快分类速度。
由于本文的研究重点不在这里,所以使用了最简
单的办法来进行KNN 分类。如果使用上面提到的第
一种改进算法,
KNN 分类所用的时间将会与VSM分
类所用的时间接近。
参考文献 (References)
[1] The Official Google Blog.
http://googleblog.blogspot.com/2008/07/we-knew-web-was-big.
html
[2] 谷歌资讯(Google News)[URL]. http://news.google.cn
[3] QQ 新闻[Z]. http//news.qq.com
[4] E. I. Sicilia-Garcia and F. J. Smith. Statistical language modeling.
Encyclopedia of Library and Information Science, 2002, 71(34):
309-338.
[5] 黄昌宁. 统计语言模型能做什么?[J]. 语言文字应用, 2002, 1(2):
77-84.
[6] D. D. Lewis. Representation and learning in information retrieval.
University of Massachusetts, Amherst, 1992.
[7] ICTCLAS 中文分词工具[URL]. http://ictclas.org
[8] S. Chakrabarti. Hypertext databases and data mining. Proceedings
of the 1999 ACM SIGMOD International Conference on Manage-
ment of Data, 1999, 28(2): 508.
[9] G. Salton, M. J. McGill. Introduction to modern information
retrieval. New York: Mc Graw Hill, 1983
[10] Y. Yang, J. O. Pedersen. A comparative study on feature selec-
tion in text categorization. Morgan Kaufmann Publishers, Bur-
lington, 1997: 412-420.
[11] 张庆国, 张宏伟, 张君玉. 一种基于 k 最近邻的快速文本分
类方法[J]. 中国科学院研究生院学报, 2005, 22(5): 554-559.
[12] 刘斌, 黄铁军, 程军等. 一种新的 基于统计 的自动 文本分类方
法[J]. 中文信息学报, 2002, 16(6): 18-24.

版权所有:汉斯出版社 (Hans Publishers) Copyright © 2012 Hans Publishers Inc. All rights reserved.