设为首页 加入收藏 期刊导航 网站地图
  • 首页
  • 期刊
    • 数学与物理
    • 地球与环境
    • 信息通讯
    • 经济与管理
    • 生命科学
    • 工程技术
    • 医药卫生
    • 人文社科
    • 化学与材料
  • 会议
  • 合作
  • 新闻
  • 我们
  • 招聘
  • 千人智库
  • 我要投搞
  • 办刊

期刊菜单

  • ●领域
  • ●编委
  • ●投稿须知
  • ●最新文章
  • ●检索
  • ●投稿

文章导航

  • ●Abstract
  • ●Full-Text PDF
  • ●Full-Text HTML
  • ●Full-Text ePUB
  • ●Linked References
  • ●How to Cite this Article
Hans Journal of Data Mining 数据挖掘, 2013, 3, 27-31
http://dx.doi.org/10.12677/hjdm.2013.32006 Published Online April 2013 (http://www.hanspub.org/journal/hjdm.html)
Study on Real-Time Search Engine Based on Social Network
Zhengwei Huan g, Hui j uan Huang, Yan ni Yang
The Department of Economy and Management, China Three Gorges University, Yichang
Email: 339372775@qq.com
Received: Dec. 4th, 2012; revised: Jan. 17th, 2013; accepted: Feb. 2nd, 2013
Copyright © 2013 Zhengwei Huang et al. This is an open access article distributed under the Creative Commons Attribution License, which permits
unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.
Abstract: With the rise of social network , Internet u sers have pu t forward higher request on the speed and r eal-time for
information. Through the time-consuming web crawler, traditional search engine grab the web page, and establish the
index, which can not meet the users’ needs. In contrast, the real-time search can capture the data flow directly from the
network, thus it meets the needs of the users for real-time information more quickly. Some real-time search engines
have already appeared at home and abroad, such as the United States OneRiot, Google, Collecta and Scoopler, etc.,
which provide people with the latest search content through grabbing the mass information released by the users on
Twitter, Facebook, Digg, etc. at any time.
Keywords: Real-Time Search; Traditional Search; Social Network
基于社交网络的实时搜索引擎探究
黄正伟,黄会娟,杨艳妮
三峡大学经济与管理学院,宜昌
Email: 339372775@qq.com
收稿日期:2012 年12 月4日;修回日期:2013 年1月17 日;录用日期:2013 年2月2日
摘 要:随着社交网络的兴起,网民对信息资讯的速度和实时性提出了更高的要求。传统搜索引擎通过费时的
网络爬虫抓取网页,建立索引,这已远不能满足用户的需求。相比之下,实时搜索能直接从网络捕获数据流,
从而更迅速地满足用户对实时信息的需求。目前国内外已经出现了一些实时搜索引擎,如美国的 OneRiot、
Google、Collecta 和Scoopler等,它们通过抓取 Twitter、Facebook、Digg 等社交网络上用户随时发布的海量信
息,给人们提供最新的搜索内容。
关键词:实时搜索;传统搜索;社交网络
1. 基于社交网络的实时搜索引擎的产生
随着 Web2.0,特别是以 Facebook、Twitter 为代
表的社交网站的飞速发展,人们越来越热衷于在社交
网络上发布和获取信息,社交网络将成为人们生活的
一部分,成为人们现实生活的延伸。同时,以 Twitter
为代表的实时网络成为了互联网最热门的应用领域
之一,社交网络不再是过去单一的娱乐交友沟通平
台,而更作为一种新闻传播平台存在和发展。人们获
取新闻的渠道也开始从传统的新闻网站向这些社交
网络转移,因为传统搜索引擎已经不能满足人们对实
时信息的要求。社交网络信息的爆炸性增长,以及其
更新快,生命周期短的特性,使得人们越来越关注于
如何从这些庞大、杂乱无章的信息中获取高质量、实
时性的信息,这也成为IT 行业的技术研究重点。正
是基于网民对新兴资讯速度和实时性的更高要求,搜
索引擎领域应需而动,基于社交网络的“实时搜索”
Copyright © 2013 Hanspub 27
基于社交网络的实时搜索引擎探究
概念应运而生。
所谓“实时搜索”是指用户能够查阅实时发布的
信息资料。也就是说,信息发布和信息查询之间几乎
没有时间延迟。例如,你拍张照片并张贴,几秒钟后,
可能全世界都能看到这张照片[1]。实时搜索的出现,
引起了社会的广泛关注,并对搜索引擎领域的发展产
生了巨大的影响,被列为2010年全球十大新兴科技
之一。
2. 实时搜索引擎的实现原理
2.1. 传统搜索引擎的原理
传统搜索引擎通过网络爬虫,从互联网上自动搜
集网页,自动访问互联网,并沿着网页中所有的 URL
爬到其他网页,跟踪网络链接,通过不断地重复该动
作来搜集所有爬过的网页,并将之存储到数据库中。
抓取网页是整个搜索引擎工作的开始。最简单的
抓取网页的路径是按照超链接的拓扑顺序进行的。首
先爬虫会拥有一个初始的URL 列表,访问到对应的
网页中,分析该网页中的<a href=…>结构,获取新
的URL,并将之插入到原有队列中[2]。同时根据需要
也可以获取<img src=…>等结构,抓取相应的其它
类型的文件。重复地进行这个过程,直到抓取到指定
数量的网页为止。
将抓取到的页面文件进行分析、分解,按照一定
的算法,通常根据网页中关键词的匹配程度,出现的
位置/频次,链接质量等——计算出各网页的相关度及
排名等级,然后根据关联度高低,建立索引,按顺序
将这些网页链接返回给用户。
对于传统搜索引擎而言,其自动搜集网页功能分
为两种。一种是定期搜索,即每隔一段时间(比如
Google 一般是 28 天),搜索引擎主动派出“蜘蛛”程
序,对一定IP 地址范围内的互联网站进行检索,一旦
发现新的网站,它会自动提取网站的信息和网址加入
自己的数据库。另一种是提交网站搜索,即网站拥有
者主动向搜索引擎提交网址,它在一定时间内(2 天到
数月不等)定向向你的网站派出“蜘蛛”程序,扫描你
的网站并将有关信息存入数据库,以备用 户查询[3]。但
主动提交网址并不保证你的网站能进入搜索引擎数据
库,因此目前最好的办法是多获得一些外部链接,让
搜索引擎有更多机会找到你并自动将你的网站收录。
由此,传统搜索引擎之下,用户面临的问题是:
首先,返回的信息是在几小时或几天其至几个月以前
被预先存放在搜索引擎的数据库中的,实际页面中的
内容可能已经改变。第二,搜索引擎服务器中存放的
主要是静态页面的内容,而无法记录动态发布的信
息。但动态信息却是互联网上的重要部分,尤其是在
互联网上发布的数据库的内容越来越多,也越来越重
要。因此,返回的 URL 虽然多,但是符合用户需求
的甚少,用户经常只能以猜测的方式选择其中的一些
进行访问,或者侥幸找到需要的信息,或者不得不放
弃搜索。
2.2. 实时搜索引擎的原理
以社交网络网站、博客、新闻媒体、出版商内容
管理系统等作为外部资源库,实时搜索引擎直接从这
些实时网络中捕获数据流,接收数据。搜索服务订阅
社交网站的新内容通知,使用HTTP、FTP或该网站
的其他协议并通过网站 API检索。由于社交网站一般
以JSON 格式或者以 XML 格式将信息结果返回,所
以实时搜索引擎获得的数据将以XML 格式进行存储
[4]。这些资源直接将内容“推入”实时搜索的过滤引
擎中,通过主题词建立索引并根据提交的时间、是否
包含垃圾信息和与查询之间的相关性进行快速过滤
和组织数据。内容最后通过一个称之为流水口
(firehose)的机制到达用户界面(UI) 来显示搜索结果。
实时搜索对内容进行排序和索引的算法是根据内容
的提交时间、兴趣的直接程度、查询相关性、跟随者
数量代表的作者信誉、读者转发次数代表的链接信誉
等。立足于社交网络,实时搜索对搜索结果排序的算
法能够给用户带来更新鲜的搜索体验,满足用户的个
性化搜索需求。
这种搜索结构每小时能够索引数百万页面。实时
搜索引擎检索和索引数据如此之快是因为它不像传
统搜索引擎一样需要靠网络爬虫抓取页面来收集和
索引信息,它是直接从 Twitter、Facebook 等社交网络
的种子获得大多数数据,因此能够立即索引和过滤网
络素材。
此外,实时搜索引擎不需要借助预先保存的网页
内容,而是实时地进行网上搜索,因而返回给用户的
信息更快更新。同时这个搜索引擎还能按用户的个性
Copyright © 2013 Hanspub
28
基于社交网络的实时搜索引擎探究
化查询要求对搜索结果进行综合,免去了用户大量繁
重的人工操作。尤其是在搜索结果排序算法中,对搜
索内容进行相关性计算提高了信息的相关度和准确
性;考虑时间因素提高了信息的实时性;考虑朋友和
权威用户能更好的符合社会网络的特征,更好的为用
户提供基于社交网络的实时搜索服务[5]。
图1给出了传统搜索引擎与实时搜索引擎的各自
的工作原理和二者的流程比较。首先,从搜索效率上
而言,相比于传统搜索引擎费时的网络爬虫抓取页
面,实时搜索能够更高效直接地从各类外部数据源获
取数据,并迅速将查询结果返还给用户。其次,从搜
索质量上,传统搜索引擎的数据库更新慢,主要记录
静态内容,而实时搜索引擎立足于社交网络,满足了
用户对实时信息的要求。此外,对搜索的信息进行相
关性排序和索引的算法符合社交网络的特征。
3. 目前出现的实时搜索引擎
目前已经出现了不少实时搜索引擎。Twitter 在
2009 年集成了 tweets 的实时搜索到社交网络服务中,
是目前最大的实时数据来源。
3.1. OneRiot
OneRiot实时搜索引擎从 Delicious、Digg、Friend-
Feed、Twitter 等网站和 OneRiot 自己的搜索工具栏(从
Facebook 和Myspace 检索数据)来更新实时内容,
传统搜索
网站 2 网站 n
索引
1.~~~~~~~
~
2.~~~~~~~~
3.~~~~~~~~
4.~~~~~~~~
排序后的搜索结果
实时搜索
社
交
媒
体
主
流
新
闻
过滤引擎
…
…
…
…
…
…
…
…
…
用户界面
所需时间
1 1
1
1
流水口
出
版
商
内
容
网站 1
Figure 1. Comparison between traditional search process and
real-time search process
图1. 传统搜索与实时搜索流程比较
其界面如图 2所示。该系统根据一种考虑 26个因素
的算法来过滤垃圾信息,获得查询的结果或答案。其
中一种过滤是热度,即某个链接前一分钟在社交网络
上被分享的程度,可以表明该内容在某段时间内流行
程度的增加或降低。还有一种是用户的在线信誉。信
誉建立在跟随者数量以及他们的帖子被转发的频率
上。OneRiot 确定链接的流行程度是根据发送者的跟
随者数量、链接被分享的速度和次数。随着搜索流量
的不断增长,OneRiot开放了自己的应用程序编程 接口
(API),允许其他网站和应用程序嵌入它的实时搜索功
能,并通过查询和搜索结果相关的实时广告获得收入。
3.2. Google
Google 公司于 2010 年8月推出实时搜索新功能,
在搜索结果的显示页面,通过点击“显示选项”,允
许按照时间来过滤显示结果,分类包括:“最新”、“过
去24 小时”、“过去 1周”、“过去 1年”、“用户指定
时间范围”,其搜索界面见图 3。“最新”检索结果中
实际是 Flickr、Friend-Feed、Twitter 和博客帖子的实
时搜索结果。此外,Google 已经与 Facebook 和
MySpace签订协议,能够更有效索引他们的公开内容。
当然,如果用户愿意,他们可以通过 Facebook和
MySpace 的隐私控制阻止 Google 索引他们的内容。
Google 的实时搜索能够在新的相关信息出现几秒后
自动滚动显示。
Google 实时算法实现了搜索的实时更新和质量
评价。采用的过滤器包括结果与查询之间的相关性、
读者转发次数、作者的跟随者数量等属性。Google
Figure 2. OneRiot real-time search site
图2. OneRiot实时搜索网站
Copyright © 2013 Hanspub 29
基于社交网络的实时搜索引擎探究
爬虫现在几乎能够检索和显示出现的所有网页。公司
不断开发新技术来检测每天超过1亿的更新文档。其
中一种语言算法模型是,句子更新时,比较单词序列
在其它文档中的顺序,以确定是否包含更新信息。其
它算法还包括解决语义识别来明确内容的意思,缓存
历史查询和响应来提高性能、测量搜索结果与查询主
题的相关性、查看搜索结果集合形式来确定近期信息
的重要性等。
3.3. Collecta
该搜索引擎监控Flickr、Twitter 和WordPress 等
实时博客和网站的更新数据流,并能够在张贴后的查
询中尽快显示结果。该引擎采用XML 可扩展消息处
理现场协议,使得接近实时的信息快速反馈给搜索
者。服务使用长轮询方式。如果Collecta 检测的网站
服务器没有新数据,请求将持续保持到有信息产生。
如果有新数据,Collecta 立即返回结果并发送另外一
个请求,从不间断的数据流中提供信息给用户。
Collecta 对检索结果并不排序,而是通过相关性和垃
圾过滤的顺序流来显示,其搜索界面见图 4所示。
3.4. 其他搜索引擎
微软实时搜索:Bing(必应)是微软的新版实时搜
索引擎,拥有访问 Twitter 的实时数据种子的权限,并
获得授权使用 Facebook的API 服务。Twitter 是Bing
搜索的主要数据来源。通过嵌入 Delicious、Digg、Flickr
和Twitter 等多个社交网络服务,雅虎与微软的搜索联
盟(新搜索引擎名称Scoopler)能够提 供现 场的 、自 动
更新的实时搜索结果。Scoopler用一列实时提供了查
询相关的最流行的链接、视频和图片,根据内容多新
和社交网络共享的程度来排序。其他相关网络内容出
现在另一列。管道数据延迟最大为30秒。友好的种
子允许用户提交查询和对网上朋友帖子做出实时反
应。该服务还引人 Flickr、Twitter 和YouTube 的即时
更新。
Topsy:显示 Twitter 上发布的帖子的实时搜索结
果,并且根据链接出现在 Tweets 上的次数来排序。越
多的人转发一个帖子,该帖子会被给予更多的权重。
CrowdEye:是个 beta 版本。采用自己的实时算
法对来自 Twitter 的搜索结果进行排序。主要依据发帖
者的跟随者数量和被转发的次数来确定。
Figure 3. Google real-time search site
图3. Google实时搜索网站
Figure 4. Collecta real-time search engine interface
图4. Collecta实时搜索引擎界面
有道搜索:率先在国内推出的实时搜索服务,搜
索结果有的来自新华网、网易等主流新闻媒体,但更
多是来自主流微博和百度贴吧的内容。对检索内容进
行时间相关性排序后显示,可以按照“最新”、“一天
内”、“一周内”、“一月内”、“一年内”分类显示信息。
4. 实时搜索引擎展望
实时搜索尚处在起步阶段。2008 年以前,实时搜
索技术还不存在,了解和使用实时搜索的用户还不
多。虽然经过了多年的开发,但目前的实时搜索和过
滤功能还算不上完善,搜索结果可能带来很多无关的
或者重复的数据,更可能会导致严重的垃圾邮件和广
告。由于实时搜索需要考虑很多因素,并在此基础上
进行快速、复杂的计算,因此需要大量的计算开销。
目前 Twitter 占据了实时信息来源的绝大部分,这也确
定了它在实时搜索中的统治地位。实时搜索现在主要
用于与 Twitter 相关的信息发布类网站或者微博应用
上。
Copyright © 2013 Hanspub
30
基于社交网络的实时搜索引擎探究
Copyright © 2013 Hanspub 31
不远的将来,更多的实时搜索应用将会产生。1)
精确定位广告促销。实时搜索能够马上提供与用户搜
索主题相关的产品广告。例如,用户搜索某一个影星
时可能会出现该影星所代言的DVD 促销广告。2) 用
于定制用户感兴趣的话题。用户能够定制获取他们感
兴趣的主题或者参与事件的信息来源。将来,实时搜
索可能集中应用于与位置相关的问题。例如,移动设
备用户可能会通过社交网络发布交通阻塞情况,并不
断地更新状况,人们可以利用实时搜索发现这个信
息,这便构成了一个让其他人受益匪浅的路况报道。
3) 社交网络中正面宣传公司形象。社交网络中可以以
正面方式讨论关于公司品牌的对话,他们可能成为响
应客户需求和投诉的对话的一部分,并且指导正面的
对话。4) 辅助决策。用户甚至可以采用实时搜索来进
行现场财务和其他决策。
总而言之,实时搜索将会变得更加普遍,消费者
将进入一个永远在线的网络。而且,随着进一步的应
用推广,以及与物联网、实时通讯等技术的进一步融
合,实时搜索将会出现在电子商务、物流服务等多种
场合。实时搜索与传统搜索的一个很大区别是过滤效
果不佳,在搜索时间敏感性不强的主题方面的搜索精
度不如传统搜索引擎。但是,随着人们对搜索引擎的
关注和搜索市场的增长,实时搜索技术也将不断进
步,越来越多的实时搜索应用将会诞生。
参考文献 (References)
[1] D. Sullivan. What is real time search, 2009.
http://searchengineland.com/what-is-real-time-search-definitions
-players-22172
[2] B. J. Jansen. Real time search on the web: Queries, topics and
economic value, 2011.
http://collecta.com/#q=real%20time%20search
[3] 侯震宇. 基于 Fish 算法的实时搜索系统的实现[J]. 现代图书
情报技术, 2002, 6: 33-35.
[4] 徐婕, 康慕宁, 董谷音. 基于社交网络的实时搜索引擎的排
序算法研究[J]. 科学技术与工程, 2011, 11(28): 6879-6882.
[5] 邓志宏. 实时信息搜索技术的研究[J]. 信息技术, 2011, 11: 27-
30.

版权所有:汉斯出版社 (Hans Publishers) Copyright © 2012 Hans Publishers Inc. All rights reserved.