`
txf2004
  • 浏览: 6831956 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

中文搜索引擎技术揭密:网络蜘蛛(1)

阅读更多

【e800.com.cn 编者按】随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为学者,会把有代表性的搜索引擎作为研究对象……

而作为一个网站的经营者,其更关心的或许是如何通过网络载体让更多的网民知道自己的网站,进而获得更高的流量和知名度。这其中,搜索引擎已经成了一个重要的且是免费的宣传途径。一方面,搜索引擎会主动出击,寻找网络上的各种网页数据,并在后台按相关条件进行索引;另一方面,各大网站为了能让自己的内容更多的通过搜索引擎向网民展示,都开始对网站结构进行重大调整,其中包括扁平化结构设计、动态(网页)转静态(网页)、Sitemap等。

这些看来不经意的举动都让我们切身感受到搜索引擎对我们网络使用方式的改变起到了重要作用。并且,正因为搜索引擎的兴起以及社会各界对其重视程度日渐高涨,还由此创造了一个全新的职位--SEO。实际上,搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。

【e800.com.cn 专稿】搜索引擎一直专注于提升用户的体验度,其用户体验度则反映在三个方面:准、全、快。用专业术语讲是:查准率、查全率和搜索速度(即搜索耗时)。其中最易达到的是搜索速度,因为对于搜索耗时在1秒以下的系统来说,访问者很难辨别其快慢了,更何况还有网络速度的影响。因此,对搜索引擎的评价就集中在了前两者:准、全。中文搜索引擎的"准",需要保证搜索的前几十条结果都和搜索词十分相关,这需由"分词技术"和"排序技术"来决定(参考作者相关文章[1][2]);中文搜索引擎的"全"则需保证不遗漏某些重要的结果,而且能找到最新的网页,这需要搜索引擎有一个强大的网页收集器,一般称为"网络蜘蛛",也有叫"网页机器人"。

研究搜索引擎技术的文章不少,但大部分讨论的是如何评价网页的重要性,对于网络蜘蛛研究的文章不多。网络蜘蛛技术并不是一项十分高深的技术,但要做一个强大的网络蜘蛛,却非易事。在目前磁盘容量已经不是瓶颈的时候,搜索引擎一直在扩大自己的网页数量。最大的搜索引擎Google(http://www.google.com/)从2002年的10亿网页增加到现在近40亿网页;最近雅虎搜索引擎(http://search.yahoo.com/)号称收录了45亿个网页;国内的中文搜索引擎百度(http://www.baidu.com/)的中文页面从两年前的七千万页增加到了现在的两亿多。据估计,整个互联网的网页数达到100多亿,而且每年还在快速增长。因此一个优秀的搜索引擎,需要不断的优化网络蜘蛛的算法,提升其性能。

或许有些人有疑问,为何搜索引擎需要用网络蜘蛛抓取网站所有的网页,为什么不在搜索者输入关键词后只把那些需要的结果抓取过来?这实际上是效率问题,搜索引擎不可能在搜索时实时去检查每个网页,而是需要把网页先抓取下来,按照关键词建立好索引,每次搜索的结果都会直接从搜索引擎建立好索引的数据库中查找,然后把结果返回给访问者。关于搜索引擎系统架构方面的知识,参考文献[3],本文主要介绍网络蜘蛛的相关技术。

分享到:
评论

相关推荐

    中文搜索引擎技术揭密:网络蜘蛛.

    中文搜索引擎技术揭密:网络蜘蛛.

    中文搜索引擎技术揭密:网络蜘蛛.rar

    中文搜索引擎技术揭密:网络蜘蛛.rar

    中文搜索引擎技术

    内含: 中文搜索引擎技术揭密:系统架构.doc 中文搜索引擎技术揭密:网络蜘蛛.doc 中文搜索引擎技术揭密:排序技术.doc 中文搜索引擎技术揭密:中文分词.doc

    搜索引擎技术揭密之搜索蜘蛛系列文摘

    搜索引擎技术揭密之搜索蜘蛛系列文摘 资源全部在网络收集 个人觉得很好 编辑整理共享之

    .net网络蜘蛛源程序及搜索引擎技术揭密

    .net网络蜘蛛源程序及搜索引擎技术揭密,很好的学习搜索引擎技术的例子和介绍。

    搜索引擎网络蜘蛛程序

    搜索引擎网络蜘蛛程序,Nutch,Lucene,Larbin,中文分词程序代码

    搜索引擎-网络蜘蛛-源码

    一个简单的网络蜘蛛Java源码,是用Applet实现的,所以压缩包中也包含了调用此Applet的html文件。只需编译此java源代码用此html文件调用即可。

    搜索引擎网络蜘蛛

    搜索引擎完整源码自带网络爬虫功能,spider网络爬虫+数据库+界面源代码

    网络蜘蛛及搜索引擎原理

    高性能网络机器人是新一代Web智能搜索引擎的核心,网络机器人是否高效直接影响搜索引擎的效能的发挥。对开发高性能网络机器人所涉及的关键技术和算法进行了详细地分析。最后,给出了程序的关键类,有助于工程的实际...

    搜索引擎-网络蜘蛛程序源代码

    分词技术 排序技术 搜索引擎-网络蜘蛛程序源代码 搜索引擎机器人研究报告 中文全文检索网_全文检索相关知识介绍

    阿西搜索引擎蜘蛛爬行统计系统 v2.0

    百度蜘蛛爬行跟踪统计.0版本新增功能:对比1.0版本,我们增加了其它搜索引擎蜘蛛的跟踪记录,主要有 百度,谷歌,搜搜,搜狗,雅虎,Bing搜索引擎蜘蛛,能准确抓取并记录。 为了防止数据库占用空间,同时新增了清空...

    搜索引擎蜘蛛捕捉php版

    Spider是搜索引擎的一个自动程序。它的作用是访问互联网上的...搜索引擎的“蜘蛛”同一天会对某些网站或同一网页进行多次爬行,知道蜘蛛的运动规律,对于更新网页、了解搜索引擎收录的收录情况等等有相当重要的作用。

    贼狗搜索引擎v2.1商业版带蜘蛛本地采集程序

    贼狗搜索引擎v2.1商业版带蜘蛛本地采集程序

    商剑分布式网络蜘蛛(网络爬虫-spider)

    商剑分布式网络蜘蛛,性能高速运转,能耗尽全部带宽,可批量采集海量数据的网页,若几百台服务器安装商剑...更是搜索引擎-网络蜘蛛-网络爬虫-spider-网页抓取等技术的必备工具之一。http://www.100spider.cn/wspider.rar

    网络蜘蛛网络蜘蛛网络蜘蛛

    网络蜘蛛网络蜘蛛网络蜘蛛网络蜘蛛网络蜘蛛网络蜘蛛

    百度搜索引擎 蜘蛛技术

    鸟马自动链程序结合了自动链+搜索引擎技术。 强大的广告系统,竞价排名系统 中文分词,索引系统,蜘蛛技术 智能识别各种网页编码,减少了乱码出现的情况 智能导航系统,可自由地在后台修改导航信息 首页导航采用...

    搜索引擎蜘蛛访问日志查看器

    这个软件可以查看搜索引擎的蜘蛛访问记录,根据这些记录可以看到蜘蛛什么时候来访问过你的站,抓取了什么内容。 使用方法: ----插入asp页面调用 ----插入html页面JS调用 bot.mdb 记录数据库 访问 zhizhu.asp ...

    基于_网络蜘蛛原理_的搜索引擎技术剖析

    中文搜索引擎的查全率需保证不遗漏某些重要的结果,而且能找到最新的网页,这需要搜索引擎有一个强大的网页收集器(称为″网络蜘蛛″),一个优秀的搜索引擎,需要不断的优化网络蜘蛛的算法,提升其性能。...

    适合练手、课程设计、毕业设计的Java项目源码:网络爬虫(蜘蛛).rar

    适合练手、课程设计、毕业设计的Java项目源码:网络爬虫(蜘蛛).rar 适合练手、课程设计、毕业设计的Java项目源码:网络爬虫(蜘蛛).rar 适合练手、课程设计、毕业设计的Java项目源码:网络爬虫(蜘蛛).rar 适合练手、...

    用java做的网络蜘蛛搜索引擎

    网络蜘蛛 搜索引擎 这是一个用纯java代码的,输入一个网址后就可以搜索抓取网址,点击网址还可以打开网站。其中还用到树型结构的知识,很好很强大

Global site tag (gtag.js) - Google Analytics