`
txf2004
  • 浏览: 6886391 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
阅读更多

原来看到Google的Sitemap,不是很在意。虽然觉得这确实是搜索引擎偷懒的好办法,不用bot辛苦地去每个页面搜索了。但是要让用户主动提交内容,要有很大的号召力才行,否则很难成为标准。另外,创建Sitemap还挺麻烦的,一般的小站长估计不太容易学会。 事实上,Google的Sitemap也还不是很流行,特别在国内。

不过最近Google、微软与Yahoo最近达成协议,将使用统一的Sitemaps标准,所以原来使用范围仅局限Google网站管理员工具的sitemaps,也将被其他两家搜索引擎接受,而且未来或许会有更多搜索引擎采纳这个协议。看来站长们还是要会使用Sitemap,尽管目前在国内百度一家独大,其它三家合起来也是不可忽视的,该做的工作我们都得做呵呵。

目前Google用的Sitemap协议是0.84 ,而三家公司共同采用的将会是0.9版本,应该变化不大,暂时不用去理会它。

创建Sitemap小结:
1。创建Sitemap文件:
http://www.google.com/support/webmasters/bin/answer.py?answer=34654&hl=zh_CN
Sitemap就是个XML文件,很简单,你完全可以自己编辑完成,只要保证语法正确。但是如果站点内容比较多,不可能手动写这些内容,所以我们要用到Sitemap的自动生成器。这个是Google提供的:

http://www.google.com/webmasters/sitemaps/sitemap_generator

也有很多第三方提供的生成器,甚至有在线版的,听起来很诱人,但是我懒得一一去试用了,还是用官方版本的东西比较放心。

首先要写一个配置文件:mysite_config.xml
里面:
<site
base_url="http://www.mysite.com/"
store_into="/www/site1/root/sitemap.xml.gz"
verbose="1"
>

然后使用生成器脚本,这是个python写的软件,在命令行下运行命令很简单:python sitemap_gen.py --config=mysite_config.xml

呵呵,就会在/www/site1/root/目录下生成sitemap.xml.gz,用
gzip -d sitemap.xml.gz

解压缩,会在站点根目录生成sitemap.xml。生成器执行生成文件后,还会告诉Google,你的SiteMap更新了。

现在你可以试用http://www.mysite.com/sitemap.xml访问,如果正常说明创建成功。创建成功后,提交给Google(https://www.google.com/webmasters/tools/),或者在首页放个链接即可。

二。在写配置文件时有几个要注意的地方

首先静态网站很简单,指定一下目录路径,生成器就会很聪明地去遍历相应的目录了:

<directory
path="/var/www/docroot"
url="http://www.example.com/"
default_file="index.html"
>

如果你的站点是动态网页,生成器没法得到每个地址(比如http://yoursite.com?articleid=234这种地址)因为这个工具是在命令行下运行,本地遍历目录而已,没有通过http连接来访问服务器。 所以你要在cofig.xml中利用apache的用户访问日志来得到动态url地址(有个问题,如果站点里有些动态网页没人访问,岂不是就不能加在sitemap里了? 我也不清楚呵呵)

找到以下部分:

<!-- ** MODIFY or DELETE **
"accesslog" nodes tell the script to scan webserver log files to
extract URLs on your site. Both Common Logfile Format (Apache's default
logfile) and Extended Logfile Format (IIS's default logfile) can be read.

Required attributes:
path - path to the file
Optional attributes:
encoding - encoding of the file if not US-ASCII
-->
<accesslog path="/etc/httpd/logs/mysite-access.log" encoding="UTF-8" />

还有,有些网页你不想被Google搜索到,可以使用过滤器:

<filter action="drop" type="wildcard" pattern="*private*" />
<filter action="drop" type="regexp" pattern="/\.[^/]*" />

drop表示不列入Sitemap,第一条规则用的是通配符,表示所有包含private字符串的url都不列入Sitemap。第二条用的是正则表达式,表示不列出*nix系统下的隐藏文件或目录(文件/目录名为.abc)。

分享到:
评论

相关推荐

    sitemap-php:用于生成Google Sitemap XML文件的库

    快速,轻量级的类,用于生成Google网站地图XML文件和网站地图文件的索引。 用PHP编写,并使用XMLWriter扩展名(libxml xmlWriter API的包装器)来创建XML文件。 默认情况下,PHP 5&gt; = 5.1.2中启用了XMLWriter扩展。...

    laravel-sitemap:轻松创建和生成站点地图

    轻松生成站点地图 此程序包可以生成站点地图,而无需手动向其... 您也可以手动创建站点地图: use Carbon \ Carbon ; use Spatie \ Sitemap \ Sitemap ; use Spatie \ Sitemap \ Tags \ Url ; Sitemap :: create

    sitemap.xml

    Sitemaps协议使网站能够告知搜索引擎网站中可供抓取的网址,以便于搜索引擎google等更方便地抓取网站。而sitemap.xml是遵守该协议的包含了一个网站所有链接的... sitemap.xml文件创建好了之后可以提交给各个搜索引擎。

    sitemap-generator-cli:通过抓取给定站点来创建XML-Sitemap

    从命令行创建xml网站地图。 通过抓取您的网站来生成站点地图。 使用流将站点地图有效地写入驱动器。 如果达到阈值,则可以创建多个站点地图。 尊重robots.txt和meta标签。 目录 安装 该模块在上可用。 npm ...

    sitemap-creator:创建与 Google 和 Bing 支持的标准 sitemaps.org 协议兼容的 XML 站点地图文件

    创建与 Google 和 Bing 支持的标准 sitemaps.org 协议兼容的 XML 站点地图文件 #特征 使用 PHPCrawl 类来抓取/抓取网站并创建 URL 集,同时所有 PHPCrawl 方法和选项都可以通过类访问。 能够使用各种选项计算...

    express-sitemap-xml:从Express中的URL列表中提供sitemap.xml

    express-sitemap-xml表达中间件以从URL列表提供 创建一个Express中间件,该中间件通过URL列表提供sitemap.xml 。 该软件包自动处理具有50,000个以上URL的站点地图。 在这种情况下,将生成多个站点地图文件以及一个...

    Telerik.Sitefinity.Samples.Sitemap:Sitemap示例项目展示了如何创建一个Sitemap模块,该模块为您的站点生成一个对搜索引擎友好的sitemap.xml文件。 因此,您可以享受SEO的好处,让搜索引擎了解您的网站结构

    Sitemap示例项目展示了如何创建一个Sitemap模块,该模块为您的站点生成一个对搜索引擎友好的sitemap.xml文件。 该文件对于较大的站点地图非常有用,像Google这样的搜索引擎可以为其生成站点地图。 该站点地图将出现...

    sitemap-generator:轻松为您的网站创建XML网站地图

    轻松为您的网站创建XML网站地图。 通过抓取您的网站来生成站点地图。 使用流将站点地图有效地写入驱动器,并异步运行以避免阻塞线程。 如果达到阈值,则可以创建多个站点地图。 尊重robots.txt和meta标签。 此...

    sitemap generator-开源

    一个用 ASP 编写的快速简单的站点地图创建器,支持 utf8 和 gb2312。您可以在 http://www.vtalkback.com/sitemap 上测试新版本,输入您的 url,按提交。将弹出页面保存为“sitemap.xml” . 上传到您的服务器并告诉...

    Sitemap Creator-开源

    Sitemap Creator是一个PHP类,用于创建与Google和Bing支持的标准sitemaps.org协议兼容的XML Sitemaps文件。 功能使用PHPCrawl类对网站进行爬网/蜘蛛处理并创建URL设置,同时可通过该类访问所有PHPCrawl方法和选项。 ...

    solidus_sitemap:提供您的Solidus商店的站点地图

    gem 'solidus_sitemap' , github : 'solidusio-contrib/solidus_sitemap' 捆绑您的依赖项: $ bundle install 运行安装程序,它将创建一个config/sitemap.rb文件,其中包含一些合理的默认设置: $ rails g solidus_...

    ghost-sitemap:为您的幽灵博客生成站点地图

    Ghost 站点地图生成器是强大的 npm 模块,可为您的 Ghost 博客创建站点地图,就像微风一样。 我设置了一个幽灵博客,并意识到没有简单的方法可以为您的幽灵博客生成和发布站点地图。 砰! 理想情况下,生成一个...

    稻草人企业站 v1.0.7 GBK.rar

    调用管理方便,程序可以开启伪静态功能,后台能编辑删除文件,后台能进行数据库管理、备份等操作,生成百度sitemap、Google sitemap功能,留言发邮件功能。 稻草人企业站程序 v1.0.7升级 1、增加安装时选择已有...

    not-indexed-pages:查找未跨越Sitemap和Google Analytics(分析)的索引页面

    获取所有未由Google编制索引的页面 描述 该软件包将您的站点地图与您的Google Analytics(分析)帐户进行比较,以获取在一定日期范围内未编入索引的所有页面,并返回具有以下内容的JSON和CSV文件: 未编入索引:未...

    algolia-sitemap:节点库,可让您根据Algolia索引生成站点地图

    然后,您可以将/sitemaps/sitemap-index.xml上传到Google,以便为您的页面建立良好的索引! 它是如何工作的? Algolia索引中的所有条目 每链接,将在所选文件夹中生成一个sitemap.n.xml(其中n是索引) 浏览完...

    SiteMapX_setup.exe

    SiteMap X不仅能帮助您快速制作引导性的、适用于Google、Bing、Yahoo、Baidu等各大搜索引擎的网站地图,更能帮助您分析网站内部链接优化情况、发现网页问题(诸如错链、死链等影响网页SEO排名的因素),而最重要的...

    8CMS企业网站管理系统 1.0.rar

    一键生成 SiteMap ,谷歌批量收录 放于网站根目录下,文件格式 .xml 实名模式 以产品名称为文件名,如 Iphone.html 比较适合应用于外贸网站 设计师应用: 可视标签 不需要懂程序即可完成整站功能嵌套 前台...

    网站地图:Laravel的Google网站地图构建器

    Sitemap是专门为Laravel构建的软件包,可帮助您为Google生成XML Sitemap。 基于此软件包的运行方式略有不同,可以更好地满足我们项目的需求。 外观用于访问站点地图类,并且我们增加了生成站点地图索引和站点地图的...

    Simple Sitemap Creator:轻量级的跨平台站点地图生成器-开源

    一个简单的应用程序,可抓取网站并创建与HTML和Google Sitemaps兼容的XML Sitemap。

Global site tag (gtag.js) - Google Analytics