9/03/2009 01:41:00 下午
发表者: Susan Moskwa, 网站管理员趋势分析员 原文:
Advanced Q&A from (the appropriately-named) SMX Advanced 发表于: 2009年8月6日星期四 上午7:28
初夏时节, SMX大会升级版 在我们的美丽城市西雅图再次登陆。本次SMX大会的水平确实很进阶。在问答环节我收到了很多问题,其中一些问题需要我回去做一些研究才能给出解答。在此,正如我已经承诺的,是对这些问题作出的解答。问: 我们听说谷歌目前就 Flash内容的索引 做得比以前 更好 了。如果我的一个Flash文件需要从外部文件中抽取内容,而这个外部文件已经被 robots.txt 屏蔽,Flash文件的内容还会被收录吗(Flash文件并未被robots.txt屏蔽)?或者谷歌不能索引到该内容? 答: 我们目前还无法抓取被robots.txt阻止的文件中的内容。所以即使人们能够看到内容(比如在Flash中看到),搜索引擎还是无法抓取到该内容。要了解更多细节,请查看Flash索引现在可以加载外部资源了! 一文。问: 基于用户行为习惯或者点击流量提供定制内容的网站已经变得越来越普遍了。如果一个用户从搜索结果网页进入我的站点,我能根据用户的搜索词来为他们定制网页内容或者重定向用户吗?或者这种行为有可能被认为是 隐藏真实内容 ?例如,如果一些人搜索“古董浮雕吊坠”,但是却在我的站点上点击了“古董珠宝”网页,那么如果我了解了他们的搜索目的,我可以将他们重定向到我的古董浮雕吊坠的特定网页吗?答: 如果你将用户重定向至或者为用户返回的内容与Googlebot在这个URL上看到的内容不一样的话,(例如,在 google.com 的参考内容或查询字符串),我们就认为这是隐藏真实内容。如果搜索用户想要点击“古董珠宝”的搜索结果,你应该为他们如实提供网页内容,哪怕你认为另一个不同的网页可能会更好。你可以在你的网页上将相关网页链接起来(例如,从你的“古董浮雕吊坠”链接到你的“古董珠宝”网页,反之亦然。这样,任何人不论从任何来源登录这些网页,都能跨页浏览);但是我们不认为你应该代替用户决定他们想看到什么样的网页。问: 即使是向不同的访问者提供不同内容,谷歌认为常规非恶意网站测试(例如A/B或者多变量测试)是不违反 谷歌网站管理员指南 的。原因之一是,尽管搜素引擎可能只看到了网页的初始内容,而看不到其替换版本,但是还有一定比例的用户看到的是同样的初始内容,因此这些测试并不是特意为了搜索引擎而做。 然而,一些测试服务通常推荐站长们在实验完成之后以合并各种成功因素的网页形式应用于100%的流量一段时间,进一步验证转换率是否理想。这种情况会被谷歌视为隐藏真实内容吗? 答: 为了验证实验结果是否正确,在一段时间内将各种成功因素合并并应用于100%的流量中,是可以被接受的。然而,正如我们在关于这个主题的文章中指出的,“如果我们发现一个网站在几个月里百分之百地运行一个单一的非原创的网页集成,我们将会把这个站点从我们的索引中移除。”如果你想要确认实验的结果但是又担心“究竟多久才算很久”,请考虑运行一个跟进的实验,在其中你可以通过网页集成来发送大部分的流量,但仍然发送原始网页给一小部分访问者作为一种控制。这就是谷歌关于自己开发的测试工具—网站优化器的建议。问: 如果一个网页的HTTP标头所标明的字符编码与在meta equiv="Content-Type"标签里所指定的不同,谷歌会关注哪一个?答: 两者我们都会关注,并且会基于网页内容做一些处理或者推测。如果两者不同但都可用,那么大多数的主流浏览器会优先使用HTTP标头中标明的字符编码。然而,如果你发现两者不一致,最好的办法就是选定其中之一!问: 谷歌如何处理URL中的三字节UTF-8编码的国际字符(例如中文或者日文字符)?这类URL在一些应用中无法识别。谷歌可以正确地处理这样的字符吗?换句话说,谷歌是否能理解 www.example.com/%E9%9D%B4是否同www.example.com/shoes一样与“鞋子”相关? 答: 我们可以正确处理在URL中的路径和参数中出现的%已转义的UTF-8编码字符,同时,我们也了解用这样形式编码的关键字。就一个域名中的国际字符而言,我们建议使用punycode 式编码而非%式编码,因为一些比较旧版本的浏览器(如IE6)并不支持非-ASCII码域名。 如果你还有其他问题,就请加入我们的 论坛 吧。
标签: Google索引
固定链接
3个评论
7/17/2009 02:36:00 下午
发表者: Janis Stipins,软件工程师
原文:Flash indexing with external resource loading 发表于:2009年6月18日 晚上11:27
我们刚刚在 Flash索引 方面添加了加载外部资源的特性。这意味着当一个SWF文件从其他文件(比如text, HTML, XML和其他SWF等文件)加载内容的时候,我们也能索引这些外部内容,并把它与原SWF文件和其他任何引用了这些内容的文件联系起来。 这个新的特性有助于提高搜索质量,因为它使得包含在外部资源里的相关内容也能够出现在用户搜索词的结果里。比如,下面这条URL出现在[ 2002 VW Transporter 888 ]的搜索结果里: 在这个特性发布之前,这个结果并不包含在里面,因为所有的相关内容都是包含在由一个SWF文件加载的外部XML文件里。 目前,当Google在网络上碰到SWF文件时,我们能够: 索引那些作为用户和这个文件交互时才显示的文字性内容。我们能够点击SWF文件中的按钮并输入内容,就像一个用户做的那样。 支持通用的Flash文件中内嵌的JavaScript技术,比如SWFObject和SWFObject2。 索引采用AS1和AS2脚本的站点,即使ActionScript是模糊的。2009年6月19日最新更新:现在我们也能索引采用AS3的脚本。ActionScript的版本在索引过程中不是特别有相关性,因此我们不仅支持新版本的AS,同时也支持老版本的AS。 如果您不想让您的SWF文件或其他外部资源被搜索引擎抓取到的话,请添加恰当的 robots.txt指示 。
标签: Google索引
固定链接
7个评论
6/15/2009 02:10:00 下午
发表者: Kavi Goel, Ramanathan V. Guha, 和Othar Hansson 发表于: 2009年5月12日星期二,下午12:00
作为一个网站管理员,您或许对您的网页和网页所表达的内容有着格外精深和独特的理解。 Google通过展示一小段网页摘要的方式来帮助用户找到所需要的网页。我们采用了多种技术手段来生成这些网页摘要,帮助用户了解他们即将访问的网页的主要内容。今天,我们发布了丰富网页摘要(Rich Snippets),这是应用在Google 算法中的一种新的网页摘要展现形式,来强调网页中的结构化数据。
丰富网页摘要帮助用户一眼就能了解搜索结果的概要信息。我们现在支持关于产品及服务评论和人物信息的数据。当搜索一种产品或服务时,用户能够很容易地看到该产品的评价和打分,当我们搜索一个人的时候,这些信息将帮助用户区分同一名字的不同人物对象。这是一个对搜索结果展示进行的并不复杂的变化,但是我们的实验却表明,用户发现这些新数据很有帮助---如果他们 在某一网页的网页摘要中看到了更有用和更相关的信息,他们更倾向于点击这个网页。现在我们 把这个成功的实验扩大,让更多的网站能参加进来。做为一个网站管理员,您可以使用标准格式结构化数据注释您的网页,从而也参加到这种新的网页摘要方式中来。
为了显示丰富网页摘要,Google会在网站的源代码中搜索那些很容易就能加入到网页中的标记格式(microformats 和 RDFa)。在大多数情况下,它就像使用一些额外的标记将您网页现有的数据包装一下那样快捷。比如,这里有从Yelp's对“Drooling Dog BarBQ”的商品评价中,在没有添加标记数据之前摘取的几行HTML代码: 现在我们为它添加了micorformats标记:
或者,也可以使用RDFa标记,这种标记同样也奏效:
通过在您的网页添加标准注释,您不仅能够使您的结构化数据适用于Google搜索结果,而且也适用于其他遵守同样标准的服务和工具。随着结构化数据在网络的普及,我们希望能为它找到更多的应用,而且我们也欣喜地发现这种可能性的确存在。
为了保证这些新数据对用户尽可能有用,在广泛收集用户反馈的同时,我们将逐渐推出新的功能,覆盖更多的网站。同时,我们将尽最大努力来监控和分析是否有个别网站在滥用这个系统,如果这种现象存在的话,我们也将马上采取行动。
如果您希望您的网站也能加入新的丰富网页摘要和并分享其他由结构化数据带来的益处的话,您可以参考这个关于结构化数据和注释的 帮助文档 。
现在,我们将回答一些您可能会提出的问题:
如果我将我的网页标记化了,是否一定保证我的网页能展示丰富网页摘要?
并不能。我们将逐渐推出这些新功能,并且我们还将一直使用我们自己的算法和政策来确定符合用户查询的更相关的网页摘要。当我们确信使用结构化数据能帮助用户更快找到所需信息的时候,我们将使用这些结构化数据。您在您的网页应用了结构化数据,您可能也会希望其他网站或工具(浏览器,电话)也能使用这种数据。您可以填写一下 这个表单 让我们了解您希望参加这个计划。
其他现存的microformats呢?除了商品评价和人物之外,你们还支持其他类型的信息么? 并不是所有的microformat都对搜索结果展示有用,但是我们计划支持更多的现有的microformats和RDFa。
我的网页数据太多了,不容易标记,怎么办? 这不是一个麻烦的问题。对于把数据融入网页摘要来说,我们并不需要所有的数据:很多数据并不适用。比如,一个网页宣称有关于某个商品的497条评论,但实际上仅有10条的具体数据,其他都是来自于其他网站。即使您将这497段数据都做了标记,我们也无法将它们都应用于一条网页摘要。为了让您能更容易地参与这项宏大的实验,我们已经定义了一些必要的集成类型:一个集成的用户评价将被用来总结所有的评价信息(评价数目,平均打分/最高分/最低分,等等)。
你们为什么要支持多种编码? 结构化数据应用的很多前期工作都集中在关于编码的讨论上。即使在Google内部,有支持microformat的声音,也有支持不同RDF编码的声音,当然也有支持我们自己编码的声音。但是在丰富网页摘要项目进行了一段之后,我们意识到网络上的结构化数据应该而且能够兼容多种不同的编码:我们希望能通过同时兼容microformat编码和RDFa编码来强化这一观念。
标签: Google索引
固定链接
23个评论
6/04/2009 04:15:00 下午
发表者: 谷歌搜索质量组 在我们参加今年4月厦门SMX大会的时候,公益性搜索引擎优化网站——Dunsh.org 的创始人之一希望谷歌能经常回答他们用户共同关心的问题。虽然我们一直鼓励各位网站管理员、站长直接到谷歌网站管理员支持论坛 与谷歌以及谷歌用户交流,提出问题并分享经验,我们也还是愿意回答从其他渠道收集的问题。收到点石用户的问题后,谷歌搜索质量小组的成员已经作了回答。在这里通过博客的形式,我们将我们的回答公布出来,并和广大网站管理员和谷歌用户分享。 问:Google认为有效的外链的原则 ?除了webmaster 提供的帮助,是不是还有注意的地方? 答:外部链接,也称为导入链接,指的是从外部网站的页面上链回您的网站的链接。网站在 Google 搜索结果中的排名,部分取决于针对网页链接的分析。 链接的数量、质量和相关性都会影响网站的排名。 外部链接能够给您的网站带来新的用户,但只有当这些链接是有价值的、网站编辑自愿选择的链接时,他们对于谷歌来说才会成为衡量您网站重要性的正面因素之一。并且起作用的不仅有指向您的网站的链接数目,还有这些链接的质量和相关性。相关性高的、高质量的反向链接是影响抓取、收录和排名的200多个因素之一。 需要提醒的是,请不要参与旨在增加你的网站排名或PageRank的链接方案,因为这样做违反了 Google 网站管理员指南,可能对网站在搜索结果中的排名产生负面影响。这些不良的链接方案的主要示例包括: • 企图操纵 PageRank 的链接 • 链接到网络上的违禁网站或"恶邻" • 互惠链接或交换链接(即"你链接我,我链接你")过多 • 购买或销售用于提升PageRank 的链接 您可以阅读Google网站管理员中心的帮助文章 《链接方案 》、《了解导入链接 》及链接专题系列博客 ,了解更多关于链接的信息。此外,《 谷歌搜索引擎优化初学者指南 》中也有很多关于外部链接的帮助信息,欢迎您阅读参考。 问:“sandbox”现象如何避免? 答:关于“沙盒效应”,健飞在去年南京SMX大会上曾经回答过,具体内容可以参考会议之后的一篇谷歌中文网站管理员博客的文章: 南京SMX大会 Part II 。问:在Google管理员中心举报了付费链接,那个站PR还是升了,似乎没什么用? 答:大多数搜索引擎都在努力排除旨在控制搜索引擎结果的链接和用于提升PageRank的链接买卖和交换。Google也不例外。Google鼓励也非常感谢大家向Google举报付费链接。需要强调两点: 1.并非所有付费链接都违反Google的网站质量指南。如果是以广告宣传为目的,而不是为了操控搜索结果,那么购买和销售链接的行为就属于正常的网络经营活动。以广告宣传为目的而进行购买的链接应指明此种性质。一个简单的方法是将 rel="nofollow" 属性添加到<a> 标记中。详见关于 rel="nofollow" 。2.如果您发现一个网站为了操控搜索结果而在买卖链接,请举报该网站。您的信息将对我们非常有帮助。我们会认真查看每一个付费链接举报。但是Google的系统对于一个网站的处理会考虑很多因素,处理的结果可能会跟举报人的期望有差别。这里推荐一篇来自谷歌网站管理员帮助中心的文章《 我为何应向 Google 举报付费链接 》。问:如何提高Google的收录量和收录质量?最近Google的收录好像降的特别厉害,有什么注意的地方? 答:在我们的《谷歌搜索引擎优化初学者指南》中,对于如何优化您的网站,给出了诸多建议。下面列举其中一些建议:
对网站管理员来说,提供高质量的、对用户有益的内容恐怕是各种要素里最重要的一部分。用户很容易分辨您提供的内容是否是高质量的,并且他们也乐意于通过博客文章、网上社区、电子邮件,论坛和其他方式向自己的朋友推荐您的网站,这种口口相传的效应会给您带来更多的用户,同时也会提高您的网站在用户和搜索引擎中的声望,而这一切都离不开高质量的内容。 网站应具有清晰的层次结构和文本链接。每个网页应至少可以通过一个文本链接打开。链接可帮助我们的抓取工具找到您的网站,并提高您的网站在我们的搜索结果中的展示率。搜索引擎是基于文本的。Googlebot很容易识别Html。对于像图片、视频以及动态生成的内容和Flash文件,以及使用JavaScript、框架、DHTML 等技术的网站,Googlebot在抓取此类网站时可能会遇到麻烦。我们建议您使用文本浏览器如Lynx来检查您的网站,因为大多数搜索引擎抓取工具查看您网站的方式与Lynx 几乎一样。更多建议请您参考阅读《 谷歌搜索引擎优化初学者指南 》。 至于收录数量,只是一个大概的估算值。收录数量的突然变化也许是我们的收录算法或统计方法发生了变化,发生这种现象时,应注意跟踪谷歌给你的网站带来的流量是否也剧烈下降。如果流量变化很大,我们推荐通过Google网站管理员工具检查是否有抓取错误,并检查有无违反Google网站质量指南。请参看 网站管理员指南 。
问:请问Google对死链接是如何处理?
答:死链接对网站不一定会造成负面的影响,但是死链接可能会降低网站的用户体验。对于死链接的处理,大体可以分为以下两种情况:
1) 如果一个页面是被另一个不同的页面所替换,我们建议大家使用301重定向的方法。
2) 通过使用好的404页面,可以使一些没有被收录的页面,仍然被用户找到他们需要的东西。我们同时建议大家能够使用Google网站管理员工具里的增强型404页面小工具,具体的方法可以参考 自定义您的 404 网页 。
问:如何让自己的网站有机会加入“资讯”新闻的行列?
答:加入Google资讯有两种途径:
1) 发送URL: 资讯发布商与支持人员联系 。2) 提交 资讯站点地图 。
我们会对这些网站进行审核,具体可以参照我们的 资讯发布者帮助中心 。
标签: Google , Google索引
固定链接
16个评论
4/22/2009 11:00:00 上午
发表者: Doantam Phan, 软件工程师 & Raj Krishnan, 网站链接产品经理 原文: One-line sitelinks 发表于:2009年4月16日星期四,上午11:00
您或许已经对
网站链接 有了一些了解,网站链接就是出现在第一条搜索结果下方并指向该网站某具体页面的链接。网站链接使用户可以直接浏览一个网站的某个重要部分,对于较大型和较复杂的网站来说,这个功能尤其有用。网站链接还能通过突出显示网站最受欢迎的频道从而帮助用户对这个网站的内容有一个宏观的了解。对网站管理员来说,网站链接可以帮助您展示和介绍那些您网站上还不为人熟知的内容。比如,搜索
NASA ,您会看到
图片库 的链接被突出显示了出来,您可以找到
航天飞机和国际空间站的使命 ,以及其他一些有趣的信息:
以前,网站链接只出现在第一个搜索结果中,也就是说对某个特定查询词来说,只有一个网站可以拥有网站链接。现在我们启动了网站链接扩展:不在搜索结果第一位、以前不会显示网站链接的搜索结果,现在也有机会拥有单行的网站链接。这意味着对于某一特定查询词,现在有可能有多个结果拥有网站链接。在新的形式 下,最多四个网站链接可以成一单行出现在某一搜索结果URL之上,而不是只有第一个搜索结果拥有两列多行的网站链接。以下是一个示例,其中两条搜索结果都拥有单行的网站链接。
这些单行的网站链接拥有很多完整版两列网站链接所具有的优越性,只不过是在一个更小的范围内:他们向用户展示一些该网站下的相关深层网页,让用户了 解这个网站的内容。比较各网站的网站链接还有助于区分网站间的差异。就像常规的网站链接一样,单行的网站链接也完全是由算法自动决定的,究竟何时展示及究竟展示哪几个链接都完全取决于是否会对用户带来益处的预期。
对网站管理员来说,这个新功能意味着对某些查询词来说,您的网站有可能也会开始显示网站链接了。我们希望这项功能能增加您网站的展示率和流量,并同时进一步改善用户体验。当然,如果您不希望您的网站在搜索结果中展示网站链接,您可以通过
网站管理员工具 设置90天内不显示网站链接。实际上,作为改善网站管理员工具的努力之一,我们现在正在加速对类似的屏蔽调整的响应,所以您的调整会比以前生效更快。如果您要了解如何屏蔽网站链接的具体操作的话,您可以参考
这篇帮助文章 。目前您只能屏蔽网站主页上的网站链接,我们正在努力扩展这个功能,相信不久您就可以对整站所有网页的网页链接都加以控制。
我们希望这些关于网站链接和网站管理员工具的改进对您的网站和用户都带来更好的体验!
标签: Google索引 , 网站管理员小贴士
固定链接
11个评论
3/23/2009 01:11:00 下午
发表者: Charlene Perez
, 搜索质量组 原文:
Using stats from site: and Sitemap details 发表于:2009年3月4日星期三,下午4:40
在与网站管理员相关的博客和论坛中,我们经常可以听到这样的讨论:网站管理员们对他们的网站进行[site:example.com]查询的时候,经常发现被索引的页面数量通常和网站管理员工具中的Sitemap报告展示的URL数量不一致。这种不一致看起来很像是一个bug,但实际上我们是有意这样设计的。您的Sitemap报告仅仅反映了您在Sitemap文件中提交的URL,而site:操作符则包含了所有Google已经抓取的您的网站上的 URL,这有可能包含一些没有囊括在您Sitemap文件内的URL,比如新添加的URL或其他通过跟踪链接而抓取到的URL。
您可以把site:操作符作为一个快速诊断您的网站整体健康情况的方法。site:操作符可以向您展示:
您的网站被索引的页面数量的粗略估计值 如果您的网站被黑掉了 ,那么您可以从中发现一些蛛丝马迹 观察您的网站有无重复的网页标题和内容摘要 下面是一个使用site:操作符的例子:
您的Sitemap报告提供了关于您提交的URL的详细统计数据,比如实际被索引的URL数目与请求被索引的URL数目,此外这份摘要还会显示Google尝试抓取您提供的URL时是否存在任何错误或错误提醒。
您可以通过阅读帮助中心关于
site:操作符 和
Sitemap 的帮助文章来进一步了解相关信息。如果您有进一步的问题,欢迎您到
谷歌网站管理员支持论坛 中发贴提问,那里有很多有经验的站长和谷歌员工乐意帮助您:-)
标签: Google Webmaster Tools , Google站长工具 , Google索引
固定链接
17个评论
2/27/2009 11:17:00 上午
发表者: Joachim Kupke , 资深软件工程师; Maile Ohye, 开发者项目技术带头人
原文:
Specify your canonical
发表于: 2009年2月12日星期四,12:30 PM
您可能会对URL形式不同造成的重复内容有所担心 ,谷歌现在支持一种新的功能,使您可以指定您喜欢的URL格式。如果您的网站通过多种不同形式的URL向访问者提供完全相同或非常类似的内容,那么通过这种功能您可以自主控制出现在搜索结果中的您网站的URL格式。同时这也有 助于将那些影响您网页声望值的因素更固定地指向您所青睐的URL格式上。
让我们以一个出售瑞典鱼的网页 为例,假设我们所青睐的URL格式和所对应的内容是下面这样的:
http://www.example.com/product.php?item=swedish-fish
然而,访问者和谷歌机器人实际上可以通过另外的URL形式访问到这一内容。尽管URL的核心部分与您青睐的URL格式很相近,但是他们依据排序的参数或分类浏览种类的不同而向用户提供略有差别的网页。
http://www.example.com/product.php?item=swedish-fish&category=gummy-candy
或者,也有可能他们有着完全相同的内容,但是URL看起来并不相同,比如下面的URL还带有跟踪参数或者会话ID:
http://www.example.com/product.php?item=swedish-fish&trackingid=1234&sessionid=5678
现在,您可以将如下语句 <link rel="canonical" href="http://www.example.com/product.php?item=swedish-fish"/>
加入到其他您不倾向于在搜索引擎出现的URL的 <head> 代码中,就能指定您喜欢的URL格式。
比如您不希望以下两种URL格式在搜索结果中出现:
http://www.example.com/product.php?item=swedish-fish&category=gummy-candy
http://www.example.com/product.php?item=swedish-fish&trackingid=1234&sessionid=5678
只要您将上文中的 语句加入到上述两个网页的<head>代码部分,那么谷歌就会知道以上两个网址实际上是被建议指向您指定的标准URL: http://www.example.com/product.php?item=swedish-fish 上。 其他的URL属性,比如PageRank和相关的其他因素,也都会自动指向该标准URL。
这个标准同时也被其他搜索引擎在抓取和索引您网站时所接受和使用。
以下我们将以FAQ的形式,解答一些您可能存在的疑问:
从强制性与否来说,请问rel="canonical"是一个建议,还是一个指令?
是一个建议。这是一个我们非常自豪的功能,您可以以此提示搜索引擎考虑您对URL格式的喜好。
我能用相对路径来指定我的URL规范么,比如 <link rel="canonical" href="product.php?item=swedish-fish"/> ?
可以,在这里使用相对路径是可以被正确识别的,如果您在代码中指定了
link,那么相对路径都会以此base URL为基础。
我可以将URL范式使用在不是完全相同内容的其他网页上吗?
我们允许这些网页之间有些细微差别,比如归在不同类目下的同一产品网页。
如果被指定为规范格式的URL返回404,怎么办呢?
我们会继续访问和抓取您的内容,并应用一些联想功能去寻找一个URL范式,但是我们强烈建议您将一个可访问的URL设置成URL范式。
如果我指定的URL范式并没有被索引会怎样?
就像网络上所有的公共内容一样,我们会努力发现和寻找您指定的URL范式,一旦我们索引到它,我们就会立即将您的rel="canonical"付诸考虑。
我的URL范式可以是一个重定向URL么?
可以,您可以指定一个发生重定向的URL作为URL范式,谷歌会继续跟踪这个重定向并尝试去抓取它。
如果我不小心指定了互相矛盾的URL范式怎么办?
不用担心,我们的算法是很聪明并宽容的,我们会跟踪抓取这个URL范式链,但是我们还是强烈建议您尽快将URL范式指定为特定单一URL形式,从而确保您的搜索结果早日得到优化。
这个link tag可以被用来建议一个在其他域名上的URL么?
不可以。如果您需要转移到一个不同的域名上,那么301永久重定向对您来说更合适。谷歌现在只能认可在不同子域名下的URL范式的指定。所以,站长们可以将
www.example.com 和
example.com , 及
help.example.com 互相指定为范式,但是不能将
example.com 和
example-widgets.com互相指定为范式。
听起来不错,能给我举一个现实中的例子么?
我们有一个真实的例子wikia.com 。比如,您在 http://starwars.wikia.com/wiki/Nelvana_Limited 的源代码中可以发现,该网页已经把 http://starwars.wikia.com/wiki/Nelvana指定为了URL范式。通过使用 rel="canonical",两个网页的PageRank被整合计算,避免了分散计算的流失,同时搜索结果中也只会包含网站管理员所指定的URL形式。
如果您未能应用URL范式指定您心仪的URL形式,您也不要担心,我们会尽我们最大努力,选择一个更优化的URL形式,并将声望等属性值进行相应转移处理,就像我们
以前做的那样 (英文)。
补充:这个link tag现在也被Ask.com,微软Live Search和Yahoo!搜索等搜索引擎所支持。
标签: Google索引 , 网站管理员指南
固定链接
28个评论
2/05/2009 01:33:00 下午
发表者: Chewy Trewhella, 开发技术推广者 原文:
Date with Googlebot, Part II: HTTP status codes and If-Modified-Since 发表于: 2008年11月27日星期四,中午12:12
我们 与谷歌机器人的上一次约会 棒极了,但网站们还对响应代码感到比较困惑,不知道自己返回的响应代码是否正确。我们的服务器返回了 301 永久重定向代码,但在什么情况下我们应该返回 302 临时重定向 ? 如果我们返回一些新的 "404 文件无法找到 " 代码, Googlebot是否不会再访问我们的网站?我们应该支持标头 (header)" If-Modified-Since" 吗?这些问题让人困惑不解,就好像懵懂的爱情一样。为了少一点诸如此类的烦恼,我们来问问专家 —— 谷歌机器人,看看他怎样评价我们的响应代码。
支持"If-Modified-Since"标头和返回304代码有利于节省带宽
——————
亲爱的谷歌机器人,
最近我给我的网页做了一次大扫除,删除了一些陈旧的、无用的网页。现在这些网页都返回 404" 页面无法找到 " 代码 ,这么做合适吗?还是我让你感到困惑了? — Frankie O'Fore
亲爱的Frankie,
404代码是告知网页已不存在的标准方式,对此我不会感到困惑,因为旧网页从网站上删除或更新是很正常的事情。大多数网站都会在网站管理员工具的抓取诊断中显示一些 404 错误。这绝对不是什么大问题。只要您有良好的网站架构并能链接到所有您可抓取的网页,我就会很高兴,因为我能籍此找到我需要的任何信息。
但是别忘了,不仅是我来访问你的网页,也会有很多访问者看到你的网页。如果你只是显示简单的 "404 页面无法找到 " 的信息的话,不了解的访问者可能会很迷惑。其实有许多办法可以让你的无法显示的页面变得更加友好,最便捷的一个方式就是使用谷歌网站管理员工具上的 404小工具 ,它能够帮助访问者找到那些真正存在的内容。大多数的主机托管商,无论大小,都允许你自定义你的 404 页面(同样适用于其他返回代码)。
爱你的 ,
谷歌机器人
嘿,谷歌机器人 ,
我读了上面你给Frankie的回复,我有一些问题。如果有人链接到我网站上不存在的页面怎么办?我该怎样才能确保那些访问者能够找到他们想要的东西呢?此外,如果我想移动一些页面该怎么办?我想更好地组织我的网站,但是我很担心这会让你感到困惑,我该怎样让你更明白我的网站呢? — Little Jimmy
Jimmy你好,
让我们先不考虑你问题的先后顺序,从最核心的问题来回答吧。首先,我们来看一下来自其他网站的链接,很显然,这些链接可能是你网站的一个重要的流量来源,而且你不希望访问者看到的是一个不友好的 " 页面无法访问 " 的信息。因此,你可以利用强大的重定向来解决这些问题。
最常用的两种重定向是 301 和 302 。事实上还有更多的重定向,但这两种是目前与我们联系最紧密的,正如 404 , 301 和 302 是可以发送给用户和搜索引擎机器人的不同种类的响应代码。 301 和 302 都是重定向,但 301 为永久重定向、 302 为临时重定向。 301 重定向可以告诉我这个页面以前是什么样、目前转移到了什么地方等等。它可以完美地用于重新建构你的网站,并对重新计算被指向的新网页的声誉有很大帮助。每当我看到 301 永久重定向,我就会把所有指向旧网页的外部链接自动作为重定向后新网页的声誉计算因素。这不是很方便么?
如果你不知道怎样实施这些重定向的话,我可以帮你入门。这主要取决于你的 web 服务器,此外这里有一些搜索结果会比较有帮助: Apache: http://www.google.cn/search?q=301+redirect+apache IIS: http://www.google.cn/search?q=301+redirect+iis 你也可以参考服务器所附带的手册或自述文档。
作为重定向的另一个替代办法,你可以向链向您网站的网站管理员发送电子邮件,请他们更新链接指向。不能确定哪些网站指向你是吗?不用担心,我的谷歌同事们已经让这变得轻而易举了。在网站管理员工具的“链接”部分中,你可以输入你网站的某个具体 URL 来查阅哪些外部链接指向了该网页。
我的谷歌同事们最近还发布了一个新的工具,可以显示所有链向你网站中不存在网页的 URL ,你可以 在此 了解更多。
永远乐意为你效劳的 ,
谷歌机器人
亲爱的谷歌机器人,
我有一个问题。我生活在互联网中一个充满活力的地方,我不断改变对事物的看法。当你问我一个问题,我绝不会说出同一个答案两次,我的网站上的头条内容每个小时都在变化,我总会想到新的内容。你看起来像一个很直爽的人,希望得到直接的答案。当我的网站内容频繁更新的时候,我该怎么让你明白又不使你感到困惑呢? — Temp O'Rary
亲爱的 Temp ,
我刚刚告诉Jimmy通过 301 永久重定向来告知谷歌机器人你的新网址,但是你描述的情况则不同,应当适用于 302 临时重定向。对某一特定已经被索引的 URL,如果你想告知你的用户该 URL的地址是正确的,但是想访问的内容可以临时在另一个地址找到,那么使用 302临时重定向(或更为罕见的 "307 临时重定向 " )是一个既礼貌又妥当的方式。例如, Orkut将用户从 http://orkut.com 重定向 到 http://google.com/accounts/login?service=orkut ,但当检索Orkut*时,这个 URL 并不是一个具有实际检索价值的网页,而且是在另一个域名下。因此,使用 302 临时重定向可以告诉我,不要把属于 http://orkut.com 的内容和反向链接计算到重定向后的目标网址上——因为它只是一个临时页面。
这就是为什么当您搜索 orkut时,您看到的是 orkut.com,而不是那个更长的 URL。
请记住:直接沟通是保持良好关系的关键。
你的朋友,
谷歌机器人
*请注意,在这里我把 URL做了简化,使它更易读。实际的 URL要远复杂于此。
谷歌机器人上尉 ,
我是一个经常重新设计和组织的网站。我注意到很多网站链接的 URL都是我在很久以前就删掉的 URL。我已经为这些已删除的 URL 设置了指向新 URL的 301永久重定向,但在这之后我又对网站做了重新设计,很多上述新的 URL也不存在了,于是我又用 301永久重定向来让它们指向更新的 URL。现在我很担心,在抓取的时候,沿着这些指示,你很可能会不断地抓取到一连串的 301重定向,而最终导致你可能放弃未来对我网站的抓取。 — Ethel Binky
亲爱的 Ethel,
听起来好像你已经设置了很多嵌套重定向的 URL 。好吧,天哪!如果次数比较有限的话,这些 " 重复重定向 " 是可以被理解的,但我们或许应当首先思考一下你为什么要这样做。如果你把中间环节的 301重定向统统移除,并将我直接引导到该 URL的最终目标网址,你将为我们彼此节省大量的时间和 HTTP 请求。但是不要仅仅想到我们两个,想想其他访问者可能早已经厌倦了在状态栏中不断看到反复的 “ 连接 … 加载 … 连接 ” 的冗长过程。
设身处地地想一想,如果你的重定向开始看起来都相当长,用户们很可能担心你已经把他们推入到一个无限死循环中。机器人和人类都会害怕那种 “ 无穷无尽的重复 ” 。相反地,试着消除那些重复重定向,或至少保持他们尽可能短一些,我们就可以体谅一下广大访问者!
设想周到的谷歌网络机器人
亲爱的谷歌机器人 ,
我知道你一定是很喜欢我,要不然你就不会隔段时间就发出抓取我某一网页的请求,即使他们的内容从来没有改变过,就好像我的十年内都没有变化的大学论文一样。但是这些现在开始变成我的一个麻烦了,有什么办法可以帮助我不让你来占用我珍贵的带宽吗? — Janet Crinklenose
Janet, Janet, Janet,
看起来你应该学会一个新的名词 —— “ 304 未修改”。如果我之前曾经访问过一个 URL ,那么我会在我的请求中插入一个 " If-Modified-Since" 。此行还包含一个 HTTP 格式的日期字符串。如果你不想再向我重复发送一遍该文档,那么你只需要向我发送一个正常的并带有 "304 未修改 " 状态的 HTTP 标头。我很喜欢这样的信息。当你这么操作的时候,你没有必要再向我重复发送该文档,这就意味着你不用浪费你的带宽,而我也不会觉得你又在用老掉牙的重复内容糊弄我。
你很可能会注意到很多浏览器和代理服务器也会在标头上显示 " If-Modified-Since " ,你也可以这么做来抵制滥用带宽的行为。
现在就开始行动,节省更多的带宽吧!
谷歌机器人
——————
谷歌机器人对我们真是太有帮助啦!现在我们知道应该怎样更好地响应用户和搜索引擎了。下次我们再相聚的时候,就该和这个老朋友坐下来促膝谈心了 (与谷歌机器人的第三次约会 即将发表,敬请关注! )。
标签: Google索引
固定链接
6个评论
1/16/2009 09:35:00 下午
发表者: John Mueller, 网站管理员趋势研究员 原文:
A new Google Sitemap Generator for your website 发表于: 2009年1月13日星期二, 上午5:12
2005年6月 我们推出了
Python Sitemap 生成器 ,距今已经三年有余了。在此期间,许多网络爱好者自己开发了
第三方的Sitemap生成器 ,这些都有助于网站站长们创建更好的Sitemap文件。大多数现有的Sitemap生成器要么依靠爬行相应的网站,要么是把一个服务器上的文件都列出来,而我们开发的Sitemap生成器不同于这些现有的Sitemap生成器,谷歌Sitemap生成器能采用多种方式搜寻您网站上的URL,并允许站长自动创建和维护多种不同类型的Sitemap文件。
关于谷歌Sitemap生成器 新的
谷歌Sitemap生成器 是完全开放源代码的,通过分析您网站服务器的访问、日志文件和服务器上存在的文件,谷歌Sitemap生成器可以发现新的URL和最近发生过变动的URL。综合这些手段,谷歌Sitemap生成器能够迅速找到这些URL,统计相应的元数据,从而使您的sitemap文件能尽快生效。一旦谷歌Sitemap生成器成功采集到这些URL,它就能为您生成以下Sitemap文件:
不仅如此,谷歌Sitemap生成器还能通知谷歌博客搜索 ,您的网站有了新的或更新过的URL。您还可以把Sitemap文件的URL地址放在您的robots.txt文件中,并通知其他支持sitemaps.org 标准的搜索引擎。
之所以能够把URL发送给正确的Sitemap,要归功于基于网络的管理控制系统,这种控制系统使您能够利用各种各样的功能轻松管理您的网站,同时还能确保高度的安全性。
现在就开始使用吧
谷歌Sitemap生成器是一个服务器端的插件,既可以安装在基于Linux/Apache的服务器上,也可以安装在基于微软 IIS 视窗系统的服务器上。像其他的服务器端插件一样,您需要有该服务器的管理权限才能安装。您可以在谷歌Sitemap生成器帮助文档 (英文)里找到更多有关安装的信息。
我们很高兴能够发布开源版的谷歌Sitemap生成器,我们希望籍此能够鼓励更多的主机服务提供商将此工具或类似的Sitemap工具加入自己的主机软件包里!
您还有与之相关的其它问题么?请访问我们的谷歌Sitemap生成器支持论坛 (英文)或在我们的网站站长支持论坛 中提出您的问题。
标签: Google Webmaster Tools , Google站长工具 , Google索引
固定链接
46个评论
10/16/2008 01:21:00 下午
发表者: Juliane Stiller 与 Kaspar Szymanski,搜索质量组 原文: Dynamic URLs vs. static URLs 发表于:2008年9月22日,下午3: 20
在跟网络管理员沟通时经常会出现这种情形,一些广为传播的理念可能在过去是正确的,但是可能已不再切合目前的情况了。当我们最近在跟几个朋友谈及关于网址的结构时就碰到这种情况。其中一个朋友很担心动态网址的使用,甚至认为“搜索引擎无法处理动态网址”。另外一个朋友觉得动态网址对搜索引擎来说完全不是问题,那些都是过去的事了。还有一个甚至说他从来都搞不懂动态网址和静态网址相比有什么区别。对于我们来说,这一刻使我们决定要好好研究一下动态网址和静态网址这个话题。首先,让我们来界定一下我们要谈论的主题: 什么是静态网址? 一个静态网址,顾名思义,就是一个不会发生变化的网址,它通常不包含任何网址参数。例如:http://www.example.com/archive/january.htm。您可以在搜索框里输入
filetype:html 在谷歌上搜索静态网址。更新此种类型网址的页面会比较耗费时间,尤其是当信息量增长很快时,因为每一个单独的页面都必须更改编译代码。这也是为什么网站管理员们在处理大型的、经常更新的网站,像在线购物网站、论坛社区、博客或者是内容管理系统时,会使用动态网址的原因。
什么是动态网址? 如果一个网站的内容存储于一个数据库,并且根据要求来显示页面,这时就可以使用动态网址。在这种情况下,网站提供的内容基本上是基于模板形式的。通常情况下,一个动态网址看起来像这样:
http://code.google.com/p/google-checkout-php-sample-code/issues/detail?id=31 。您可以通过寻找像? = & 这样的符号识别出动态网址。动态网址有一个缺陷是不同的网址可以拥有相同的内容。这样导致不同的用户可能链向含有不同参数的网址,但是这些网址却都含有相同的内容。这也是为什么网络管理员有时候想要将这些动态网址重写成静态网址的原因之一。
我是不是应该让我的动态网址看起来是静态的呢? 在处理动态网址时,希望您能了解以下几点事实:
要正确地生成和维护从动态网址到静态化网址的重写转变实际上是一件很难的事情。 将原始的动态网址提供给我们会比较安全,请让我们来处理诸如探测和避开那些有问题的参数的事情。 如果您想重写网址,请去掉那些不必要的参数,同时请保持它动态网址的样子。 如果您想提供一个静态网址代替动态网址,那么您应该切实地生成相应的静态内容。 静态和动态网址,Googlebot对于哪一个识别得更好呢? 我们碰到过很多网站管理员,像我们的朋友那样,认为静态或者看起来是静态的网址对于网站的索引和排名是有优势的。这种看法是基于这样一个假设,即认为搜索引擎在抓取和分析含有会话标识(session ID)和来源追踪器(source tracker)的网址时是有问题的。然而,事实是,谷歌在这两个方面都有了相当的进展。就点击率来说,静态网址可能略微有些优势,因为用户可以很容易地读懂这个网址。但是,就索引和排名来说,使用数据库驱动网站并不意味着明显的劣势。相比较将参数隐藏以使他们看起来是静态的网址来说,我们更希望网站将动态的网址直接提供给搜索引擎。
现在,让我们来看一些有关动态网址的广为传播的看法,并且来纠正一些蒙蔽网站管理员的假说。:) 传说:“动态网址不能被抓取。” 事实: 我们可以抓取动态网址并且解释不同的参数。如果您为了让网址看起来像是静态的,而隐藏那些可以给谷歌提供有价值信息的参数,这样做反而会给该网址的抓取和排名带来麻烦。我们的建议是:
请不要将一个动态网址改换格式以使其看起来是静态的 。尽可能地使用静态网址来显示静态内容是可取的,但在您决定展示动态内容的情况下,请不要将参数隐藏起来从而使他们看起来像是静态的,因为这样做会删除掉那些有助于我们分析网址的有用信息。
传说:“动态网址的参数要少于3个。” 事实: 对于参数的数量是没有限制的。但是,一个好的经验是
不要让您的网址太长 (这个适用于所有的网址,不论是静态的还是动态的)。您可以去掉一些对于Googlebot来说不重要的参数,给用户一个好看一点的动态网址。如果您不能确定可以去掉哪些参数,我们建议您将动态网址中所有的参数都提供给我们,我们的系统会弄明白哪一些是不重要的。将参数隐藏起来会影响我们正确地分析您的网址,我们也就不能识别这些参数,一些重要信息可能也因此丢失了。
下面一些是我们认为您可能会存在疑问的一些问题。 这是否意味着我应该完全避免重写动态网址? 这是我们的建议,除非您能确保您只是去掉多余的参数,或能够把所有有可能有不良影响的参数完整地删除。如果您把自己的动态网址任意修改使其看起来像是静态的,您要清楚这样做是有风险的,有可能会导致有些信息不能被正常地编译和识别。如果您想给您的网站再增加一个静态的版本,请您一定要提供一个真正意义上的静态的内容,比如生成那些可以通过网站相应路径而获取的文件。如果您仅仅是修改了动态网址的表现形式,而没有真正提供静态的内容,那么您有可能适得其反。请直接把标准的动态URL提供给我们,我们会自动找出那些冗余的参数。
你能给我举一个例子么? 如果您有一个像下面这样标准格式的动态网址:foo?key1=value&key2=value2,我们建议您不用改动它,谷歌会决定哪些参数可以去掉;或者您可以为用户去掉那些不必要的参数。不过要慎重,仅仅去掉那些不重要的参数。这里有一个含有多个参数的动态网址的例子:
www.example.com/article/bin/answer.foo?language=en&answer=3&sid=98971298178906&query=URL
language=en – 标明这篇文章的语言 answer=3 – 这篇文章含有数字3 sid=8971298178906 – 会话标识代码是8971298178906 query=URL – 使这篇文章被找到的查询是[URL] 并不是所有的参数都提供额外的信息。所以将这个网址重写为www.example.com/article/bin/answer.foo?language=en&answer=3 可能不会引起任何问题,因为所有不相关的参数都去掉了。
下面是一些经过认为修改而看起来像是静态网址的例子。相比较没有重写、直接提供动态网址来说,这些网址可能会引起更多抓取方面的问题。
www.example.com/article/bin/answer.foo/en/3/98971298178906/URL www.example.com/article/bin/answer.foo/language=en/answer=3/ sid=98971298178906/query=URL www.example.com/article/bin/answer.foo/language/en/answer/3/sid/ 98971298178906/query/URL www.example.com/article/bin/answer.foo/en,3,98971298178906,URL 如果您将动态网址重写成如上所述的示例的话,可能会导致我们很多不必要的抓取,因为这些网址中都含有会话标识(sid)和查询(query)参数的可变值,这无形中生成了很多看起来不同的URL,而他们包含的内容却是相同的。这些格式让我们很难理解通过这个网址返回的实际内容和参数URL以及98971298178906是无关的。不过,下面这个重写的例子却将所有无关的参数都去掉了:
www.example.com/article/bin/answer.foo/en/3 尽管我们可以正确地处理这个网址,我们还是不鼓励您使用这样的重写。因为它很难维护,而且一旦一个新的参数被加到原始的动态网址,那么这个网址就需要马上更新。不这样做的话就会再次导致生成一个隐藏了参数的貌似静态网址的URL。所以最好的解决方法是通常将动态网址保持他们原来的样子。或者,如果您去掉不相关的参数,请记住一定要保持这个网址是动态的:
www.example.com/article/bin/answer.foo?language=en&answer=3 我们希望这篇文章能够对您和我们的朋友有帮助,使围绕动态网址的各种推测清晰化。如果您有更多的问题的话,欢迎加入我们的
网站管理员支持论坛 进行讨论。
标签: Google索引 , 网站管理员指南
固定链接
14个评论
9/02/2008 08:24:00 上午
发表者:Sahala Swenson, 网站管理员工具组 原文:
Make your 404 pages more useful 发表于:2008年8月19日星期二,上午10:13
网站的访问者会由于多种原因在访问您的网站时碰到
404“网页不存在” 的情况:
输错了网址,或者复制粘贴网址时出错 所点击的网页上或者email信息里的链接已经失效或不完整 该网页的内容已经被移动或删除 在碰到404页面时,访问者可能会尝试手动纠正这个错误的网址,或者点击返回按钮,甚至会直接离开您的网站。正如较早前发表在“网站管理员中心404专题周 ”的一篇文章 中提到的,您可以采取多种方法帮助网站访问者走出这个死胡同。为了将404页面变得更加有用,我们刚刚在网站管理员工具 里添加了“增强型404页面”工具。如果您已经创建了一个自定义404页面 ,此功能允许您在404页面嵌入一个小工具。这个小工具可以基于错误的网址提供建议,从而帮助访问者找到他们想找的东西。
举例来说:Jamie在email里收到这样一个链接
www.example.com/activities/adventurecruise.html 。由于email客户端的格式问题,这个网址被删减成
www.example.com/activites/adventur 。所以,一个404页面就自然而然地出现了。然而,在嵌入这个404小工具后,她就可以看到如下信息:
除了试着纠正错误网址以外,这个404小工具还提供下面的建议(如果可用的话):
一个指向上一级子目录的链接 一个网站地图页面 网站查询的建议和搜索框 那么您怎么才能添加这个小工具呢?请访问网站管理员工具的“工具”板块,其中的“增强型404页面”工具,可以让您生成一段JavaScript代码片段。您可以将其复制粘贴到您的自定义404页面的代码里。当然,请不要忘记返回正确的404状态码 。 我可以改变它的外观吗?当然可以。我们在初始状态下没有对HTML页面进行任何修饰,但是我们已经将CSS代码部分包括进来,您可以对其进行编辑。想要了解更多这方面的信息,请查阅更改自定义404小工具的外观的帮助文章 。 此功能目前处于实验阶段,我们可能无法为您的网站提供更多改善的建议,但我们会努力提高覆盖面。与此同时,欢迎您在文末的评论栏或者网站管理员支持论坛 里发表您的看法。感谢您帮助我们使Internet变得更友好更便捷!
(译者注:本文译自英文网站管理员博客,所以所有图示均采用英文原图,文中提到的小工具已有中文版本,欢迎您注册谷歌网站管理员工具 并使用“增强型 404 页面”小工具! )
标签: Google索引 , 网站管理员小贴士
固定链接
9个评论
8/28/2008 08:09:00 上午
发表者: Maile Ohye,开发者项目技术带头人 原文:
More on 404 发表于:2008年8月15日星期五,下午2:52
既然我们已经跟软404代码说再见 了,作为404代码专题周 的继续,本文将继续回答一些与404
状态代码相关的比较迫切的问题。 你们如何处理410“ 已删除” 状态代码? 与404代码的处理相同。 对于返回404状态代码的网页,你们是否对网页的内容进行收录或者抓取上面的链接呢? 我们会尽可能地去了解您的网站及其内容。所以,尽管我们不想在搜索结果里向用户展示返回404状态代码的页面,但是我们可以把该页面上的内容或者链接(如果能探测到的话)作为一个线索来帮助我们更好地了解您的网站。 同时,请记住如果您想让您的链接和内容被有效抓取和收录的话,将这些链接和内容放在一个非404页面上会更有益处。 如果返回404状态代码,然后使用 meta refresh 10秒后进行页面刷新呢? Yahoo!公司现在对于他们的 404页面使用这种方法进行处理。他们返回404代码 ,同时其页面内容也包括: <meta http-equiv="refresh" content="10;url=http://www.yahoo.com/?xxx"> 我们赞同此项技术,因为这样做可以减少对用户的困扰,用户有10秒钟时间来做一个新的选择,如果在此期间用户没有任何输入, 10秒钟结束后页面就会自动跳转到主页。 我应该将网址拼写错误导致的404页面使用 301永久重定向到正确的网址吗? 如果重定向/301重定向返回 404代码的页面对用户有帮助(比如,不像软 404代码那样让人困惑),那么这样做就是一个不错的主意。举个例子,如果您看到您的网站管理员工具的抓取错误栏里显示了一个对于拼写错误的网址返回 404的抓取错误 ,您就可以将此拼写错误的网址 301重定向到正确的网址。 比如,如果我们在抓取错误里看到这样一个404错误: http://www.google.com/webmsters <-- webmasters拼写错误 如果网站真的存在这个拼写错误的网址的话,我们可以首先纠正它,然后使用301将其永久重定向到正确的网址(因为这个无效链接可能在其它网站也存在): http://www.google.com/webmasters 你们有没有见过一些好的404页面? 是的,我们见过!(坦白地说:从来没有人问过我们这个问题,但是没有几个问题能像讨论响应代码这么有趣。:)
)这里我们把一些我们比较喜欢的 404页面收集起来,以飨读者。如果您还有更多 404相关的问题,请告诉我们。同时,谢谢您参与“ 404代码专题周”活动!
http://www.metrokitchen.com/nice-404-page “如果您找的东西没有存货了(像我一样),这个页面可以很容易让您找到替代品。” -Riona , 国货粉丝 http://www.comedycentral.com/another-404 “ 要怪就怪搜索引擎机器人吧。 ” -Reid , 爱好讲冷笑话 http://www.splicemusic.com/and-another “这样的 404页面可以吸引用户在您的网站上停留更长的时间。” -Susan , 音乐和分析方面的业余爱好者
http://www.treachery.net/wow-more-404s “这个页面虽然看上去肯定不是真的,但是它传达的信息很明确。” -Jonathan , 曾经训练蜘蛛去创建网站,训练蚂蚁去处理 404错误
http://www.apple.com/iPhone4g “从可用性的角度来说非常好。”
http://thcnet.net/lost-in-a-forest “至少还有一个信箱吧。” -JohnMu , 爱好冒险
http://lookitsme.co.uk/404 “这个看起来非常可爱。 :)” -Jessica , 喜欢一切可爱的事物
http://www.orangecoat.com/a-404-page.html “流程图引领您找到正确的方向。” -Sahala , 互联网漫步者
http://icanhascheezburger.com/iz-404-page “如果有问题的话,我可以使用有用的链接或者 e-mail地址。但是他们如果能够加上‘噢,此页面不存在!您或许打错了网址,或者此链接无效?’,这样大家就可以知道发生了什么。” -Adam , 摇摆舞爱好者
标签: Google索引 , 网站管理员小贴士
固定链接
4个评论
8/20/2008 01:58:00 下午
发表者: Maile Ohye , 开发者项目技术带头人 原文:
Farewell to soft 404s 发表于: 2008年8月12日星期二,下午2:54
在网络上,我们可以看到两种 404( ”文件无法找到 ”)响应代码: "硬 404代码 "和 "软 404代码 "。我们不鼓励使用所谓的 "软 404代码 ",因为它们可能会对用户和搜索引擎造成困惑。对一个不存在的 URL,那些提供 "软 404代码 "的网站不是返回一个 404响应代码,而是返回一个 200响应代码。然而,伴随这种 200响应代码的内容通常是该网站的首页或者是一个错误信息的页面。
一个软 404 代码的用户体验是怎样的呢?这里有一个软 404 代码的模型:这个网站对一个不存在的 URL 返回一个 200 相应代码以及这个网站的首页。
如上图所示,软 404 代码会给用户带来困惑,而且搜索引擎也会花很多时间在您的网站上爬行和索引一些并不存在、而且经常重复的 URL 。这会给您网站的索引覆盖率造成负面影响 —— 由于 谷歌 机器人被这种代码误导并花了大量时间爬行一些并不存在的网页,您的一部分含有独特内容的网页反而有可能无法被及时发现,或者不能被经常性访问。
如果不返回一个软 404 代码,我应当怎么做呢? 更好的做法是返回一个 404 响应代码,而且向用户清晰地说明这个文件无法找到。这样做将使搜索引擎和用户都得到更愉快的体验。
返回404响应代码
向用户返回更明确的信息
我的服务器可以返回 404 代码,但同时向用户发送一个有帮助意义的 " 无法找到 " 的消息么? 当然可以做到!在今后的 " 404 专题周 " 里您可以看到更多相关信息!
标签: Google索引 , 网站管理员小贴士
固定链接
11个评论
8/20/2008 01:24:00 下午
发表者: Maile Ohye , 开发者项目技术带头人 原文: It's 404 week at Webmaster Central 发表于:2008年8月11日星期一,下午1:40 近期我们将发表一系列博客,帮助您正确使用404
响应代码。 响应代码是网络服务器在响应一个 URL
的浏览请求时返回的数字形式的状态代码(比如 200
代表“成功”, 301
代表“永久移动”)。如果请求的某一文件“无法找到”,那么服务器端将返回一个 404
响应代码。 当用户对您的网页发送请求时,您的服务器就会搜索这个URL
所对应的文件。如果这个文件存在,您的服务器就会返回一个 200
状态代码以及相应信息(通常就是这个网页的内容,比如该页的 HTML
代码)。 那么什么是 404呢?以图示中的指向“ Visit Google Apps”的链接为例,由于在进行编码时出现了拼写错误,这个链接失效了。如果有用户点击” Visit Google Apps”,这个特定的网页(文件)无法被服务器正确定位。这时,服务器将会返回一个 404响应代码,表示“无法找到”。
现在我们了解了 404代码的基本知识,欢迎您继续关注近期即将推出的更多关于“如何使用对用户和搜索引擎都友好的 404代码”的相关文章,包括:
标签: Google索引 , 网站管理员小贴士
固定链接
2个评论
7/16/2008 03:47:00 下午
作者: Ron Adler, Janis Stipins, Maile Ohye 原文: Improved Flash indexing 发表于:2008年6月30日星期一,晚上9: 31
我们收到过许多期望我们改进对 Adobe Flash
文件索引问题的建议。今天,索引团队的软件工程师 Ron Adler
和 Janis Stipins
,将就我们最近在 Flash文件
索引编制上取得的改进与大家进行更深入的探讨和交流。 问: 目前哪些 Flash文件能更好地被谷歌索引到呢? 我们改善了对所有类型SWF
文件中的文字内容的索引能力,其中包括像按钮或菜单这样的 Flash
“小工具”,独立自成一体的 Flash
网站,以及所有介于两者之间的 Flash
形式。 问:这些Flash 文件中的哪些内容能被谷歌更好地索引呢? 用户在与您的Flash
文件互动过程中所看到的一切文本内容都将得到更好地索引。如果您的网站包含 Flash
,其中的文字内容会被Google用来生成您网站的摘要。同时,出现在 Flash
文件中的文字可以用来匹配用户在 Google
搜索框中输入的搜索查询。 除了索引Flash
文件中的文本内容,我们现在也能够识别在 Flash
文件中的出现的 URL
,并且把这些链接纳入搜索引擎机器人爬行的目标队列中,就像对待那些非 Flash
网页中出现的 URL
一样。例如,如果您的 Flash
应用程序中包含指向您网站内部页面的链接,Google现在能够更好地发现并抓取您的网站。 问:那么Flash 文件中包含的非文本内容呢,比如图片? 目前,我们只能识别和索引Flash
文件中的文本内容。如果您的 Flash
文件里只有图片,我们将不能识别和索引出现在这些图片中的任何文字。类似地,如果一个 Flash
按钮没有任何附属的文字的话,我们将无法对这类指向特定链接的 Flash
按钮生成任何錨文本。 还应注意到的是,我们无法索引 FLV
文件,比如在 YouTube
上播放的视频,因为这些文件没有包含任何文字元素。 问: Google 是怎样识别 Flash 文件里的内容呢? 我们开发出了一种算法,这种算法可以使Google机器人能够模仿人类通过点击按钮、输入内容等方式来了解Flash
文件。我们的算法能够记住沿途它遇到的所有文字内容,其后这些内容都能被索引到。我们无法告诉您更多的保密细节,但是我们可以告诉您,通过使用 Adobe
的新型可检索性 SWF
数据库,这种算法的有效性得到了进一步提高。 问:我怎样做才能使Google 索引到我的 Flash 文件中出现的文本呢? 基本上,您不需要做任何事情。我们已经取得的技术改进,使这项功能的实现,无需网页设计者或网站管理员做任何特别的操作。如果您的网站上有Flash
内容,我们会在现有技术能力的基础上,尽最大能力对它们自动进行索引(详见接下来的问题)。 也就是说,您应该了解 Google
现在已经可以识别那些展现在您网站访问者面前的文字信息。如果你希望 Google
忽略一些次要内容,如 "
版权 "
或 "
加载 "
等信息,您可以考虑把那些文本替换为图片,这样它们就不会被我们抓取到了。 问:在索引Flash 文件上, Google 遇到的主要技术难题是什么? 目前的问题主要体现在三个方面,这也正是我们在努力解决的:1
、 Googlebot
不能执行某些类型的 JavaScript
程序。因此,如果您的网页通过 JavaScript
加载 Flash
文件的话, Google
可能无法识别该 Flash
文件,在这种情况 下,它将不会被索引到。 2
、目前,我们还无法把那些通过您的 Flash
文件加载的外来内容和您的 Flash
文件整合起来。也就是说,如果您的 Flash
文件加载了一个 HTML
文件,或一个 XML
文件,或另一个 SWF
文件等等, Google
将分别索引这些资源,但是它们将不会被认为是您 Flash
文件内容的一部分。 3
、虽然我们能够索引在网络上出现的几乎所有语种的 Flash
,但在识别用双向语言书写的 Flash
内容还有一定困难。在这个问题解决之前,我们将无法识别和索引 Flash
文件中的希伯来文或阿拉伯文的内容。 但是,在这些问题上我们也已经取得了相当的进展,所以,敬请期待我们进一步的改进!附:
改进之前搜索结果中的Flash网站 改进之后搜索结果中的Flash网站, 搜索查询 [nasa deep impact animation]
标签: Google Webmaster Tools , Google站长工具 , Google索引
固定链接
10个评论
7/06/2008 11:37:00 上午
发表者:Sven Naumann,搜索质量组
原文:
Duplicate content due to scrapers 发表于:2008年6月9日星期一,上午3:40
重复内容一直是网站管理员们热议的话题之一,我们觉得很有必要对在各种会议上和
网站管理员支持论坛 中我们被问及的常见问题作以下统一解答。
在做深入探讨之前,我想先简要谈谈网站管理员们经常担忧的一个问题:在大多数情况下,网站管理员往往对擅自抄袭和传播自己内容的第三方无能为力。我们知道这并不能归咎于网站管理员们,这也就意味着同一内容出现在许多不同网站其本身并不理所当然地被认为是违反了
网站管理员指南 。这仅仅导致了Google必须增加一个额外步骤,即鉴别内容的原创来源,而这正是Google所擅长的,在大多数情况下原创内容源都能被正确地识别出来,从而不会给发布真正原创内容的网站带来负面影响。
一般而言,我们把网站内容雷同问题主要分为两种情况:
站内内容重复,比如同一内容(经常是无意识地)在您的网站内重复出现。 站间内容重复,比如您网站的内容(同样,经常也是无意识地)在其他网站重复出现。 对于第一种情况,您可以亲自动手解决Google对您网站上的重复内容进行索引的问题。您可以阅读 Adam Lasnik 发表的
Deftly dealing with duplicate content 以及Vanessa Fox 发表的
Duplicate content summit at SMX Advanced 。这两篇文章都提供了一些很好的建议,帮助您解决站内内容重复的问题。这里还有一个特别的建议帮助您避免站内内容被重复索引:您可以将您希望被抓取的URL序列包含在您的站点地图文件中。遇到包含同一内容的不同网页时,这么做有助于我们准确收录您真正想提供给用户的那部分内容。其他有关于站内内容重复的信息您可以参阅讨论此主题的有关“
帮助中心文章 ”。
第二种情形可能是有人剽窃了您网站中的内容,并将其展示在其他网站上牟利。同时,网络代理服务器也经常抓取通过代理方式访问的网站的部分内容。当在不同网站遇到相同内容的时候,我们会基于许多不同的依据来判断究竟哪个网站才是原创,而这样的判断通常是准确的。这也意味着,当您发现有人剽窃了您的内容时,您大可不必过分担心它对您的网站在谷歌搜索排名上的负面影响。
如果您将自己网站的内容与他人分享, 但同时还希望自己的网站被识别为原创来源的话,您需要请合作伙伴在其网站内容上添加指向您原创内容的链接。您也可以在Vanessa Fox最近发表的文章
Ranking as the original source for content you syndicate 找到其他有关处理这一问题的建议。
有些网站管理员会有这样的疑问: 什么原因会导致有时候抄袭内容反而比原创内容的排名还要高呢?这应该是个特例,但如果您真的遇到这种情况,请您务必做到:
检查一下您的内容是否能被我们抓取。您可能无意间在 robots.txt文件中阻止了部分内容被正常访问。 您可以检查一下Sitemap文件,看看您自己是否改动过那些被抄袭的特定内容。 检查您的网站是否符合网站管理员指南。 最后我想指出的是,在绝大多数情况下,含有雷同重复内容并不会对您的网站在谷歌搜索上的排名有负面影响。这些内容可能已经被过滤出去了。如果您参照上述提到的一些建议,您会了解到怎样才能更精确地控制搜索引擎抓取的内容以及出现在索引中的内容版本。只有被确认为蓄意或恶意抄袭时,雷同重复内容才有可能会被视为违反了网站管理员指南。
如果您想更深入地讨论这一话题,请浏览我们的
网站管理员支持论坛 。
如果希望阅读本文德语版,请点击阅读“
Duplicate Content aufgrund von Scraper-Sites ”。
标签: Google索引 , SEO , 搜索引擎优化
固定链接
23个评论
6/17/2008 06:02:00 下午
发表者 T.V. Raman ,研究学者原文:
Webmaster tips for creating accessible, crawlable sites 发表于:2008年4月14日 上午10:47
Hubbell和我正在我们位于加州的家中度假。欢迎您随时 阅读在此之前我为网站管理员们写的关于可用性 的博客, 以及我为谷歌官方博客所写的其他文章 。
对于 Accessible search ,网站管理员们最经常问的一个问题就是:我怎样才能提高我的网站在 Accessible Search上的排名?同时,网站管理员们还会问一个与之类似、但更为宽泛的问题:怎样才能提高我的网站在Google搜索上的排名?
我很高兴地告诉大家,这里有一个一举两得的办法:您可以建立和完善一些关键的网站特性,比如网站导航,这样它就能为所有用户服务,其中自然也包括谷歌机器人。下面是一些小建议,您可以参考。
确保所有重要的内容都能正常访问 为了使用户获取到内容,必须确保这些内容是可以访问的。用户及搜索引擎机器人都是借助超文本链接获取页面内容的,所以关键的第一步是确保您网站上的所有内容都可经由纯HTML 超文本链接访问到,并避免网站的关键部分被 JavaScript 或 Flash 等技术隐藏起来。 纯超文本链接是指通过HTML锚元素<a>生成的链接。下一步,我们要确保所有超文本链接指向的目标,即<a>元素,都是真实的URL,而不是一个空的、真正的链接行为已经被转到点击触发控制器上的链接。 简而言之,要避免下列超文本链接的形式: <a href="#" onclick="javascript:void(...)">Product Catalog</a> 我们推荐更简单的链接,如: <a href="http://www.example.com/product-catalog.html">Product Catalog</a>确保内容的可读性 只有具有可阅读性,网站内容才能发挥作用。请确保您网站上所有的重要内容都以HTML文件的形式呈现,并且在无须评估页面脚本的前提下就可以获取。对于谷歌机器人和绝大多数不知情的用户而言,Flash动画背后隐藏的内容和由可执行性JavaScript在浏览器端所产生的文本仍然是无法读取的。 确保内容按照适于阅读的顺序提供给读者 在获取可读内容后,用户希望能够按照合乎逻辑的阅读顺序跟进内容。如果您网站中的大部分内容采取了复杂的多栏布局设计,不妨退回去考虑一下您如何才能实现预期的效果。例如,使用深层嵌套的HTML表格会使人们难以将相关的文本按照合乎逻辑的顺序联系起来。 在HTML内使用CSS以及合乎逻辑、有组织的<div>元素,可以取得同样的效果。同时作为一个额外的收获,您会发现您的网站运行得更加快捷高效。 补充所有的视觉内容――不必担心重复! 让所有人都可以获得您的信息并不意味着让您把网站"降格"成为最简单的文本格式。最大限度地重复您的信息是很重要的,因为只有这样才能确保页面内容最大限度地帮助所有用户。这里有几个简单的小建议: 确保在图片缺失的情况下,用户仍然可以获得那些通过图片传播的内容。这不仅要在相关的图片上添加适当的ALT属性 ,还要确保图片周围的文字能够详细地介绍背景,让读者了解为什么这张图片会出现在这里;同时详细给出您期望人们看到这个图片后所得出的结论。简言之,如果您想确保每个人都知道此图片表现的是一座桥梁,那么您最好把该图片周围的文字也以拱形排列。 添加相关的摘要和标题,让读者在钻研细节之前可以获得高屋建瓴的信息概述。 在数据展示之类的视觉形象旁边添加详细的文字总结。 采纳上述建议可以大大提高用户登陆页面的质量。同时,作为一个额外的收获,您还很有可能惊喜地发现您的网站得到了更好地索引!
标签: Google索引 , SEO , 搜索引擎优化 , 网站管理员小贴士
固定链接
8个评论
5/04/2008 11:24:00 上午
发表者: Ríona MacNamara ,网站管理员工具组
发表于:2008年4月16日星期三,下午1:55 您正在计划为自己的网站更换新的域名吗?很多网站管理员发现这真是一个繁琐的过程。究竟怎样做才能不影响网站在谷歌搜索结果中的表现呢?
您希望这种迁移对于用户来说是毫无察觉地发生的,同时希望谷歌知道新页面应该与原网站页面得到相同的质量认可。当您迁移网站时,那些讨厌的 404 错 误提示(无法找到文件) 不仅会伤害用户体验,还会给您的网站在谷歌搜索结果中的表现带来负面影响。 本文将介绍如何稳妥地将您的网站搬到一个新域名 ( 例如从 www.example.com 变为 www.example.org )。这与将网站搬到一个新的 IP 地址是不同的,如果想了解这方面的内容请阅读此文 。 网站迁移的主要步骤如下:首先通过移动一个目录或子域名的内容来测试整个网站的迁移过程。然后使用 301 重定向功能 将原有网站网页重定向到您的新网站上。通过此方法可告知谷歌和其它搜索引擎:您的网站已经永久性地迁移了。 上述操作完成后,查看一下您新网站里的网页能否出现在谷歌的搜索结果里。如果您对这次小范围的迁移感到满意,就可以迁移整个网站了。请不要将旧网站中所有网页的流量都重定向到您的新主页上,这种一刀切式的重定向虽然会避免 404 错误,但它并不能为用户提供良好的体验。尽管页对页的重定向(旧网站中每一网页都重新定向到新网站的相应网页上)会带来更大的工作量,但这也会给您的用户带来更连贯和明晰的体验。如果在新旧网站中不是一对一的页面匹配,那么一定要努力确保旧网站中每一个网页至少要重定向到具有类似内容的新网页上。 如果网站因为要重新命名或重新设计而需变更域名,您可以分两个阶段进行:第一阶段,移动您的网站;第二阶段,开始重新设计。这样做,不仅可以掌控用户在每一阶段中感受到的变化幅度,而且可以使整个过程变得更顺利。把变化控制在最低限度可以使您更容易发现和解决各种意外情况。 为防止混淆和混乱,您最好继续持有对原网站域名的控制权限至少 180 天。 最后,确保您的新、旧网站都在网站管理员工具中得到验证,并定期检查抓取错误 ,确保来自旧网站的 301 重定向工作正常,同时新网站上也不会显示我们不想看到的 404 错误提示。 我们承认,迁移从来就不是一件容易的事 —— 但是,这些步骤能帮助您确保原有网站的良好声誉在迁移的过程中不受损失。
标签: Google索引
固定链接
20个评论