谷歌搜索引擎优化初学者指南

发表者: Brandon Falls , 搜索质量组
翻译者: 谷歌中国搜索质量组

原文: Google's SEO Starter Guide

发表于: 2008年11月12日星期三,上午11:55

网站管理员们经常在各类型会议或网站管理员支持论坛
中问我们这样的问题,“有哪些简单的方法可以提高我的网站在谷歌中的表现呢?” 对于这个问题,业界众说纷纭,有各种不同的答案,各种搜索引擎优化的知识介绍也层出不穷,这种情况某种程度上导致一些网站管理员初学者经常感到无所适从。我们觉得有必要编辑一个综合性的指南手册,介绍一些值得效仿的推荐方法,来帮助广大网站管理员提高自己网站的抓取和索引。

我们的谷歌搜索引擎优化初学者指南
涵盖了网站管理员需要考虑优化的诸多方面。这些方面(比如改善标题和描述元标签,URL结构,网站导航,网站内容的建设,锚文本......等等)适用于各种不同经验层次的网站管理员和不同规模和类型的网站。在这本指南里,我们还尽可能地为您提供图例,提醒您避免一些错误,并提供一些指向其他有用资源的链接。未来我们还会持续更新这本手册,补充更多新的优化建议,与当前的技术发展保持同步。

所以,下一次当我们被问到“作为一个SEO初学者,我应该怎样改进我的网站? ”这个问题的时候,我们就会回答:“这里有一些谷歌内部团队也正在使用的推荐方法
,您或许可以参考一下。”

值此新年到来之际,本指南的翻译者——谷歌中国搜索质量组的全体同事祝广大网站管理员节日快乐! :)

标签: ,



了解导入链接

发表者: Maile Ohye, 开发者项目技术带头人

原文: Good times with inbound links
发表于: 2008年10月9日星期四 晚上11: 17

导入链接指的是从外部网站的页面上链回您的网站的链接。导入链接能够给您的网站带来新的用户,而且当这些链接是有价值的、网站编辑自愿选择的链接时,他们对于谷歌来说也会成为衡量您网站重要性的正面因素之一。其他一些因素包括像我们对您网站内容的分析、和某个地理位置的相关性等等。就像很多人都知道的那样,相关性高的、高质量的导入链接会影响您网站的PageRank(我们排名算法的其中一个要素)。高质量的链接常常会很自然地链向那些具有引人注目的内容或者提供独特服务的网站。

这些指标是怎样融入排名算法的呢?

比如说我有一个网站叫example.com,提供给用户很多种不同的网站模板和网站设计的技巧。其中一个最重要的排名因素是我的网站的内容。除此之外,可能还有其他三个网站链向我,但是其中一个导入链接是来自一个垃圾网站。对于谷歌来说,我们只想要另外两个高质量的导入链接在排名中对于PageRank的计算起作用。

对于一个用户的查询,在返回最相关的结果给用户的过程中,有超过200多个因素(包括对于网站内容的分析和上面提到的导入链接)在起作用。


那么您怎样才能获得更多用户以及增加有价值的导入链接呢?

很多网站管理员都写过他们是如何成功的获取更多网站用户的。我们下面编辑了一些想法和资源,希望它们能够对所有的网络用户有所帮助。
在您的网站及网络上创建独特的、引人注目的内容

  • 创建博客:定期地制作一些视频,做一些原创的研究,发表一些有趣的帖子。如果您对网站的主题充满激情的话,是有很多种方法来获取更多用户的。
如果您对写博客特别感兴趣,请参阅我们帮助中心给博客们的特别建议
  • 教给读者一些新的事物,发掘新的新闻,或具娱乐性或具洞察力,展示您的专业知识,访问您所在行业的不同人物并且突出其让人感兴趣的方面。让您的网站具有价值。
  • 对于您感兴趣的话题,认真地参与相关的博客和用户评论。以此向网络社区提供您见解独特的看法。

  • 提供一个有用的产品或者服务。如果网站的访问者能够从您所提供的产品或者服务获中获得价值,他们更有可能链向您的网站。

欲了解更多可操作的想法,请参阅我非常喜欢的对Matt Cutts的采访中他提到的一些几乎不需要成本就能帮您提高网站流量的方法。对于网站管理员来说是非常好的初级读本。(即使在写这篇帖子之前,我已经将这个网址转发给很多朋友了。:)

寻求商业发展机会

使用网站管理员工具中“链接>含外部链接的网页”来了解其他对您的网站感兴趣的人。通过了解谁链向您以及他们是怎么链向您的来扩展您的网络社交。或许会有您以前没有意识到的新观众或用户群对您的网站感兴趣。例如,如果example.com的网站管理员注意到一些外部链接是从艺术学校过来的,他们就可能开始参与这个艺术社区——收到新的反馈意见,推广他们的网站和想法。

当然,要负责任地寻求在这个空间内可能出现的机会。不要从事大规模的寻求链接;没有人喜欢格式化的信函,而且也很少会有那些高质量网站的网站管理员对于这样的请求做出积极的反应。一般来说,很多在人际关系方面促成企业发展的成功技巧也可以应用到在线网站上。
现在您已经了解了更多关于内部链接导出链接和导入链接的信息(今天的帖子:),我们欢迎您在博客的评论中发表看法。也谢谢您参与我们的链接专题系列活动

最新信息——更多商业发展机会:

在网站管理员工具里调查您网站的“故障诊断>网络抓取/移动抓取>抓取错误来源”,不但可以纠正无效链接,也可以结识对您网站感兴趣的外部网站管理员。(在你们交谈的时候,看看他们是不是会纠正无效链接。:) 这是将无效链接转为免费链向您网站的比较重要的部分的绝佳方法。

除了联系这些网站管理员之外,您也可以使用301重定向将流量从旧的页面转向新的位置。这对于那些仍然收藏了指向您的旧页面的链接的用户是很有好处的,而且您也会很高兴地发现谷歌会将PageRank和其他一些信息通过这些重定向适当地传递到新的页面的。

标签: ,



以平常心看待导出链接

Linking out: Often it's just applying common sense
发表于:2008年10月8日星期三,上午12:20

我们链接专题系列的第三篇是关于创建导出链接,也就是怎样“链出去”。对于大多数网站管理员来说,导出链接是很自然的事情,不需要特别关注。然而,如果您对这个虽然简单但是对于网络来说却是很基本的话题感兴趣的话,下面我们将介绍一下什么是好的导出链接,什么又是不好的导出链接并回答一些网站管理员同行提出的比较典型的问题。首先,让我们从好的导出链接开始......

相关性高的导出链接能够帮助您网站的访问者。
  • 可以提供给读者关于相关话题的更深入的信息
  • 提供给读者对于现存资源的独特评述
理性的导出链接有助于建立您的信誉。
  • 显示您已经做过一些研究,对于此项主题有专门知识
  • 让访问者乐意于回访您的网站以获得对于将来话题的更多分析
  • 与其他领域的专家建立关系(如,给其他网站带来用户可以让您了解其他成功的博客从而建立商业关系)
当论及不理想的导出链接的案例时,大家应该不会感到吃惊,但是为了避免引起任何的困惑,我们会公开表明我们的观点。

不好的链接:无人管理的(特别是用户生成的)链接和隐晦的付费广告链接会降低您网站的可信度。
  • 您的信誉也会受损——资深访问者往往会觉得反感,并且您在搜索引擎的权威性也会降低。如果您接受付费的导出链接,最好对这些链接使用 rel="no follow" 元标记或者其他方式以确保他们不会(对于搜索引擎来说)传递PageRank。(您应该也会理解,作为一个用户,我们通常只会对那些充分保障我们的知情权的网站保持我们的忠诚度。)
  • 这样会给那些毫无意义的垃圾留言以藏身之地。而 且,从搜索引擎的角度来看,垃圾留言将您的网站与那些不好的网站联系在了一起。作为网站管理员,我们建议您对那些用户生成的链接,比如有可能遭到网络垃圾 侵扰的博客留言本,增加 nofollow属性(<rel="nofollow">),不然的话,请您确保这些评论只有在经过人工审核和确认后才能发表。
请参阅Jason Morrison最近发表的一篇帖子《让垃圾留言远离您的网站和用户》, 从一开始就阻止垃圾的产生。

关于导出链接问题的回答:

链出是否意味着我将访问者永远带给了别的网站?
网 站的访问者在开始的时候会离开您的网站以查看相关的信息。但是,您还记得当您遇到一个网站链向其他网站的好文章时您是怎么做的吗?对于我个人来说,如果网 站提供了有价值的评述和额外资源的话,我总是会回到这个网站的。有时候,我会留在初始网站上,而在浏览器的不同标签中打开那些有意思的链接。所以,拥有导 出链接的网站是很有可能赢得重复访问者的,您也不会永远失去这些用户。
上一篇帖子提到描述性的锚文本(anchor text)对于内部链接有帮助,那对于导出链接是不是也是很重要?
描述性的锚文本(超级链接的可见文本)有助于网络间的准确互联。它可以同时让用户和Googlebot更好地了解他们在跟随一个链接到达另外一个页面时将会看到什么内容。所以如果不是太麻烦的话,请尽量生成描述性的锚文本。
我是否应该关注我选择链向的网站?万一它们的PageRank比我低怎么办?

如果您相信您链向的内容会让您的用户感兴趣的话,请不用担心该网站的PageRank。作为一个网站管理员,关于导出链接我们应当注意的事项上文中已经向您介绍了,比如链向垃圾网站会降低您的可信度等。其他的话,我们无须为导出链接殚精竭虑,只要把它作为一种向您的用户提供更多价值的自然而然的方式就好了。

标签: ,



链接架构的重要性

发表者: Maile Ohye, 开发者项目技术带头人

原文:Importance of link architecture
发表于:2008年10月6日星期一 晚上10:51

作为链接专题系列的第二篇, 我们想与您讨论一下链接架构的重要性,并且回答您相关的问题。链接架构---您网站的内部链接方式——是您在网站规划中的重要部分,并对您的网站被搜索引擎的索引状况有重要影响。它也对谷歌机器人是否能找到您的各个网页并进而使用户能顺利访问到它们的起到决定作用。

确保您的核心网页只需通过首页的几次点击就能到达

您或许会认为比起目录式导航来说,用户可能更喜欢使用您网站上的搜索框,但是您的这种做法经常会为搜索引擎爬虫设置障碍,因为他们几乎无法做到在搜索框里输入文字搜索或在下拉菜单里浏览。因此,您需要确认您的重要网页都可以从首页点击访问,并让Googlebot方便地遍历您的网站。您最好建立一个链接架构,这样既便于用户浏览,也便于搜索引擎抓取。下面是一些具体的建议:

符合用户习惯的导航设置

您应该尝试将自己代入“用户”的角色,模拟用户的习惯来设计您的网站。比如说,如果您的网站是关于篮球的,想象您是一个想了解最佳运球技巧的访问者。
  • 我们先从首页开始吧,如果用户并不使用您网站的搜索功能和下拉菜单,他们能方便地通过你提供的导航链接找到他们想要的信息么(比如篮球巨星的运球技巧)?
  • 再比如说一个用户是通过一个外部链接找到您的网站的,但是他们首先到达的不是首页。不管用户首先来到的是哪一页,您都要确保他们能够顺利的找到首页及其他相关部分的链接。换句话说,您要确保您的用户不会迷失方向。您的用户能方便找到“最佳运球技巧”吗?像“首页>技巧>运球” 这样的导航能够帮助用户了解自己所处的网页层次。
为搜索引擎设置可抓取的链接
  • 文字链接是很容易被搜索引擎发现的,如果您特别关注自己的内容是否能被正常索引的话,使用文字链接是一种比较稳妥的办法。可以想象您肯定也会采用一些最近的技术,但是无论怎样,文字链接对用户和搜索引擎来说都是更友好,更便于访问的。
这个<a href="/new-page.html">文字链接</a>容易被搜索引擎发现。
  • 提交网站地图主要搜索引擎来说也很有帮助,尽管它不应该取代一个便于抓取的链接架构。如果您的网站使用一些更新的技术,比如AJAX,您可以参考下文中的“确认Googlebot能够找到您的内部链接”。
使用描述性定位文字(anchor text)

描述性的定位文字,也就是通常看到的在链接中可以点击的词语,是一个对搜索引擎和用户很有帮助的信号。通过您的内容、标题、定位文字等等,Google越了解您的网站,就能为搜索用户(其中很可能包含您的潜在用户)返回越相关的结果。比如,如果您在运营一个篮球网站,并且您想通过文字链接为用户提供一些视频的话,很多网站管理员是这样设置链接的:

如果您想观看我们的篮球视频,请<a href="videos.html">点击这里 </a>浏览视频列表。

我们不建议您使用这种泛泛的“请点击这里”,我们建议您将定位文字替换成更具描述意义的文字,例如:

欢迎您观赏我们的<a href="videos.html">篮球视频</a>

确认Googlebot”能够找到您的内部链接

对于已经验证了对网站权限的用户,网站管理员工具提供了“链接> 含内部链接的网页”的功能,这是一个非常有利于验证Googlebot已经成功地找到了您所期望的链接的功能。特别是当您的网站在导航中使用了JavaScript(Googlebot通常不能很好运行并抓取)等技术的时候,你可能很想知道自己的其他内部链接到底是否被Googlebot成功地识别了。

这里有一个关于“网站管理员中心404专题周”的内部链接的屏幕截图。我们的内部链接正如我们预期的一样,都被成功发现了。



欢迎您就内部链接的话题提出您的问题
这里是其中的一部分...

问:我可以使用rel="nofollow"来是我们内部链接的Page Rank流动最大化么?
答:我们自身实际上也是在Google工作的网站管理员,您所考虑的这些实际上不是我们会花时间考虑的。换句话说,如果您的网站已经有了很好的链接架构,那么与其经常担心自己的PageRank,倒不如把更多的精力投入到为用户提供更好的内容上面。

Matt Cutts曾经在网站管理员帮助论坛上回答过“合理使用nofollow”的问题

问:比如我的网站是关于我的自行车和露营两大爱好的。我应当让我的内部链接架构主题化组织,而不在两者之间互相链接么?

答:我们目前为止还没有发现过有网站管理员通过刻意将他们的链接架构高度主题化而从中受益的。同时,如果一个访问者不能方便地访问您网站的各部分的时候,这通常意味着,这种结构对搜索引擎的抓取也是有障碍的。

这里请允许我们再重复一遍,请您尽量创建固定并合理的链接架构(包括符合用户习惯的导航设置和为搜索引擎设置可抓取的链接),并积极实行一些对您的用户和他们的使用体验都有益处的措施。

谢谢您阅读这篇文章! 关于导出链接的文章即将作为链接专题系列的第三篇发表。如果您有关于内部链接的好的建议或问题的话,欢迎您在本文后或网站管理员支持论坛中发表。

标签: ,



追根溯源谈链接

Links information straight from the source

我们期待您能通过提供优质的内容和服务来服务于用户和整个互联网。与此同时,您或许经常听到来自互联网界的关于链接问题的讨论,人们各持己见,争论不休。您或许会问,“这到底是怎么回事—关于链接我究竟应该了解些什么呢?” 如果您也对这个话题感兴趣,欢迎您阅读链接专题系列,本文是此系列的第一篇文章。

第二篇: 内部链接 (您网站内部的链接)

例如,您的首页有指向“联系我们的链接,而您的“联系我们”页又有指向“关于我们”的链接,这类链接都属于内部链接。内部链接(也称为链接结构),是很重要的,因为它是决定用户是否能方便地访问您的网站的决定因素。而且,内部链接也决定着您网站的可抓取性---搜索引擎蜘蛛能不能方便地爬行您的网页。欲知详情,请阅读本链接专题的第二篇文章

第三篇: 导出链接 (您所链向的网站)

导出链接是您所链向的外部网站。比如www.google.com/webmasters 就有指向googlewebmastercentral.blogspot.com 的链接。导出链接使我们可以在网上自由冲浪---这也是互联网变得如此丰富多彩和富有合作精神的重要原因。如果没有导出链接,您的网站将与互联网社区与世隔绝,因为每一页都变成了最简单的文本。大部分的网站包含的都是一些自然的导出链接,因此大多数情况都是无需担忧的。如果您有其他的问题,我们将在第三篇文章里详述导出链接这个话题。

第四篇: 导入链接(所有链向您的网站)
导入链接是指向您的外部链接。正常情况下网站管理员们是不需要为导入链接而伤脑筋的,但是为什么有些网站管理员却特别关注呢?这可能是以业绩为依据的互联网业界现状使然,也可能是因为很多网站管理员认为这种主动指向您的链接是一个提升您的排名和流量的捷径。本专题的第四篇文章将回答您有关“有没有不需要成本就能增加我的导入链接的办法?”等问题。
译者注:该系列将陆续翻译成中文,敬请关注! :)

标签: ,



利用网站管理员工具进一步诊断您的网站



原文:Advanced Website Diagnostics with Google Webmaster Tools
发表于:2008年9月30日星期二,上午11: 07

运营网站是一件很复杂的事情,所以我们提供了网站管理员工具来帮助您发现潜在的问题,并防止它们演变成真正的问题。这些发现的问题中,有一些相对来讲比较小(比如有重复的标题和描述),但也有一些是比较大的问题(比如我们无法访问您的网站)。尽管网站管理员工具无法确切地告诉您需要做哪些具体的改动,但是它可以帮助您发现一些需要您解决的潜在问题。

让我们来看一下我们在网站管理员支持论坛里碰到的几个例子:

您的服务器是否把Googlebot当作普通的网站访问者?

尽管Googlebot尽力表现的像一个普通用户,但有一些服务器可能还是会感到困惑而以比较奇怪的方式进行回应。比如,当用户以Googlebot为user-agent进行访问时, 虽然您的服务器在大多数时间里都可以完美无暇地工作,但是有一些运行IIS的服务器会返回服务器错误(或者其他一些和发生服务器错误相关的操作)。在网站管理员支持论坛里,我们曾经碰到过IIS服务器返回500错误(服务器错误)404错误(文件找不到)出现在“网络抓取”诊断部分的情况,还有提交网站地图(Sitemap)文件时出现302错误。如果您的服务器重定向到错误页面,您应该确保我们可以抓取这个错误页面,并且确保服务器返回正确的错误代码。当您做好这些以后,我们就可以在网站管理员工具里显示这些错误。如果您想了解关于这个问题的更多信息及可能的解决方法,请参阅:
http://todotnet.com/archive/0001/01/01/7472.aspxhttp://www.kowitz.net/archive/2006/12/11/asp.net-2.0-mozilla-browser-detection-hole.aspx

如果您的网站托管在运行Microsoft IIS的服务器上,请记住,自然情况下网址是区分大小写的(我们也是如此处理他们的)。这包括那些出现在robots.txt文件里的网址。如果您的服务器以不区分网址大小写的形式工作,您应该小心处理这一部分。例如,“disallow: /paris”将阻止我们访问/paris,而不是/Paris。

您的网站是否存在一些系统性的已损坏的链接?

现代内容管理系统(CMS)经常会导致一些问题,而这些问题往往能够影响大批的网页。有时候这些问题很直接,当您在浏览这些页面时就可以发现;有时候,靠您自己很难发现这些问题。如果某个类似上述的问题产生了大量损坏的链接,它们一般会显示在您网站管理员工具帐户的“网络抓取”诊断部分(列出那些正常返回404代码的已损坏的网址)。在最近的一个个案中,一个网站的RSS feed出了一个小的编码错误,结果导致超过60,000个坏的网址显示在该网站的网站管理员工具帐户里。您一定能理解,我们更愿意将时间花在抓取内容而不是这些404错误页面上:) 。

您的网站是否将用户导向其他地方?

许多网站都有自己关注的特定地域的用户群。我们发现这类网站有时会将其他地域的访问者重定向到一个不同的页面。然而,请记住Googlebot不一定来自于您期望的目标地域,所以也有可能被重定向到其他页面。这可能意味着Googlebot不能访问您的主页。如果发生这种情况的话,网站管理员工具在验证您的网站时可能会出现问题,导致您的网站无法通过验证。当然,这不是网站无法通过验证的唯一原因,但是如果您的网站经常出现这种情况,最好还是调查一下原因。在这个问题上,请确保用对待那个地域的用户一样的方式对待Googletbot,否则可被视为“内容伪装”。

您的服务器是否在我们抓取时无法访问?

即使最好的网站也会出现这种情况——服务器宕机以及防火墙过度保护。如果在我们试图访问您的网站时出现这种情况的话,我们就无法对您的网站进行抓取,而且您可能不知道我们已经尝试去抓取过您的网站了。幸运的是,我们会跟踪这些问题,当我们无法访问您的网站时,您可以在管理员工具帐户里发现“网络无法访问”及“robots.txt 文件无法访问”错误。

您的网站是否被黑了?

黑客有时候会在出问题的页面上添加些奇怪的、远离主题的隐藏内容和链接。如果是隐藏的话,您可能不会马上注意到它。尽管如此,它还是有可能成为一个大问题。虽然消息中心会就某些类型的隐藏文本向您发出提醒,但是您最好也要多留意一些。网站管理员工具“统计信息”项目下的“Googlebot看到的内容”会显示与您网站内容有关的关键字,如果您在那里看到一些完全不相关的关键字,那么您的网站有很大可能被黑掉了,您最好能尽快调查一下发生了什么事情。您也可以使用谷歌快讯(Google Alerts)或者使用[site:example.com 垃圾关键词]进行查询,在这里“垃圾关键词”是指一些像色情, 伟哥, 曲马多(tramadol,一种镇静剂), 性及其他一些您的网站上一般不会出现的词语。如果您发现您的网站真的被攻击了,我推荐您参阅我们博客上的另外一篇帖子——我的网站被黑掉了,怎么办?

网站管理员工具可以发现很多关于网站的问题;上述问题只是我们最近碰到的问题当中比较普通的一些罢了。因为有一些问题真的很难发现,在它们真正成为问题之前您不妨去看一下您的网站管理员工具帐户,看看能不能发现一些问题的苗头。如果您发现一些您确实无法解决的问题,为什么不在网站管理员支持论坛上发贴来寻求专家们的帮助呢?

今天,您检查您的网站了吗?

标签: , ,



让垃圾留言远离您的网站和用户

Keeping comment spam off your site and away from users
发表于: 2008年9月26日星期五 下午2:26

假设您已经在您的网站上开辟了一个论坛,或者在您的博客上激活了评论功能。您精心准备了一两篇帖子,点击了提交按钮,然后开始屏住呼吸等待评论的到来。


评论真的来了。您的一个博友发表了友好的评论,您参加的在线角色扮演游戏的盟友发来了新的消息,
Millie阿姨发来了星期四晚上聚餐的提醒但同时您还收到另外一些东西一些让您头疼的东西。比如一些鼓吹得天花乱坠的广告信息,乱七八糟不知所云的信息,甚至还有一些暴露的图片。可以这样说,您已经陷入可怕的垃圾留言里了。

垃圾留言对您来说是有害的,因为它加重了您的工作负担。垃圾留言对您的用户来说也是有害的,因为他们只是来您的网站来寻找感兴趣的内容,而这些毫不相关的内容只会影响他们的注意力。垃圾留言对整个网络来说也是有害的,因为它使网站管理员们不敢轻易开放自己的网站,这给人们在论坛和博客上自由发表自己的观点带来了不便。

那么作为一个网站管理员,您可以做些什么呢?

注:下面的解决办法是一个很好的起点,但可能并不是全部的解决方案。互联网上有许多不同的博客,论坛和BBS 我们不可能对每一种系统都提供详尽的指导,以下是较广泛通用的解决办法。

确保是真正的人而不是机器在您的网站上留言

  • 添加一个输入验证码环节(CAPTCHA)CAPTCHA要求用户阅读一段模糊的文字并输入相应的文字,这种办法能够验证对方究竟是真正的人类还是机器程序。如果您的博客或论坛没有植入验证环节的话,您可以使用Recaptcha这个插件。验证环节并不能解决所有的问题,但是它可以有效地制止垃圾留言制造者的猖狂行为。您可以了解更多类型的CAPTCHAS,但是请记住仅仅是添加这么一个环节,就可以起到很大的作用。
  • 阻止可疑行为。许多论坛允许您设置两次发贴之间的最小时间间隔。您也可以通过安装插件,监控那些来自于同一IP地址或proxy的异常巨大的流量,以及其他更可能来自于机器程序而不是人类访问者的异常行为。

使用自动过滤系统

  • 通过将一些关键词加入黑名单能够帮助您阻止一些明显的不恰当的留言。垃圾制者们有时候会故意模糊所使用的词语,所以这个方法也不是万能的,不过您也不妨一试。
  • 使用能够自动删除垃圾留言的插件或系统特性。垃圾制造者们使用自动程序的方式来侵扰您的站点,那我们为什么不也用自动的方式来保护自己呢?像Akismet(有很多针对博客和论坛的插件)这样的系统和TypePad Antispam(开源并兼容Akismet),很容易安装,并能帮您完成大部分的工作。

将您的设置调整地更严格一些

  • 禁止跟踪不被信任的链接。许多系统有这样的功能,可以给链接添加“nofollow”的属性。这样做可以防止某种类型的垃圾留言,但并不是唯一可行的方式。
  • 您可以考虑要求用户在发帖前必须登录,这样可以防止用户任意地发表留言。但是,这样做也会使信噪比提高。
  • 改变您的设置,使留言必须经过您的批准才能展示。如果您是一个规模较小的网站,并且没有太多的留言的话,这是一个使自己网站留言保持高水平的很好的办法。您可以允许自己的员工或者值得信赖的用户能够自助批准自己的留言,这样能减轻您一部分工作负担。
  • 可以考虑禁止某些类型的留言。比如,您可以将那些比较陈旧、已经不太可能有高质量评论的帖子冻结。在博客上,您可以把引用通告等功能暂停,因为这是极易吸引网络垃圾的地方。

及时更新您的网站

  • 请您花些时间将您的软件及时更新,并关注那些重大的安全升级。一些网络垃圾制造者会利用旧版本博客、论坛或内容管理系统的安全漏洞攻击您的网站。您可以在网站安全快速检查清单上找到更多相应的解决方案。

您可能需要权衡您的软件、您的用户群,及您的经验等多种因素来选择实施各种方法。无论您是一个小型的个人博客,还是一个大型的多用户的网站,不加任何保护地就贸然开放您的网站留言是有很大风险的。另外,如果您的网站已经被成千上万条垃圾帖所侵蚀并且不再出现在Google搜索结果的话,当您已经彻底清除了这些不良内容并采取了相应保护措施的话,您可以考虑提交一个重新收录的申请

作为一个有较长时间经验的网站开发者和博客一员,我可以以我自己的切身体验告诉您,花一点点时间做一些预防措施会节省您将来大量的时间和精力。我是一个网站管理员中心组的一个较新的成员。我很乐意帮助我的网站管理员同行们,而且我对搜索质量也非常感兴趣(我已经在这一领域做了一些学术研究)。欢迎您在留言板里分享您对防止留言垃圾的心得,同时始终欢迎您访问Google网站管理员支持论坛并提出您的问题。

标签: ,



揭秘“重复内容处罚”

发表者: Susan Moskwa, 网站管理员趋势研究员

原文: Demystifying the "duplicate content penalty"
发表于: 2008年9月12日星期五,上午8: 30

重复内容始终是一个经常被谈论的话题。我们不断地发表关于这方面文章,人们也在不断地提出问题。特别是,我还听到有很多网站管理员担心自己受到了“重复内容处罚”。

在这里请允许我们把这个问题一次性跟大家讲清楚:根本不存在所谓的“重复内容处罚”。至少,也不是大多数人谈论时所认为的那样。

有一些处罚是和抄袭其他网站的内容有关的,比如完全抄袭并且发布其他网站的内容,或者在完全没有提供任何其他附加价值的情况下发布这些抄袭的内容。这些都是我们不提倡的做法,您可以在网站管理员指南里找到有关此问题的清晰的论述:

  • 请不要创建含有大量重复内容的多个页面、子域或者域。
  • 请避免使用那种“一个模子印出来”(cookie cutter)的方式创建网站,比如没有或者很少原创内容的联属计划。
  • 如果您的网站参与联属计划,请确保您的网站可提供附加价值。提供独特且相关的内容,使用户首先有理由访问您的网站。

(请注意,我们不希望您从其他网站那里抄袭内容,但是如果其他人抄袭了您的网站就是另外一回事了;如果您担心别人抄袭了您的网站,请您参考这篇文章)。

但是我听到的一些担心重复性内容的网站管理员所谈论的并不是抄袭或者域名农场(domain farms);他们讨论的是诸如在同一个域上有多个网址指向相同的内容。比如,www.example.com/skates.asp?color=black&brand=riedell
和www.example.com/skates.asp?brand=riedell&color=black。这种类型的重复性内容可能会对您网站在搜索结果中的表现有潜在的影响,但是它不会使您的网站受到惩罚。下面这段文字来自我们关于重复内容的帮助文章:

除非重复内容看起来意在欺骗用户并操纵搜索引擎结果,否则,我们不会对有重复内容的网站采取特别措施。如果您的网站存在重复内容问题,而您又未遵循上述建议,我们会自行以恰当的方式选择在搜索结果中显示的内容版本。

这种非恶意的重复是比较常见的,特别是很多内容管理系统(CMS)缺省条件下对此处理的并不是很好。因此,当人们谈到此种类型的重复性内容会影响您的网站时,并不是因为您可能会因此受到处罚,而仅仅是由于网站和搜索引擎的工作方式所造成的。

大多数搜索引擎都力求保持一定程度的多样性:他们想在搜索结果页上向您展示十个不同的搜索结果,而不是含有相同内容的十个不同的网址。为此,谷歌试着去掉重复的内容从而使用户较少看到这些多余的重复性的内容。您可以在这篇博客里了解更多的细节,其中谈到

  1. 当我们探测重复内容时,比如由网址参数造成的衍生网址,我们会将这些相似的网址放在同一组里。
  2. 我们会选择我们认为最能代表这一组的网址在搜索结果里进行展示。
  3. 我们还会对这一组网址的特性进行相应的整理,像链接的受欢迎程度,并将其合并到此代表性网址上。

作为网站管理员,上述过程可能会影响到您的是:

  • 在步骤二中,谷歌所认为最具有代表性的网址并不一定和您的想法一致。如果您想控制究竟是www.example.com/skates.asp?color=black&brand=riedell 还是www.example.com/skates.asp?brand=riedell&color=black出现在我们的搜索结果中的话,您或许想采取适当措施以减少您的重复内容。告诉我们哪一个是您比较喜欢的网址的有效方法之一就是将其列入您的网站地图(Sitemap) 里。
  • 在步骤三中,如果我们无法探测出某一特定页面的所有重复性页面的话,我们在对其页面特性进行整合时就不可能包括所有这些重复性页面的特性。这可能会削弱这一特定内容的排名竞争力,因为他们被分散分配到了多个网址上。

在大多数情况下,谷歌可以很好的处理此类重复内容。然而,对于那些不同域名上的重复性内容,您或许需要再考虑一下。尤其是,当您决定建立一个网站而它的目的从本质上来讲就是内容抄袭和重复的话,如果您的商业模式又依赖于搜索引擎的流量,那么除非您可以给用户带来很多的附加价值,不然对于建立此类网站您还是要三思而后行。举个例子,我们有时听到来自Amazon.com的联盟网站说他们网站上那些完全由Amazon提供的内容很难有好的排名。这难道是因为谷歌想阻止他们卖《Everyone Poops》这本书吗?不;这是因为如果他们的网站提供完全一样的内容的话,他们怎么可能会比Amazon的排名更好呢?对于在线购物来讲,Amazon在很多方面具有权威性(对于一个典型的Amazon联盟网站来说更是如此),一般的谷歌搜索用户可能想看到的是Amazon上的原始信息,除非这个联盟网站提供了相当数量的、额外的附加值给用户。

最后,想一下重复内容给您网站带宽带来的影响吧。重复内容会造成抓取效率低下:当Googlebot在您的网站上发现了十个网址,在它知道这些网址含有完全相同的内容之前(如上所述,也就是在我们能够对他们进行归类之前),它必须对这十个网址逐一进行抓取。Googlebot耗费在抓取重复性内容上的时间和资源越多,它用来抓取其他内容的时间也就相对变少了。

总而言之,网站上的重复性内容会以多种方式影响您的网站。但是除非您是恶意抄袭造成内容重复,否则这些方式不会构成对您网站的处罚。这也意味着:

  • 当您清除了无恶意的重复性内容时,您无须提交重新收录的请求。
  • 如果您是一个介于初级到中级经验值之间的网络管理员,您可能不需花费过多精力来担心重复性内容,因为大多数搜索引擎都有方法来处理它。
  • 通过澄清和杜绝关于重复性内容处罚的杜撰之说,您可以帮到您的网站管理员同行们!解决重复性内容的方法完全在您的掌控之中,这里有几篇较好的文章您可以参考

标签: , ,



怎样建立一个多语种的网站

Charlene Perez, Juliane Stiller

原文:How to start a multilingual site
发表于:2008年8月7日星期四,上午9:50

您考虑过使用不同语种建立一个或多个网站么?比如说您想做一个关于在欧洲背包旅行的旅游网站,而且您想把自己的内容提供给使用英语、德语和西班牙语的访问者。您或许希望把网站结构、地理和语言定位以及内容组织等方面都考虑进来,下文就将为您一一介绍。


网站结构

您首先需要考虑的就是: 是否需要为您想开展业务的所有有关国家购买针对各个国家的顶级域名
(TLD)。如果回答是肯定的话,您的域名可以选择ilovebackpacking.co.uk,ichlieberucksackreisen.deirdemochilero.es.es。如果您想把自己的网站定位在与每个顶级域名相对应的国家的话,您可以选择这种被称为地理定位的方式,在这种情况下,地理定位的方式对您是有利的。地理定位是与语言定位不同的,关于语言定位我们稍后会专门介绍。打个比方说,您的德语内容是专门为德国用户设计的,而不适合于来自奥地利或瑞士的讲德语的访问者。在这种情况下,您应该注册一个.de顶级域名。德国用户会把这个域名看作是本土的域名,从而更加信赖这个域名。另一方面,地理定位也有些不尽人意之处,比如专门买特定国家对应的域名可能花费不菲,而且更新和维护也颇费精力。所以,如果您的时间和资源有限,您可以考虑买一个非特定国家的域名,用它来涵盖您网站的各种语言版本。在这种情况下,我们建议您考虑以下两种选择:

  1. 把各种语言的内容分别放在不同的子域名下。我们上文提到的例子,可以对应使用:en.example.comde.example.com es.example.com
  2. 把各种语言的内容分别放在不同的子目录下。这种方式较便于内容的更新与维护。我们上文提到的例子,可以对应使用:example.com/en/example.com/de/ example.com/es/
Matt Cutts曾经写过一篇很好的关于子目录和子域名的文章,或许能够帮助您做出选择。

地理定位
vs
语言定位
如上所述,如果您的内容专门针对世界上的某一特定区域的话,您可以在网站管理员工具中设定目标地理区域。通过这个工具,您可以为自己不同的子目录和子域名设置不同的目标地理区域(比如说,
/de/针对德国访问者)。如果您想把自己的内容传达给遍布世界各国的所有讲这种语言的用户,您或许不想把自己的网站局限在某一特定区域,那么您可以使用语言定位方式,在这种情况下,您就不必使用地理定位设定工具了。

内容组织

在不同语种中出现的相同内容不会被认为是重复内容,只要您确保内容井然有序就可以了。如果您按照上文中网站结构的建议组织自己的网站的话,那么这一点您大可放心。请避免在每一页中交错使用多种语言,因为这样做不但会让
Google机器人困惑,也会使访问者不明所以。所以,请您尽量保持每一页的导航栏和内容都使用同一种语言。

如果您想查看您网站中有多少页是被认定为某种特定语言的网页,您可以进行基于指定语种的网站搜索(site search)。举例来说,您可以到google.de google.com 做一下网站搜索(site:google.com),选择如下图所示的选项您就可以只展示那些属于德语的搜索结果。

如果您对这一话题有其他疑问的话,欢迎您加入谷歌网站管理员支持论坛得到更多的帮助。

标签: , ,



利用数据与网络垃圾作斗争



原文:Using data to fight webspam
发表于:2008年6月27日星期三 下午4:51

这篇博客是讲述我们如何利用所收集的数据来改善我们的产品和服务系列文章中的最新一篇

作为谷歌反网络垃圾小组的负责人,我的职责是确保您得到的搜索结果尽可能的相关与翔实。也许您没有听说过网络垃圾,
网络垃圾就是搜索结果中的垃圾结果,这些垃圾结果要么狡猾地骗取了搜索结果中较高的排名位置,要么违反了搜索引擎质量指南。如果您从来没有见过网络垃圾,下面是一个很好的例子:如果您在搜索结果中点击了这样一个垃圾链接,就可能会看到以下画面(点击可浏览大图)。



您可以看到,这是一个没有任何价值的网页。这个例子中的网页几乎没有任何原创内容,还充斥着大量无关链接以及对用户没有多大用处的信息。我们努力确保您不会看到这样的搜索结果。可以想象,如果您点击了一个谷歌搜索结果的链接却最终看到了这类网页会是多么的不愉快。

现在,搜索用户并不会经常在搜索结果中看到这样露骨的、纯粹的网络垃圾。但是,早在谷歌普及之前,在我们找到有效的反网络垃圾的方法之前,网络垃圾就已经是一个大问题了。一般而言,网络垃圾真的令人非常恼火,例如您搜索自己的名字,返回结果的链接却指向了色情网页。而对于许多非常注重获得相关性信息的搜索来说,网络垃圾成了一个严重的问题。例如,一个关于前列腺癌的搜索,获得的结果却充斥着网络垃圾而不是相关信息的链接,这会大大削弱搜索引擎作为一种有用工具的价值。

来自搜索日志的数据是我们用来与网络垃圾作斗争,力求返回更纯净、更相关的搜索结果的一种工具。
IP地址和cookie信息等日志数据,使建立和使用指标系统、从不同方面衡量我们的搜索质量(例如索引的规模和覆盖范围、结果的"新鲜"程度,垃圾链接的数量等)成为可能。

每当我们创建新的衡量指标时,很重要的一点是能够审阅我们的日志数据,并利用先前的查询或搜索结果生成衡量网络垃圾的新的指标。我们使用搜索日志实现
"时间回溯",看看谷歌几个月来在用户查询方面改进了多少。当我们建立了一个新的指标能够更加精准地衡量一种新型的网络垃圾时,我们不仅可以跟踪今后我们阻击这种网络垃圾的进展情况,更可以使用日志数据分析我们在几个月前甚至几年前对同一类型网络垃圾的处理效果。

IP
cookie信息非常重要,它们能帮助我们把这种方法的应用范围仅限于"合法"的用户搜索,而不是那些由机器产生的搜索以及其他虚假搜索。举例来说,如果一个自动程序一遍又一遍地将相同的查询发送至谷歌,那么在我们衡量用户看到了多少网络垃圾之前,就应把这些搜索查询剔除出去。所有这一切——日志数据、IP地址和cookie信息——都会让您得到的搜索结果更纯净、更相关。

如果您认为网络垃圾已经不再成为一个问题了,请再仔细想想吧。去年,谷歌的索引体系遭遇了来自
.cn顶级域名的网络垃圾的疯狂攻击。一些网络垃圾制造者大量购买廉价的.cn域名,并在这些网站上堆满故意拼错的词汇和色情词汇。资深的用户可能还记得曾经读过几篇与此相关的博客,但绝大多数普通用户甚至可能从来没有注意到这些。普通的搜索用户没有注意到这些异常搜索结果的原因,是因为谷歌及时识别出了这些.cn网络垃圾,并通过一个快速跟踪项目,很好地应对了此类网络垃圾的攻击。如果没有日志数据帮助我们识别问题发生的速度和范围,可能会有更多的谷歌用户受到此类攻击的影响。

理想的情况是,绝大多数用户甚至不需要知道谷歌有这样一个反网络垃圾小组。如果我们的工作做得很出色,您可能偶尔会看到质量不高的搜索结果,但您无需面对恶意的
JavaScript重定向、令人反感的色情内容、充斥着无意义内容的页面或其他类型的网络垃圾。我们的日志数据有助于确保我们追踪到网络垃圾的新动向,并且在它们影响您的搜索体验之前采取相应的行动。

标签: , ,



Matt Cutts谈搜索引擎排名、网络垃圾和搜索的未来



原文: Matt Cutts on ranking, spam and the future of search
发表于:2008年7月18日星期五,上午8: 36

在最近一次访问Mountain View Google总部的时候,我代表德语网站管理员博客对Matt Cutts做了一次采访。沐浴在加州明媚的阳光中,我们聊起了搜索引擎排名、网站管理员可利用的资源和Matt与网络垃圾的第一次接触等话题。我想这些话题可能不仅德国读者会感兴趣,正在阅读博客的您或许也会感兴趣,所以在这里将访谈的视频与您分享。看了这个视频,您或许能够体会到这位首席反网络垃圾工程师是怎样艰难而又执着地履行他的职责的 :)


译者:以下是Matt对这次采访问题的回答摘要(译自上述视频)

Q:你还记得第一次与网络垃圾接触的情形是怎样的?
A:我第一次接触到的网络垃圾是一个色情网站。在我们的印象中,如果一个网站有较高的Page Rank,它应该是一个比较好的网站。可是我遇到的这个色情网站,却有着很好的反向链接结构和很高的Page Rank,这使我第一次意识到原来网络垃圾制造者们是可以通过一些不正当方式针对任何搜索引擎提高自己的搜索排名的。由于第一次接触的网络垃圾就是一个色情网站,所以我印象深刻。

Q:你认为在未来的五年内,搜索引擎面对的最大挑战是什么?
A:搜索引擎面临着很多挑战,其中一个很大的挑战恐怕是人们对搜索引擎的期望越来越高。Udi ManberGoogle的一位工程事务副总裁,曾经对此做出了很有趣的总结:几年前对我们来说是很难的那部分搜索查询,如今看起来已经不那么难了,因为我们对搜索查询的理解和处理能力有了很大的提升。但是与之相对应的是,用户对搜索引擎的期望也越来越高,他们不断提出难度越来越高的搜索查询。虽然我们的处理能力在不断进步,但是要不断满足用户日益提高的检索要求,挑战性还是很大的。

Q:中小网站的网站管理员怎样才能与互联网市场中的大型网站相抗衡?
A:在中小网站成立的初期,他们通常是很难与那些大型网站直接竞争的。在这种情况下,他们或许可以更精确地为网站定位。打个比方说,或许我不能制造所有种类的鞋子,但是或许我可以专门为那些脚型特别大的人制造鞋子。当您逐渐成为某一专门领域的专家和领导者后,那么您就可以逐步扩展自己的事业了。另外,作为中小网站,可以充分发挥自己富有创造性和决策迅速灵活的特点。这是中小网站与大网站相比,最具有优势的地方。中小网站可以积极尝试各种新的技术和经营形式,如果它们可行,就要果断地执行,或许不久您就会发现自己已经成为这一领域的权威来源了。

Q:每一个网站管理员都应该知道的是….
A网站管理员中心!这或许带有一点个人倾向,不过它确实提供了很多非常棒的功能,比如您可以查询自己的网站有哪些反向链接,用户是用什么搜索词进行检索时找到您的网站的,您的网站有没有失效的链接被Google抓取到等等。。。除此之外,您还可以看到很多关于您网站的统计数据。我个人最喜欢的一个功能是,如果您的网站上有隐藏文本或Google认为您的网站有垃圾结果嫌疑或您网站上有被黑掉的页面,那么您会在消息中心收到来自Google的讯息,提醒您注意并积极处理这些问题。另外,您还可以向Google举报您发现的可疑垃圾结果。网站管理员中心是我个人非常推荐您使用的工具,它们不仅功能强大,而且完全是免费的!

Q:你有没有这样的习惯,检查每一个日常生活中你遇到的网站,看有没有付费链接等问题?
A呵呵,我确实有这样的职业习惯。我们经常开玩笑说,当你知道如何寻找和发现网络垃圾的时候,你会用一种不同于普通用户的视野,对每一个你遇到的网站,研究他们有什么好的地方,有什么不好的地方,为什么他们会把某些链接放在那里,等等。同时,我很高兴我们能够从我们的用户那里得到很多反馈意见,比如他们会举报自己发现的垃圾搜索结果,或者提出其他的建议。即使很多人仅仅是日常在网上冲浪,他们同样在探索怎样使Google变得越来越好,我们对此由衷感谢。

Q:你在各种会议上被问到的最有趣的问题是什么?
A:我记得曾经有一个与会者提问说:我有很多不同的网站,可是在Google Yahoo的排名情况都不好,我应该怎么做才能改善我在搜索引擎的排名呢?Yahoo的代表在回答问题之前首先反问这个网站管理员大约有多少网站,是五个还是十个呢?没想到这个网站管理员左顾右盼,迟疑了许久,才回答说:我有大约1500个不同的网站。全场人都惊呆了,他居然有这么多网站!

我还记得一个很有趣的问题是,有人问我Google对以不正当方式提高搜索排名的忍耐底线是什么?我觉得这就好比一个学生缠着老师,反复询问某某题目是否会出现在今后的试卷上。实际上,只要您建立了一个好的网站,用合理的方式对它进行推广,您就可以安枕无忧,不必担心什么是我们的忍耐底线了。

Q:如果Google最终把所有的网络垃圾都消灭了,你突然有了很多的时间,那么你会做什么呢?
A:我对各种各样的开源程序和小工具(Gadgets)很感兴趣,另外,我还非常喜欢各种各样的插件,比如Firefox插件,Photoshop插件等等。如果我有大把的时间,或许我会写很多这样的插件,帮助人们实现和改善软件的功能,这是一件非常有趣的事情。

标签: , , ,



由抄袭造成的重复内容

发表者:Sven Naumann,搜索质量组

原文:Duplicate content due to scrapers
发表于:2008年6月9日星期一,上午3:40

重复内容一直是网站管理员们热议的话题之一,我们觉得很有必要对在各种会议上和网站管理员支持论坛中我们被问及的常见问题作以下统一解答。

在做深入探讨之前,我想先简要谈谈网站管理员们经常担忧的一个问题:在大多数情况下,网站管理员往往对擅自抄袭和传播自己内容的第三方无能为力。我们知道这并不能归咎于网站管理员们,这也就意味着同一内容出现在许多不同网站其本身并不理所当然地被认为是违反了网站管理员指南。这仅仅导致了Google必须增加一个额外步骤,即鉴别内容的原创来源,而这正是Google所擅长的,在大多数情况下原创内容源都能被正确地识别出来,从而不会给发布真正原创内容的网站带来负面影响。

一般而言,我们把网站内容雷同问题主要分为两种情况:
  • 站内内容重复,比如同一内容(经常是无意识地)在您的网站内重复出现。

  • 站间内容重复,比如您网站的内容(同样,经常也是无意识地)在其他网站重复出现。
对于第一种情况,您可以亲自动手解决Google对您网站上的重复内容进行索引的问题。您可以阅读 Adam Lasnik 发表的Deftly dealing with duplicate content以及Vanessa Fox 发表的Duplicate content summit at SMX Advanced。这两篇文章都提供了一些很好的建议,帮助您解决站内内容重复的问题。这里还有一个特别的建议帮助您避免站内内容被重复索引:您可以将您希望被抓取的URL序列包含在您的站点地图文件中。遇到包含同一内容的不同网页时,这么做有助于我们准确收录您真正想提供给用户的那部分内容。其他有关于站内内容重复的信息您可以参阅讨论此主题的有关“帮助中心文章”。

第二种情形可能是有人剽窃了您网站中的内容,并将其展示在其他网站上牟利。同时,网络代理服务器也经常抓取通过代理方式访问的网站的部分内容。当在不同网站遇到相同内容的时候,我们会基于许多不同的依据来判断究竟哪个网站才是原创,而这样的判断通常是准确的。这也意味着,当您发现有人剽窃了您的内容时,您大可不必过分担心它对您的网站在谷歌搜索排名上的负面影响。

如果您将自己网站的内容与他人分享, 但同时还希望自己的网站被识别为原创来源的话,您需要请合作伙伴在其网站内容上添加指向您原创内容的链接。您也可以在Vanessa Fox最近发表的文章Ranking as the original source for content you syndicate找到其他有关处理这一问题的建议。

有些网站管理员会有这样的疑问: 什么原因会导致有时候抄袭内容反而比原创内容的排名还要高呢?这应该是个特例,但如果您真的遇到这种情况,请您务必做到:
  • 检查一下您的内容是否能被我们抓取。您可能无意间在 robots.txt文件中阻止了部分内容被正常访问。

  • 您可以检查一下Sitemap文件,看看您自己是否改动过那些被抄袭的特定内容。

  • 检查您的网站是否符合网站管理员指南。
最后我想指出的是,在绝大多数情况下,含有雷同重复内容并不会对您的网站在谷歌搜索上的排名有负面影响。这些内容可能已经被过滤出去了。如果您参照上述提到的一些建议,您会了解到怎样才能更精确地控制搜索引擎抓取的内容以及出现在索引中的内容版本。只有被确认为蓄意或恶意抄袭时,雷同重复内容才有可能会被视为违反了网站管理员指南。

如果您想更深入地讨论这一话题,请浏览我们的网站管理员支持论坛

如果希望阅读本文德语版,请点击阅读“Duplicate Content aufgrund von Scraper-Sites”。

标签: , ,



给网站管理员的建议:创建可利用的、可抓取的网站



原文:Webmaster tips for creating accessible, crawlable sites
发表于:2008年4月14日 上午10:47

Raman and Hubbell at home

Hubbell和我正在我们位于加州的家中度假。欢迎您随时
阅读在此之前我为网站管理员们写的关于可用性的博客,
以及我为谷歌官方博客所写的其他文章


对于Accessible search,网站管理员们最经常问的一个问题就是:我怎样才能提高我的网站在Accessible Search上的排名?同时,网站管理员们还会问一个与之类似、但更为宽泛的问题:怎样才能提高我的网站在Google搜索上的排名?

我很高兴地告诉大家,这里有一个一举两得的办法:您可以建立和完善一些关键的网站特性,比如网站导航,这样它就能为所有用户服务,其中自然也包括谷歌机器人。下面是一些小建议,您可以参考。

确保所有重要的内容都能正常访问

为了使用户获取到内容,必须确保这些内容是可以访问的。用户及搜索引擎机器人都是借助超文本链接获取页面内容的,所以关键的第一步是确保您网站上的所有内容都可经由纯
HTML超文本链接访问到,并避免网站的关键部分被JavaScriptFlash等技术隐藏起来。

纯超文本链接是指通过HTML锚元素<a>生成的链接。下一步,我们要确保所有超文本链接指向的目标,即<a>元素,都是真实的URL,而不是一个空的、真正的链接行为已经被转到点击触发控制器上的链接。

简而言之,要避免下列超文本链接的形式:

<a href="#" onclick="javascript:void(...)">Product Catalog</a>

我们推荐更简单的链接,如:

<a href="http://www.example.com/product-catalog.html">Product Catalog</a>

确保内容的可读性

只有具有可阅读性,网站内容才能发挥作用。请确保您网站上所有的重要内容都以HTML文件的形式呈现,并且在无须评估页面脚本的前提下就可以获取。对于谷歌机器人和绝大多数不知情的用户而言,Flash动画背后隐藏的内容和由可执行性JavaScript在浏览器端所产生的文本仍然是无法读取的。

确保内容按照适于阅读的顺序提供给读者

在获取可读内容后,用户希望能够按照合乎逻辑的阅读顺序跟进内容。如果您网站中的大部分内容采取了复杂的多栏布局设计,不妨退回去考虑一下您如何才能实现预期的效果。例如,使用深层嵌套的HTML表格会使人们难以将相关的文本按照合乎逻辑的顺序联系起来。

在HTML内使用CSS以及合乎逻辑、有组织的<div>元素,可以取得同样的效果。同时作为一个额外的收获,您会发现您的网站运行得更加快捷高效。

补充所有的视觉内容――不必担心重复!

让所有人都可以获得您的信息并不意味着让您把网站"降格"成为最简单的文本格式。最大限度地重复您的信息是很重要的,因为只有这样才能确保页面内容最大限度地帮助所有用户。这里有几个简单的小建议:
  • 确保在图片缺失的情况下,用户仍然可以获得那些通过图片传播的内容。这不仅要在相关的图片上添加适当的ALT属性,还要确保图片周围的文字能够详细地介绍背景,让读者了解为什么这张图片会出现在这里;同时详细给出您期望人们看到这个图片后所得出的结论。简言之,如果您想确保每个人都知道此图片表现的是一座桥梁,那么您最好把该图片周围的文字也以拱形排列。

  • 添加相关的摘要和标题,让读者在钻研细节之前可以获得高屋建瓴的信息概述。

  • 在数据展示之类的视觉形象旁边添加详细的文字总结。
采纳上述建议可以大大提高用户登陆页面的质量。同时,作为一个额外的收获,您还很有可能惊喜地发现您的网站得到了更好地索引!

标签: , , ,



SEO建议:关于获取链接



原文:SEO Advice: Getting Links
发表于:2008年3月11日星期二 晚上11:35

[注:此文写作于2005年12月(!) 最近我正在整理自己的一些旧草稿,并把那些看起来不太糟的文章发表在博客里。这些搁置许久的文章可能会有些粗糙。]

好的,这里有一些不需要通过电子邮件、不需要付款,甚至不需要关注搜索引擎就能得到高品质链接的方法:

提供有用的一次性服务,它真的不用花费太多精力。这里是一些例子:
  • 请在IE浏览器中查看http://www.stclaire.com/go/industrial_signage/sb2/html。 您需要注册一个免费帐号,这样这个网站就能提供一个在线界面,以创建ANSI可兼容的警告标志,而且您会得到可打印的PDF文件。 用这个站点创建标志非常方便。这里有一个我只花了几分钟时间就做好的例子:

  • 提供以上的服务对您来说有难度是么?您不知道如何创建PDF格式的文件,或者您手边没有安全标志图库?好吧,这里有一个更简单的例子:大家都厌恶收到垃圾邮件。如果您的电子邮件地址被公布到了网上,您会收到更多的垃圾邮件。这里有一个网站,可以让您制作一个图片形式的邮件地址标记:http://gsig.brightdev.com/index.php 。这个URL是针对Gmail用户的,http://esigs.brightdev.com/可以让您为Hotmail、Yahoo! ,AOL或者其他网站的邮件地址制作图标。

  • 这样还是太难么?复杂的图片魔术让您望洋兴叹么?那么,您也可以使用Javascript或字符实体来对电子邮件地址进行编码。举例来说, http://www.wbwip.com/wbw/emailencoder.html可以将一个正常的电子邮件地址,例如:user@example.com,编译成
    &#100;&#097;&#118;&#101;&#110;&#064;&#115;&#112;&#097;&#109;
    &#109;&#101;&#114;&#046;&#099;&#111;&#109;
    这样您的邮件地址就不会被邮件地址采集软件采集到了。

  • 自己制作一个robots.txt校验器
提供一个持续不断的服务:
  • 基于Web的服务,Bloglines就是一个很好的例子。

使自身成为一种资源:

  • 您可以通过个人公司博客达到这一目的。博客是一种获得链接亲睐和使自己的言论广泛传播的好方法。

  • 如果提供博客服务听起来有些吓人,那么您也可以从新闻组、研究、调查或白皮书开始。

  • 有一次,一家从事语言翻译的公司(我称之为网站A)问我,为什么他们的网站排名不像另一个网站(我称之为网站B)那么高。我查看时发现,网站A上只有很少的内容,仅仅5至6页,除了联系方式之外,只有公司业务的简要说明。它就像一个在线宣传册。那么,网站B怎么样呢?他们提供了一个辅导教程,说明片假名、平假名和日本汉字之间的区别,另外他们还教您如何写几个日文字符。 您会选择链接到哪个站点呢,是那个空洞的宣传册网站,还是那个提供辅导教程的网站?

提供有价值的信息:

  • 成为第一个创新的人。成为第一人意味着提出创造性的想法,捕捉到网络最新颖最令人着迷的部分。

  • 是谁任命Loren Baker担任最佳搜索博客的裁判?没有人这么做:他只是看到了一个创造性的机会,并且成功地抓住了它。

  • 找到一篇描写您自己的文章。但是要注意,争议虽然会引来注意力,但也可能影响人们对您的看法。如果您太过频繁地哗众取宠,往往会影响您的声誉。

发掘您自己的产品:

  • 我买了一部TiVo,因为我可以随意摆弄它。我选择了XM广播,因为他们提供了一种装置(XM PCR),让电脑可以接收到模拟卫星广播。这种富有魅力的装置有一个开源服务器,除了播放音乐,还可以用它流畅地播放RSS或几乎任何其他信息。当我发现一个本地计算机商店出售160GB的外置式硬盘,它经过改装后可以运行Linux时,我立刻跑去买了一个。我在上面安装了Linux操作系统(只是因为我可以这么做!),并使它成为一个流媒体MP3自动点唱机。此后我又做了些什么呢?我到计算机商店又买了一个Buffalo网络硬盘 ,这个当然是自己说了算!因为我可以随心所欲地支配160GB的硬盘驱动器,现在我又盯上他们的1.6TB的TeraStation。[编者按:我确实买了一个Terastation,而且它已经为我服务了好几年。] 这一切,都因为我能够自己动手改装、摆弄和修改某种产品。

[放手干吧。我认为这些想法中的大部分都已经很成熟了。]

标签: , ,



为有内容的网站创建良好的用户体验



Google,我们总是将为用户提供丰富有用的搜索结果放在首位。以下我们试给出几点创建良好内容网站用户体验的小建议


提供与主题高度相关的内容

确立一个清晰的主题,提供与之高度相关的内容。避免堆砌互不相关的内容。在确立了网站主题之后,想想还可以如何进行更进一步的分类。例如一个关于育儿的网站,可以考虑按照“幼儿保健”,“疾病治疗”,“幼儿教育”等进行分类;您还可以选取一个与主题相关的,通俗易懂的域名来方便用户记住您的网址。


采用清晰的、用户友好的浏览界面和网页布局

好的用户界面对于任何一个网站包括
Google都是非常重要的,它能够给用户很好的第一印象,对用户如何浏览网站亦非常重要。如果您想采用多媒体例如Flash,为了保证Flash内容的网站能够被Google正常索引,可以参考我们的博客文章如何最好地使用Flash

提供一些方便用户的功能

例如,您可以提供站内搜索功能,让用户能很快找到自己想要的内容;您还可以在您的网站上进行用户调查,了解自己网站的优点与不足,让用户感到您对他们的关心;您还可以为图片提供合理的
alt文字,以方便无法浏览图片或网速较慢的用户。

提供原创的内容

用户来到您的网站,他们希望看到其他地方没有的内容;一味抄袭的内容会破坏用户体验(使用程序自动抓取内容还会对您的网站在搜索结果里的排名产生负面影响
。 如果确实需要转载,请尊重原创者的版权,标明文章的出处(提供一个原文链接)。尝试投入自己的精力再组织、编辑和扩充这些内容,使之更匹配您自己的网站的主题、风格和布局。如果您还提供多媒体内容,例如在线视频或音乐,您可以提供文字说明。如果将这些内容嵌入您的网页上,让用户能够在您的网站上就能够欣赏这些内容,那就更好了。

维护好自己的网站

网站被“黑”是站长的恶梦。请定期检查自己的网站以确保网站安全性同时,您也要避免自己的网站遭到恶意软件的侵袭,参考
阻击恶意软件--清除和保护您的网站的小技巧

提供有效的、易获取的联系方式可以帮助您得到最直接的来自用户的反馈;如果您的网站还有论坛或者留言板,那么最好确保它们不会被垃圾留言者利用。如何避免留言垃圾,可以参考
减少垃圾留言的小技巧

标签: ,



Great user experience for content sites

By Xiang Meng , Search Quality Team

At Google, our #1 priority is providing users with rich and useful content in our search results. Here are a few tips on creating a great user experience for your content-rich site.

Provide highly relevant content

Establish a clear focus for your site, and create content that's strongly relevant to that focus. Try not to fill your site with irrelevant content. Once you've chosen your site's subject matter, think about how further categorization could be helpful. For instance, if your site is about baby care, think about grouping your content into categories such as Health care, Diseases, or Education. It's also a good idea to pick a relevant domain name that's easy for your audience to remember.

Create user-friendly navigation and page layout

A good user interface is critical for any website - including Google; it creates a good first impression and is critical to how users navigate your site. If you want to include multimedia elements like Flash in your design, make sure that your pages can still be indexed by Google. Check out our blog post on Best uses of Flash.

Make things easy for your users

For instance, you could provide a search box for your users to search within your site; or show your users a little TLC (Tender Loving Care) by creating a survey on the home page. Some users can't view images or have very slow connections - improve their experiences (and the indexability of your site!) by making sure your images have useful and appropriate alt text.

Provide original content

Your site's users are looking for something unique - content that can't be found elsewhere. When someone enters your site, he or she might want to see something unique. Copying content from other sites creates a negative user experience (and scraping content can negatively impact your site's ranking in our search results). If you really need to use content from another site, respect copyright and credit the original source (and provide a link). Try to reorganize and augment the content, so that it fits better with your own site's focus and style. If you provide multimedia content such as video or music, text descriptions of these are always useful. It's also smart to consider embedding this content directly on your pages, so users can enjoy it without having to leave your site.

Keep your site well maintained

Getting hacked is a nightmare. Make sure you check your site for any potential security issues on a regular basis. Check out Tips for cleaning & Securing Your Website.

Valid and easy-to-find contact information will help you get direct feedback from your users. If you have a forum or a guest book on your site, better make sure it never be abused by spammers. Check out How to prevent comment spam.

标签: ,



子域名和子目录


(译者按: Matt Cutts, 谷歌反网络垃圾组的带头人。本文译自Matt Cutts的个人博客,供读者参考)
原文: Subdomains and subdirectories
发表于:2007年12月10日上午12时17分

Pubcon会议接近尾声时,我发现 的文章在谈论Google对子域名和子目录的处理。也许我在会上没有把这一方面说清楚,我在这里再详细谈谈这个主题。

从以往记录来看,使用子域名与子目录的时间几乎是对等的。顺便提示一下,在一个象subdomain.example.com/subdirectory/的网址中 ,子域名是"subdomain",子目录是"subdirectory" (有时也被称为文件夹)。如果您还不清楚,你也许可以阅读一下我的“一个URL的组成部分的辅导材料”

如果你把你的内容放在子目录里,通常的原则是所有信息都存储在同一空间里。这可以使找到/编辑/更改代码变得很容易。同时,它也不难把代码从一个地方移到另一个地方。然而,一个子域名往往是一个域名系统(DNS)的别名。子域名的设置对网络管理员新手来说可能有点难,特别是如果"CNAME"对你来说不意味着任何意思。子域名可以分开管理,对你来说可以是一个好事(如果你想转移你网站的一部分,你可以使用DNS来和子域名脱钩),也可以是个头疼的事(DNS的设置相当麻烦,不像使用子目录一样仅仅使用几个命令就可以建立或移动目录)。以我为例,当我开始建我的博客时,我决定用一个子目录(mattcutts.com/blog/),仅仅是想使事情变得简单。

几年来,Google使用了一个所谓的"密集主机(host crowding)"算法,它意味着,对一个域名的每个主机名(hostname)或子域名,Google至多显示两个结果。这种办法(从一个子域名内显 示1-2个结果)一直运行非常良好,但我们也收到这样的投诉:对一些类型的搜索 (如生僻或长尾搜索),Google的一个搜索页面上可能出现很多结果都来自同一个域名的情况。在过去几个星期里,我们改变了我们的算法,使这一现象在未来再也不太可能发生。

这一变化并不会彻底改变有些搜索结果全部来自同一域名的情况;如果某个域名相关性确实非常强,我们仍可能从那个域名中返回多个结果。举例来说,如果一个搜索是[ibm],用户可能确实喜欢并想看到从ibm.com的结果。注意我们的算法变化是一个相当微妙的变化,并没有影响到我们绝大部分的搜索。事实上,这种变化已经存在了几个星期左右,到现在也没有人注意到。:)我在PubCon上谈及此变化的唯一原因是因为有人想听听我对子域名与子目录的意见。

对子域名和子目录,我个人更喜欢子目录。这是因为 我通常倾向于子目录为我的大部分内容提供的方便。一个子域名可有效分离出完全不同的内容。例如,Google为完全不同的产品使用子域名,例如news.google.com或maps.google.com。如果你是一个网络管理员或搜索引擎优化业者新手, 我建议你使用子目录,直到你对你的网站结构有足够的信心。在这一点上,您将可以对你的网站有更好的理解,从而作出正确的决定。

标签: , ,



使用热门选择:元标记(Meta tags)和网页搜索

发表者:John Mueller, 网站管理员趋势分析员,苏黎世
原文:Answering more popular picks: meta tags and web search
发表于:2007年12月4日,星期二,上午11时53分

如果你能写好和维持准确的元标记(例如,描述性标题和为搜索机器人提供的信息),Google就可以更准确地爬行、索引并在搜索结果中显示你的网站。元标记为各种各样的客户端(例如浏览器和搜索引擎)提供信息。请记住,每一个客 户端可能只解析对该客户端有用的元标记,而忽略了其他元标记(虽然它们有其他用处)。

下面是Google如何解析以下HTML页的元标记:

<!DOCTYPE …><head>
<title>传统瑞士奶酪火锅食谱<title>Google使用此标记,网站管理员应非常注意它的准确性
<meta name="description" content="奶酪火锅是 …">Google使用此标记,我们的搜索结果会显示它
<meta name="revisit-after" content="14 days">Google不使用此标记,其他主要搜索引擎也不使用
<META name="verify-v1" content="e8JG…Nw=" />可选,Google网络管理员工具用到此标记
<meta name="GoogleBot" content="noOdp">可选
<meta …>
<meta …>
</head>

<meta name="description" content="对本页的描述">
此标记提供了对当前页面一个简短描述。在很多情况下该描述会作为页面摘要(snippet)显示在Google的搜索结果中。详情请参阅我们的博客文章“使用更好的元描述来改善页面摘要”以及帮助中心的文章“如何更改网站的标题和描述”。虽然描述元标记是可选的,并且不会影响到您的排名,一个好的描述可以产生一个更好的页面摘要,这反过来又可以帮助提高我们的搜索结果质量和你的网页的访问者数量。

<title>页面标题</title>
从技术上讲,标题标记并不是一个元标记,它经常与"description"标记一起使用。此标记的内容(即标题)一般显示在搜索结果中(当然,当用户使用浏览器来浏览网页或察看书签时也能看到页面标题)。我们的博客文章"针对访问者,还是针对搜索引擎?"尤其是"充分利用网页标题"中有关于标题标记的更多信息。

<meta name="robots" content="…, …">
<meta name="googlebot" content="…, …">
这些元标记控制搜索引擎如何抓取和索引页。 "robots"元标记指定的规则适用于所有搜索引擎,"googlebot"元标记指定的规则只适用于Google。Google可以理解以下值(当指定多个值时,用逗号将它们分开) :

当你完全省略此标记或当你指定content= "all"时,默认规则是"index, follow"。"使用robots元标记"中有关于"robots"元标记的更多信息。作为一个说明,你现在也可以在你的页面首部通过"X-Robots-标签"HTTP头指令来指定这一信息。这特别有用,尤其是当你想微调抓取和索引诸如PDF、图片或其他类型的非HTML文件时。

<meta name="google" value="notranslate">
当我们认识到一个页面的内容并不是用用户可能想读的语言所写时,我们往往在搜索结果中提供一个链接以自动翻译你的网页。一般来说,这让你有机会提供独特和令人折服的内容给一个更广大的用户群。不过,在特定情况下,你可能不想你的网页被翻译。用这个元标记,你可以表明你不想让Google提供一个翻译 此页的链接。这个元标记一般不影响该页为任何特定语言的排名。更多的信息请参阅"Google翻译常见问题解答"。

<meta name="verify-v1" content="…">
这是一个Google网站管理员工具的特定元标记,它是被用在你网站的高层页面,以在网站管理员中核实一个网站的所有者(另一种核实方法是上传一个HTML文件)。你为这个标记所设置的"content="的值是由你的网站管理员工具帐户提供的。请注意,这一元标记的content值(包括大小写)必须和你的帐户提供给你的值完全一样,这和你是否从XHTML改变标记为HTML无关,也和你标签的格式是否与你的网页相符无关。详情请见" 如何通过向网站主页中添加元标记来验证网站?"

<meta http-equiv="Content-Type" content="…; charset=…">
这个元标记定义该页的内容类型和字符集。使用这个元标记时,content属性的值必须放在引号中;否则字符属性可能被错误理解。如果你决定 使用这个元标记,不用说,你应该确保你的内容实际上用的是指定的字符集。"Google的网络作者统计"里有一些关于这个元标记的使用的有趣数据。

<meta http-equiv="refresh" content="…;url=…">
这个元标记在一定的时间后将用户指引到一个新的URL,有时它被用来作为一种简单的重定向形式。不是所有浏览器都支持这种重定向。它也可能混淆用户。对显示在搜索引擎结果中的某一页面,如果你需要改变它的URL,我们建议您使用服务器端的301重定向。此外,W3C的"网页内容易读性技巧和故障指南2.0"把它列在应该被废弃的标记中。

(X)HTML和大小写
Google既能阅读HTML式的元标记,也能阅读XHTML式的元标记(无论网页用的是哪种编码)。此外,元标记的大小写一般并不重要--我们把<TITLE> and <title>看作是同样的。但是,"verify-v1"元标记是一个例外,它是区分大小写的。

revisit-after网站地图的lastmod 和 changefreq标记
偶尔,网络管理员不必要地包含了"revisit-after"标记以加快一个搜索引擎的爬行速度,不幸的是,这个元标记大多数情况下是被忽略的。如果你想 让搜索引擎知道你更改页面的信息,你可以提交一个XML格式的网站地图。在该文件中,你可以说明你网站的最后修改日期(lastmod)和URL页面的改变频率(changefreq)。

如果您想要更多的例子,或有对如上所述的元标记有任何疑问,请到我们的Google网站管理员讨论组参与讨论。


又及:你可以阅读网络管理员帮助讨论组里的关于其他热门选择的一个讨论。

标签: ,



使用更好的元描述来改善页面摘要

发表者:页面摘要组
原文:Improve snippets with a meta description makeover
发表于:2007年9月27日,星期四,下午6时46分

页面摘要是我们为每个搜索结果显示的简短的文字预览。你的页面摘要的质量直接影响到你的网站被点击(即Google带给你的流量)的可能性。我们使用了多种策略选择页面摘要。对你来说,如果你能为每个URL写一段信息丰富的元描述,你就可以控制Google对你的URL的页面摘要的显示。

<META NAME="Description" CONTENT="把一段信息丰富的描述放在这里">

为什么Google关注元描述?
我们希望页面摘要能准确地代表搜索结果。我们总是愿意尽可能地显示页面的元描述 ,因为它为用户提供该网址内容的清晰概念。这会指引用户更快地找到好的结果,减少点击后走回头路而使他们感到厌烦并无端增加网络流量的可能性。请记住,由 关键词堆砌而组成的元描述不能达到这个目标,且不太可能被显示在正常的,非元描述的页面摘要。另一个值得注意的是,准确的元描述可以增加点入机会,他们不会影响你的页面在搜索结果中的排名。

高质量的元描述页面摘要




低质量的元描述页面摘要





什么是好的元描述策略?

对不同页面给予不同的描述
不要对每一页都采 用相同或相似的描述,这样对单个页面出现在网页搜索结果的效果没有帮助。如果你这样做,我们不太可能显示你的样板文字。你应为每个具体的一页写一个准确地描述。在首页或其他总结性页面上给一个网站级别的描述,而对其他单个页面使用页面级别的描述。如果你没有时间为每一个单页去 创造一个描述,显然你应该对你的不同网页考虑优先级。至少,为你的关键URL(譬如你的首页和热点页面)创建一个描述。

在描述中明确包含标记性事实
元 描 述不一定是一个句子格式。它是一个放置关于当前页面结构化数据的好地方。举例来说,新闻或博客帖子可以列出作者,出版日期,或署名信息。这给潜在的访客以 非常相关的信息。如果不放在元描述里,它们就可能不会显示在页面摘要里。同样,在产品介绍的页面可能有关键的信息(价格,生产日期,制造商等),他们可能 分布在当前页的各处,所以不可能通过一个页面摘要来显示所有 这方面的资料。如果你把它们放在元描述里,页面摘要就能显示它们了。比如,看一看下面的取自一个主要产品聚集商为“哈利波特7”一书的元描述。

不是很理想的描述:
<META NAME="Description" CONTENT="[域名:redacted]: 哈利波特(7):死神的圣物: 书籍: J. K. Rowling,Mary GrandPré 作者: J. K. Rowling,Mary GrandPré">

有很多原因将导致这段元描述对我们的搜索结果来说不是一个好的页面摘要:
  • 描述中的书名信息和该页面的标题有完全重复的信息。
  • 信息描述本身就有重复(J. K. Rowling, Mary GrandPré 被罗列了两次)。 .
  • 描述提供的信息不清楚,谁是Mary GrandPré?
  • 名字间少了个空格,用了太多的冒号使得描述很难读。
一般用户看Google的搜寻结果页可能只花一秒钟来扫描某一页面摘要,上述的所有因素都意味着用户很可能跳过这一结果。考虑以下的元描述:

好多了的描述:
<meta name="Description" content="作者: J. K. Rowling, 插图: Mary GrandPré, 分类: Books, 价格: $17.99, 长度: 784页">

什么改变了呢?没有重复,更多的信息,所有信息都清楚地标记和分开。并不需要真正的额外工作来产生这样的一种质量:价格和长度是仅有的新数据,他们已经在当前页显示了。

用程序来产生描述
对 诸如新闻媒体源之类的网站来说,为每一页产生一个精确而独特的描述很简单:因为每一篇文章都是手写的,它需要极少的努力来添加了一个句子描述。对诸如产品 聚合器之类的较大型数据 库驱动的网站来说,人工写描述就比较困难了。在这种情况下,使用程序来产生描述是适宜的并受到鼓励的。只是你要确保你的描述看上去不是在产生网络垃圾。就 像我们在上面第一点谈到的,好描述的可读性强并且是多样的。在我们上面谈到的第二点中的网页特有的数据也是一个使用程序产生描述的很好的候选方案。

使用高质量的描述
最 后,请确保你的描述确实是在描述你的页面。人们很容易对元描述的质量控制产生松懈情绪,因为他们在为访客的用户界面上不是直接可见的。但是元描述有可能显 示在Google搜索结果中,如果描述的质量足够高。在元描述上的一点点额外工作可以大大地提高搜索结果中的页面摘要的相关性。这不但可能改善你的网站的 质量,也有可能增加你的用户流量。

标签: ,



怎样最好地使用Flash?

发表者:Mark Berghausen, 搜索质量组

原文:Best uses of Flash
发表于:2007年7月5日,星期四,下午3时15分

我们偶尔会在网站管理员帮助讨论组被问到关于网络管理员如何使用Adobe Flash的问题。我想在这里为那些总是在设计网站时考虑搜索效果的设计者们写两句,谈谈他们在构造一个有很多flash的网站时应该考虑的问题。

正如你们许多人已经知道的那样, Flash是天生的视觉媒介,但Googlebot没有眼睛。 Googlebot往往可以读Flash文件,并提取里面的文本和链接,但忽略文件的结构和上下文。此外,有些文本的内容在Flash里面是以图形方式储 存的,而目前Googlebot还没有眼睛来算法性地看这些图片,那些文本中的重要关键词就完全被忽略了。所有这一切意味着我们会忽略你的一些文本、内容 或者链接,即使你的Flash内容被收录在我们的索引中。更糟的是,即使Googlebot可以理解一些Flash文件,并不是所有的互联网蜘蛛都可以。

那么一个诚实的网页设计师能做什么?Google对此唯一的要求是,你必须为Googlebot和你的用户显示完全一样的东西。如果不这样做,你的网站会被我们的算法怀疑为可疑网站。这个简单的规则覆盖了大量的例子,包括伪装(cloaking), JavaScript重定向,隐藏文本及桥页(Doorway pages)。以下是我们的工程师们集思广益而给出的更实用的建议:
  1. 尽量只在需要的地方才用Flash。许多富媒体(Rich Media)网站,例如Google的YouTube,只为富媒体使用Flash,而依赖于HTML来表达内容和 导航。您也可以这样做,只对网页基调和富媒体使用flash,但不用它来表达内容和导航。这样做除了使你的站点对Googlebot友好外,也使你的 网站便于更多的观众阅读,其中包括,例如,使用屏幕阅读器的盲人,使用古老的或不标准的浏览器的用户,以及使用有限的低带宽连接,如手机或PDA的用户。 一个额外好处是,你的网站访问者可以有效地使用书签,并可以把你的网页地址通过电子邮件传给他们的朋友。
  2. sIFR: 一些网站利用Flash以使浏览器能显示大标题、重点提示、或其他用户可能没有安装在他们的计算机上的字体文本内容。采用象sIFR那样的技术仍允许不能 看Flash的读者能读页面,因为内容和导航其实是在HTML页面上。浏览器所做的只是对一个嵌入Flash对象的显示。
  3. 无flash版本:我们通常见到的一种Flash的使用是,Flash被用作首页的闪屏 ,在flash上有一些到网站其他网页的HTML内容。在这种情况下,在首页上要确保有一个普通HTML链接到一个非flash页。在该非flash页上你的用户可以浏览整个网站,而不需要flash。

如果你有其他想法,想问一问它是不是违反了以上准则,请访问我们的网站管理员讨论组中的爬行、索引和排名讨论区。很多有经验的网站管理员、我自己以及很多其他Google员工,将尽力解答你的问题。

标签: ,



关于通过买卖链接来传递PageRank的最新消息



原文:Information about buying and selling links that pass PageRank
发表于:2007年12月1日下午12时02分,星期六

我们的目标是通过提供公平和准确的结果为用户提供最好的搜索体验。我们迫切希望与网站管理员一起来实现这一目标, 因为当你生成更好、更便于访问的内容时,对互联网,对我们的索引都有好处; 这反过来又使我们能够提供更多相关的搜索结果给用户。

但是如果一个网站管理员选择买卖链接以操纵搜索引擎排名,我们保留保护我们的索引质量的权利。通过买卖链接来传递PageRank违反了我们的站长指南。这种链接会损害我们搜索的相关性而造成:

- 失实:虚假的流行性以及不是基于实际价值、相关性、或权威性的链接
- 不平等:谷歌的有机搜索结果会变成让钱包最鼓的网站占有不公平的优势

为了遵循谷歌的质量准则,买卖链接应通过"rel=nofollow"或其他技术来屏蔽,例如,重定向到一个在robots.txt中被禁止索引的页面。下面是关于我们对买卖链接来传递PageRank的立场的更多解释:

2003年2月:谷歌官方的质量指南已经建议"不要参与旨在增加你的网站排名或PageRank的链接方案"达数年之久。

2005年9月:我在我的博客上发表了“文本链接和PageRank”一文。

2005年12月:我在我的博客上的另一篇文章讨论过这个问题,并表示:
很多致力于搜索引擎排名的人士认为买卖链接会降低互联网上链接的质量。如果你纯粹为了你的访问者或流量而不是为搜索引擎买卖链接,有一个简单的方法(nofollow属性)可以做到这一点。谷歌对买卖链接的立场是相当明确的。我们也在使用算法或手工相当准确地发现买卖的链接。出售链接的网站会失去搜索引擎的信任。
2006年9月:在一次John Battelle对我的采访中,我提到"谷歌一直认为通过销售链接而影响搜索引擎的行为违背了我们的质量准则" 。

2007年1月:我在我的博客中再次提醒人们: "付费博客文章中的链接应以不影响搜索引擎的方式出现" 。

2007年4月:我们提供了让人们向谷歌举报付费链接的机制。

2007年6月:在西雅图召开的搜索营销博览会(SMX)上,我在我的主题演讲中阐述了付费链接问题。这里是主题演讲讨论的录像节选。它的长度不到一分钟,但强调了谷歌将利用算法和人工方法来检测违反我们的质量准则的付费链接,并表达了将采取更强有力的行动来对付这种链接的决心。

2007年6月:一篇谷歌官方站长博客上的文章指出,"通过买卖链接来操纵结果并欺骗搜索引擎违背了我们的指南" 。该文还介绍了在谷歌网络管理员控制台中用户举报买卖链接的新表格。

2007年6月:谷歌在我们的官方站长文档中补充了关于如何举报买卖链接和什么样的链接计划违反了我们的质量准则的更具体的指导。

2007年8月:在圣何塞的搜索引擎战略(SES)会议上有一个专门关于付费链接的分会场,我描述了谷歌关于买卖链接的官方立场。

2007年9月:在我的博客的一篇文章中,我扼述了SES圣何塞会议,也把我在会上的演讲(powerpoint链接)提供给了广大用户。

2007年10月:谷歌为一篇题为"谷歌清洗了互联网贿赂"的福布斯文章提供评论。

2007年10月:谷歌正式向Search Engine Land证实,我们正在对买卖链接采取强有力的措施,包括降低通过销售链接来传递PageRank的网站的工具栏中的PageRank

2007年10月:我发给搜索引擎杂志的一个电子邮件也明确表示谷歌正在对通过买卖链接来传递PageRank的行为采取更强有力的行动。

我们非常感谢用户对付费连接问题给我们的反馈。一些较普遍的问题是:

问:通过买卖链接传递PageRank的行为违反谷歌的指南吗?为什么?
答:是的,我们已在上面陈述了理由。最近我在我的个人博客中有一个贴子,该贴通过一个例子来说明为什么搜索引擎不希望存在这样的链接。我们标出了在一篇严肃的医学话题(脑肿瘤)文章中的一些链接。写文章的人收了一些钱,撰写了关于脑肿瘤治疗的文章,但他们根本不懂脑肿瘤的治疗。很多情况下,写付费文章的人不会做一点哪怕是最基本的研究(甚至是拼写检查!)。

问:这一问题是谷歌独有吗?
答:不是。所有主要的搜索引擎都反对买卖影响搜索引擎的链接。对于福布斯文章“谷歌清洗了互联网贿赂”,Andy Greenberg也询问了其他搜索引擎的政策,结果是一致的。看一看下面的故事:
搜索引擎讨厌这种付费链接的流行。谷歌的站长指南禁止购买只是为了提高搜索排名的链接。其它搜索引擎(包括Ask, MSN及雅虎),只要他们是模仿谷歌基于链接的搜索排名的搜索引擎,都劝阻买卖链接。
其他搜索引擎也有对买卖链接的特别评论,例如,微软搜索引擎代表在最近的一次采访中评论说:

实际情况是,大多数付费链接是 a.) 显然是不客观的;b.) 往往是无关紧要的。如果你问付费链接的影响,我的答案是,绝对有较大的风险。我们将不会容忍任何对用户体验没有增加多大价值并试图有效地欺骗我们的系统的假链接。

问:这就是为什么我们看到一些卖链接的网站在谷歌的工具栏上的PageRank较低的原因?
答:是的。如果一个站点在卖链接,它会影响我们对该网站的价值的判断,或直接导致我们对该站失去信任。

问:如果一个网站通过卖链接来传递PageRank,并且该网站自己的PageRank在谷歌工具栏被降低了,网站所有者可以做什么来补救?
答:网站所有者可以停止违背网络管理员指南的行为,并在谷歌的站长中心控制台提交复议请求。在提出复议请求之前,请确保所有售出的链接不再传递PageRank或者删除它们。

问:谷歌是不是在告诉网站管理员如何管理自己的网站?
答:不是。我们给每个想使他们的网站在谷歌上有良好表现的网站管理员提出参考。正如我在20076月的主题演讲视频中所说,网站管理员可以随心所欲地创建它们的网站,但是谷歌保留保障我们的索引质量和相关性的权利。据我们所知,所有主要的搜索引擎都采取了同样的立场。


问:谷歌是不是在试图打压其他用来增加网站流量的广告形式?
答: 没有,完全不是这回事。我们的站长指南明确指出,你可以使用链接的手段来获得有针对性的流量。事实上,我在20078月的演讲中,特意举了几个完全符合我们的指南的非谷歌广告的例子。我们只是希望付费链接能自己让搜索引擎知道它们是付费的,这样它们就不会影响搜索引擎的运作。

问:我知道有一个网站似乎是在买卖链接。我怎样才能把这一信息告诉谷歌?
答:请阅读我们在2007早期的一篇关于如何报告付费链接的贴子。我们已经在短短几个月内收到了数以千计的举报,但我们欢迎有更多的举报。我们非常感谢你们的反馈,因为它帮助我们采取直接行动,并改善现有的检测算法。我们也使用该数据来训练用以检测违反我们质量准则的付费链接的新算法。

问:我可以得到更多的信息吗?
答:当然可以。我今年早些时候写了关于付费链接问题的更多解答。如果你还有问题,你可以随时加入我们的站长帮助小组的讨论。

标签: , ,



SEO的建议:URL标准化

译自: Matt Cutts博客

(译者按: Matt Cutts, 谷歌反网络作弊组的带头人, 于2006年1月4日在他的个人博客上发表了"SEO advice: url canonicalization"一文。尽管已快两年了,Google也为网站管理员提供了站长工具,我们发现对很多站长来说该文仍是一篇很好的SEO文章。)


在我开始收集关于Bigdaddy数据中心的反馈之前,我想简略地谈一谈有关标准化、“www相对于非www”、重新定向、重复URLs、302“劫持”等问题的看法,这样我们的讨论才有共同的基础。

问:什么是一个标准化URL?为什么要用这么一个奇怪的字眼?
答:很抱歉,这是一个奇怪的词汇;这是谷歌内部对它的称呼。标准化是一个在若干选项中选取最佳URL的过程,这里通常是指主页。例如,多数人会将下列URL看作相同性质的:

* www.example.com
* example.com/
* www.example.com/index.html
* example.com/home.asp

但是从技术角度看,这些URL都是互不相同的。对于上述URLs,Web服务器会返回完全不同的内容。当谷歌“标准化”特定的URL时,我们试图从一整套同类URL中选出看起来最具代表性的一个。

问:那么我如何能确保谷歌能挑选出我所想要的URL?
答:挑选出你想要的URL,并且在此后一直使用这个URL访问特定网站,这是很有帮助的。例如,不要让同一个输入的链接一半指向http://example.com/而另一半则指向http://www.example.com/ 。相反,挑选一个你喜欢的URL,并且在你的内部链接中总是使用这个格式。
(译者注:现在你可以使用站长工具来通过“控制台 > 工具 > 设置首选域名”)。

问:除此之外,我还能做什么?
答:比如,如果你希望你的默认URL为http://www.example.com/。那么,你可以设置你的web服务器,这样如果有人请求http://example.com/,它就会产生一个301的(永久性)重新定向,链接到http://www.example.com/。这样可以帮助谷歌了解到你希望将哪个URL作为自己的标准。如果您的网站常有变更(例如动态内容和博客等),那么加入一个301重新定向可能更便于搜索引擎的定位和捕获。

问:如果我希望去掉domain.com,但希望保留www.domain.com,我是否应该使用URL清除工具来删除这个域名?
答:不要,绝对不要这样做。对于任何一个www域名,或非www 域名,一旦删除其结果可能导致该域名在未来六个月内无法恢复。绝对不要这样做。如果你本想使用URL清除工具删除www域名或者非www域名,但实际上却删除了你所有的域名,请发送一个重新收录请求,并声明你用URL清除工具不小心删除了整个域名,现在要求重新收录。

问:我注意到,你自己并没有使用301重新定向将你的站点从非www版本转向www版本,为何没有这样做?
答:实际上我是故意这样做的。我几个月之前就注意到了这一点,但决定不自行调整,或者请求谷歌员工帮我搞定它。我或许最终会加入一个301,但至少到目前为止,它还是一个有帮助的实验案例。

问: 那么在讨论“www与非www”时,你也认为这是一种标准化的类型吗?还有没有别的方法能实现URL的标准化?
答:确实还有很多方法,但是多数人不会也无需注意到这些。搜索引擎能够自动完成诸如保留或者删除末尾的斜杠、将URL从大写格式转换为小写格式,或者将session ID从BBS或其他软件上删除等任务(即使你省略了session ID,许多BBS依然能够正常运行)。

问:让我们谈谈"inurl:"操作符。为何每个人都认为如果inurl:mydomain.com显示出某些并非来自mydomain.com的结果,那么他一定是被人劫持了?
答:早先,如果你看到someresult.com/search2.php?url=mydomain.com,有时候其中会包含来自mydomain的内容。如果someresult.com url是一个指向mydomain.com的302重新定向,而我们决定显示一个来自someresult.com的结果,就会产生这种情况。从那以后,我们已经改变了我们的启发方式,大大降低了302重新定向源URL的显示几率。我们逐渐采纳了一个用于处理重新定向的框架,它几乎总是显示目的地URL。雅虎通常采用显示目的地URL的方式来处理302重新定向,而我们正处于逐步过渡到一套类似启发方式的过程中。请注意,雅虎保留了在重新定向的过程中处理所出现的例外的权力,而谷歌也会这样做。根据我们的分析,我们将在302重新定向过程中显示URL源的总概率不到0.5%(基本上,当我们有足够的理由相信URL源正确无误时才会显示)。

问:那么,补充材料又如何呢?补充材料是否会招致谷歌的惩罚?
答:不会。
(译者注:补充材料已成为历史。请阅读补充材料转为主流一文)。

问:在补充性结果中有我的一些网页,但这些网页已经很老旧了。我该怎么办?
答:如果换了我,就不会在这方面花太多的精力。如果网页已经删除,我会确保有一个301重新定向,指向新网页的位置。如果的确彻底消失了,我会确保服务器返回一个关于这些网页的404错误信息。此后,我不会再花费任何精力。当谷歌最终重新抓取那些网页时,就会发现其中的变化。但是由于我们自己爬取补充性结果的时间间隔要长一些,所以你可能在一段时间内看不到更新。

目前我能想到的只有这些。很快,我会更详细地谈论一些关于302和inurl:的范例,帮助大家更具体地理解这个问题。

标签: , ,



再谈《谷歌站长指南》

发表者:Vanessa Fox

原文: More details about our webmaster guidelines
发表于: 2007年6月7日,星期四 5:59PM

在星期一的SMX Advanced大会上,Matt Cutts 谈论了我们的站长指南。后来在问答过程中,有人提出要我们在指南中增加更多细节:更详细地解释违反规定的情形,并且让指南更具有可操作性,帮助用户改进他们的站点。既然大家提出要求,我们说做就做!星期二,Matt向SMX与会者宣布,我们连夜更新了指南,把大家想要的内容加了进去! 速战速决!(当然,我们也得承认,此前我们已经在准备了)。

那么,有哪些新东西呢?实际上指南本身并没有变。但是具体的质量指南现在有了扩展信息的链接,帮助你更好地理解如何发现和纠正问题。我把这一节贴在下面,大家可以点击查看,了解这些新增的细节。

质量指南 - 具体指南
正如Riona MacNarmara近日在我们的论坛中发的帖子里所说,我们正努力进一步拓展我们的站长帮助内容,并希望得到你的意见和建议。如果你有任何建议,请对Riona的帖子跟帖或对此帖发表评价。我们期待聆听您的见解!

标签: , , ,



针对访问者,还是针对搜索引擎?

Venessa Fox

原文: Target visitors or search engines?
发表于: 2006年10月31日星期二 4:22 PM

上周五下午,我有幸赶上了西雅图"博客商务峰会"的尾声。在名为"博客与SEO战略"的议程上,John Battelle提出了一个不错的观点。他说,自己作为一名作家,并不想花时间来思考搜索引擎优化的问题。Dave Taylor谈到了标题签内的文字顺序和关键词密度的问题,他主张在URL中用连字符,而不是下划线

我们同意他们的观点,这也是为什么您会发现我们的"站长指南"中大部分条款都是为访问者而不是为搜索引擎设置的。对访问者友好的设计也一定对搜索引擎友好。"谷歌站长中心"开发组与那些很关心谷歌如何抓取和检索网站(包括那些包含连字符和下划线的网站)的网站所有者们进行了细节方面的沟通,但是其他大多数网站所有者只关心自己能否搭建一个了不起的网站。好的消息是关于谷歌如何抓取和检索网站的指南与提示的最终目的归结为给我们的 搜索结果提供更好的内容。

以下是对John Battelle关于怎样确保您的网站对访问者友好的观点精髓的概括。

充分利用网页标题

这适用于网页本身的主标题,也适用于浏览器标题栏中出现的标题。

无论何时,要尽可能确保每一张网页都带有独一无二、可描述网页特征的标题。举例说明,如果您的网站是"Buffy沙发商店",访问者或许希望将您的主页收藏为书签,订购一个松软的红色沙发。如果您所有的网页标题都是"欢迎光临我的网站",访问者或许难以再次从自己收藏的众多标签中找出您的网站。但是,如果您的主页标题是"Buffy沙发商店",而您的"红色沙发页"标题为"Buffy的红色松软沙发",那么访问者只要瞥一眼标题,就可以大概了解网页内容,今后也能轻易地从书签中把它找出来。并且,如果访问您网站的人像我一样,喜欢同时打开若干个浏览器窗口,就会更加喜爱有助于网上导航的描述性标题了。

这项有助于访问者的简单提示同样有助于搜索引擎。搜索引擎以网页内所包含的文字为基础,对它们进行检索,而其中的描述性标题能够帮助搜索引擎了解网页的主要内容。搜索引擎在搜索结果中经常引用网页的标题。"欢迎访问我的网站"等标题或许不会像"Buffy沙发商店"那样有助于怂恿搜索引擎用户在搜索结果中点击您的网站。

用文字说话

图像、Flash和其他多媒体内容固然可以美化您的网页,但是请确保用文本或者ALT文 本的形式来表述您的核心讯息,同时提供关于多媒体内容的文字性描述。这对于以文字为基础的搜索引擎而言是大有裨益的:毕竟搜索用户是以字词形式输入搜索查询的。这样做同样有助于访问者,因为他们或许已经对浏览器进行了设置,屏蔽了图像或者Flash内容,或者正在使用屏幕阅读器或移动设备。您完全可以为您基于多媒体的网页提供另一个HTML版本(如果您这样做的话,请一定记得用一个robots.txt文件来阻止搜索引擎对多媒体版本进行检索)。

确保您正在谈论的文字的确包含着内容里

访问者或许不会像阅读报纸文章或书籍那样从头到尾地阅读您的网站。他们或许跟随者其他地方的什么链接来到了您网站中的任何一个网页。确保为任何所有网页提供上下文背景。在您的"订购"页上,请不要简单地写上"立即订购!",而要标明类似"立即订购您松软的红沙发"等语句。同时,也要为正在阅读您的网站的访问者考虑。不要在一个网页中塞入大量的文字,以为这样可以让搜索引擎检索到更多的文字。要为您 的访问者考虑。设想一下他们希望搜索什么:用户有可能使用一些非正规的关键词,而您的网站却充斥着行话、术语。

正如我在Matt Cutts的博客中撰写一篇关于连字符和下划线的客座文章时所说:

您固然了解自己的网站,所以在查看自己的主页时一切都显得简单明了。但是,您可以让其他人帮你看看你的网站,并且事先不要对他们进行任何说明。这种情况下他们会对您的网站产生什么看法呢?

思考这样的文字:

"我们有数以千计的研习班和课程供您选择,必有一款适合于您。您只需在我们所营造的轻松环境下花费一个小时或一个星期时间。"

这个网站能否出现在以"烹饪课程"或"品酒研习班"甚至"西雅图课程"为关键词的搜索结果中?或许对于访问者(或搜索引擎)而言,您的网站并非像您想象的那样清晰明了。

出于同样的原因,您的内容是否使用了人们经常搜索的关键词?您的网站文字是否包含"查看我们的热销房屋"而搜索用户的关键词是"波士顿房地产"?

确保您的网页总是能被访问到

我知道,这个帖子要谈的是文字内容而不是技术细节。但是访问者如果打不开您的网站,就读不到其中的内容。如果有人试图进入您的网页,而网络出现故障,或您的服务器返回了错误信息,遇到麻烦的不仅仅是搜索引擎。幸运的是站长工具使这件事变得很容易。如果我们在访问您的任何网页中遇到了困难,都会及时通知您。我们会告诉您,具体是那个网页打不开,并确切地告诉您我们遇到了什么类型的错误。这些 问题也许不是那么容易解决,但我们会努力让这些问题易于被找到。

标签: ,



远离自动产生的链接



好网站的特性

好的网站通常内容丰富、更新及时。好的网站往往链接其他好网站,同时也吸引更多点击。自然的链接是谷歌页面排名算法决定排名的因素之一,但是,很多网站管理员认为"反向链接越多,网站的排名越高"。这一理论是错误的。

Google的排名算法对网站的评价是一个多元化的系统。在考虑反向链接的同时会甄别有效链接和自动产生的链接。一个明显的例子就是2007年5月份结束的渡虎谷大赛,谷歌排名第一的网站的反向链接总数是3,600个左右, 其他许多低排名网站的反向链接超过了10,000个,大多数的链接是程序产生的链接。

什么是自动产生的链接?

我们常看到的程序自动产生的链接有两种:
  1. 使用群发软件所产生的链接
  2. 使用程序自动往自己或合作伙伴的网页中加链接。

这是一个由群发软件产生自动链接并发表在留言簿上的例子:

这是一个由程序在自己或合作伙伴的网页上添加自动链接的例子:



请注意图中的"表"和"上汽"的拙劣链接。

我们对自动链接的处理

网站通过买卖链接,自助链接,和程序自动产生的链接与谷歌网站管理员指南相抵触。请注意,如果你的网站有自动产生的链接,我们会有如下处理:

  1. 谷歌不会给予自动产生的链接任何权重
  2. 如果一个网站为自己产生不自然的链接,该网站在谷歌中的排名会受到影响并可能被从我们的索引中移去。
最后,我想强调的是,网站管理员应该把重点放在建立更好的内容和发现自然链接上。想了解更多关于建立高质量网站的信息,请访问如何建立一个对谷歌友好的网站

标签: ,



Quality websites avoid auto-generated linking



Characteristics of quality sites
Quality sites are rich in compelling content and are kept up-to-date. These sites attract natural links from other webmasters, and obtain higher clickthrough rates from users. Natural links are one factor Google uses to determine PageRank -- but many webmasters mistakenly interpret that concept as "the more backlinks you have, the higher your site should rank." This theory is incorrect.

Google's ranking algorithms consider many factors in evaluating a website, not just their backlinks, but also distinguishing organic versus auto-generated links. A prominent example of our algorithm calculating more than links alone can be seen in the May 2007 DuHuGu Contest. The winning site (that ranked number one on Google) had about 3,600 backlinks in total, while many other sites with lower ranking contained greater than 10,000 backlinks. Most likely, many of these links were auto-generated.

What are auto-generated links?
We commonly see two types:
  1. spamware generated links
  2. programs provided by some domains for automatically adding links
Here's an example of spamware used to automatically generate links in a guestbook entry:
Here's an example of programmatically adding links:



Notice the awkward links with the anchor text "表" and "上汽".

Our take against auto-generated linking

Sites that participate in link buying, self-service linking, and using programs to automatically generate links run the risk of violating our Google webmaster guidelines. Please be aware that if you auto-generate links, your site can be treated in the following ways:
  1. Google will not give credit for auto-generated links.
  2. When we detect that a site has unnaturally generated their own backlinks, the site's ranking can be negatively affected and can be removed from our index.
Again, webmasters should focus on creating strong content and building natural links. For more information on building a quality website, please visit How to create a Google friendly site.

标签:



谷歌的算法更改和数据刷新

[译者按] 我们在中文网管论坛上总能看到一些关于算法更改和数据刷新的讨论. Matt Cutts, 谷歌反网络作弊组的带头人, 于2006年12月23日在他的个人博客上发表了他对这两个概念的理解.

原文 Explaining algorithm updates and data refreshes

这两天一组发表在管理员世界上的帖子在问Google是否进行了更新,我在这里可以很明确地回答:并没有。

如果想要更具体的解释,让我们先来熟悉一下相关的定义。你可以参考这篇blog文章或者看看这段视频(我视频集的第八部分)。我下面会尽力用简短的语言概括一下重点:

算法更改:通常算法的更新会对搜索结果整体产生影响。算法随时可能改变,但是并不会很频繁地发生明显的变化。

数据更新:指现有算法内的数据的更新。这种更新多数是对于那些对搜索结果影响较小的部分,并且变化如此细微以至于我们是不会感觉到的。更小规模的数据更新的一种是:

索引更新: 指新的索引数据被传送到各个服务器。从2000年到2003年间,目录大约是每个月更新一次。带来的变化被称作Google Dance。Google Dance会持续大约6到8天,因为服务器的更新需要轮流进行,直到这些数据库全部被更新为一个全新的网络数据索引,而这是需要一定的时间来完成的。在2003年的夏天(这次的Google Dance被称为“弗里茨更新”),Google 的索引更新由原来的每月一次变成了每天一次(甚至更频繁)。Google几乎每天都会更新一部分索引的内容,这样每天的变化就远远不如先前那么明显(有人称Google 索引的明显变化为everflux)。

近些年来,Google的索引已经进行了改进,使大多数人根本感觉不到它的更新。 由此,诸如“everflux”、“Google Dance”以及“索引更新”这类词汇就很少被提起了(除非是被用错了地方 :) )。取而代之的是,大部分SEO会去关注算法更改或数据更改/刷新。大多数的数据升级就是索引更新,虽然偶尔数据升级会独立于每天的索引更新而进行。例如,每3、4个月会察觉到反向链接和PageRanks的变化。

好了,我们来做个小测验,看你刚才读的够不够仔细:

问:判断对错:索引更新是一种数据刷新。

答:当然正确!注意,我在第四段里刚刚提到。 :) 不要纠缠“更改”和“更新”的区别,因为他们基本上是一回事。其实就是算法,和算法所使用的数据。数据的变化很大程度上就是我们索引的更新。

可以确定的是,过去的几年中并没有大规模的算法更新,而仅有的数据升级都是最普通的(索引更新)。因此,在管理员世界上发帖的人讨论的是什么呢?再去看看这段视频吧。听清楚其中有关“6月27号,7月27号和8月17号的数据升级”的部分。我曾经在网上说过,这些更新很可能会每天发生。在过去的一个月里,数据升级变得更频繁(从原来的3-4周一次到现在每天一次)。我能做的最好的猜测是:人们所看到的任何变化是源于相关数据的升级更为频繁了。

较早对“谷歌的算法更改和数据刷新”的21个评论存档

标签: , , ,



巧妙地处理内容重复

用户经常问我们关于重复内容的问题。以下文章翻译自谷歌网站管理员中心英文官方博客。作者是Adam Lasnik, 谷歌搜索布道者。发表于2006年12月18日。

原文 Deftly dealing with duplicate content

最近,搜索引擎战略会议在寒冷的芝加哥举行。许多谷歌参加者总是被问及关于重复内容的问题。对于这个话题,我们发现有许多破碎的并且有些混乱的理解。我们想在此予以澄清。

什么是内容重复?

重复的内容一般是指在不同域名间存在大量的相同或相似的内容。很多时候,它并非故意或至少本无恶意。譬如说,有些论坛会生成一些专为手机屏幕的页面;商店物品被显示在(有时甚至是链接到)多种不同的URL上,等等。但有些时候,一些网站为了操纵搜索引擎排名,获得更多流行或长尾查询的访问量,大量地从其他网站复制内容。

什么不是重复内容?

虽然谷歌网站有方便易用的翻译功能,我们的算法不会把有着相同内容的英文版和西班牙文版看作内容复制。同样,你不用担心我们把你文章中对其他文章小片段的引用认定为重复内容。

为什么谷歌关心重复内容?

谷歌用户使用Google时通常希望看到多样化的原创内容。如果他们找到的都是内容相同的一堆搜索结果,可以想见那是多么烦人。另外,网站管理员不愿意看到Google给出象example.com/contentredir?value=shorty-george〈=en一样复杂的URL。他们往往更喜欢类似example.com/en/shorty-george.htm的URL。

谷歌做了些什么?

Google在抓取网页和获得搜索结果时,总是力图索引并显示内容不同的页面。这种过滤意味着,譬如说,如果你的网站有文章的正常版和打印版,并且你没有在robots.txt里设定noindex标记,谷歌就只会选择一个版本显示给谷歌用户。对于企图利用复制内容来操控排名,欺骗谷歌用户的少数情况,我们会在对相关页面的索引和排名作出适当调整。当然,我们更愿意把重点放在过滤而不是排名调整上... 因此,在绝大多数情况下,最坏的结果就是原创者看到了不愿看到的版本出现在我们的索引里。

网站管理员如何主动处理内容复制问题?
  • 适当阻止搜索引擎访问:与其让我们的算法来确定一个文件的"最佳"版本,你也许希望指引谷歌选取你的首选版本。譬如说,如果你不想我们索引你网站文章的打印版,你可以在你的robots.txt文件中写上目录名或正则表达式来禁止谷歌对那些打印版的抓取。
  • 使用301重定向:如果你已经重构你的网站,请在你的原网站的.htaccess中使用301重定向(永久性重定向)来重定向你的用户、Google爬虫、以及其他搜索引擎蜘蛛等。
  • 链接要一致:努力使你的内部链接保持一致; 不要既有/page/,又有/page和/page/index.htm 的内部链接.
  • 使用顶级域名:为了让我们总是使用最合适的文件版本, 请尽可能使用国家特定的顶级域名。与诸如example.com/de或de.example.com的URL相比,谷歌肯定更清楚地知道example.de是以德文为核心的内容。
  • 小心辛迪加式的联合供文:如果你为其他网站上也提供你的内容,请在每一个其他网站的文章中包括连回原文章的链接。注意:即使是这样,对一个查询,谷歌总是显示我们认为是最适合的(没被网站禁止的)版本, 它可能是,也有可能不是你所想要的版本。
  • 使用谷歌网站管理员工具的首选域功能: 如果其他网站链接你的URL时既使用www版本又使用无www的版本,你可以用谷歌网站管理员工具让我们知道你想要哪种索引方式。
  • 减少模板网页上的重复内容:拿版权声明来说,你有两种选择,一种是在你的每一个页面底部都有一个冗长的版权声明。另一种是设立一个专门的版权详细声明页,然后在每页底部写一个非常简短的总结,并链接到版权声明页。
  • 避免发布无内容页:用户不喜欢看到无实际内容的页面。要尽量避免空架页。以房地产网页为例,不要发布(或至少要阻止)没有点评的点评网页,或者没有房地产列表的房地产罗列网站等。只有这样,网站用户(以及Google爬虫)才不会看到无穷多的写着“以下是在【某城市名】中不可错失的待租房列表...”但其实根本没有什么列表的网页。
  • 了解你的内容管理系统:确保你熟悉你的网站是怎样显示内容的,尤其是当它包括了博客,论坛,或相关的系统。往往在这些系统中同一内容会以多种形式出现。
  • 不要担心,保持快乐:不要过分受搜刮(挪用和转载)你内容站点的干扰。虽然很恼人, 它们几乎不可能对你在谷歌中的存在产生负面影响。如果你实在忍无可忍, 欢迎你提出千禧年著作权法案申请来声明对你的内容的所有权。我们会处理那些无赖网站。
总之, 如果你对内容复制问题有一个大体的认识,又能花上几分钟有见地地预防性维护一下你的网站,这将既帮助你们,也帮助我们为用户提供独特而相关的内容。

较早对“巧妙地处理内容重复”的40个评论存档

标签: ,



Deftly dealing with duplicate content

We received a lot of questions about duplicate content. The following article was posted on Google Webmaster Central Blog by Adam Lasnik, Google Search Evangelist, on December 18, 2006.

Deftly dealing with duplicate content

At the recent Search Engine Strategies conference in freezing Chicago, many of us Googlers were asked questions about duplicate content. We recognize that there are many nuances and a bit of confusion on the topic, so we'd like to help set the record straight.

What is duplicate content?

Duplicate content generally refers to substantive blocks of content within or across domains that either completely match other content or are appreciably similar. Most of the time when we see this, it's unintentional or at least not malicious in origin: forums that generate both regular and stripped-down mobile-targeted pages, store items shown (and -- worse yet -- linked) via multiple distinct URLs, and so on. In some cases, content is duplicated across domains in an attempt to manipulate search engine rankings or garner more traffic via popular or long-tail queries.

What isn't duplicate content?

Though we do offer a handy translation utility, our algorithms won't view the same article
written in English and Spanish as duplicate content. Similarly, you shouldn't worry about occasional snippets (quotes and otherwise) being flagged as duplicate content.

Why does Google care about duplicate content?

Our users typically want to see a diverse cross-section of unique content when they do searches. In contrast, they're understandably annoyed when they see substantially the same content within a set of search results. Also, webmasters become sad when we show a complex URL (example.com/contentredir?value=shorty-george〈=en) instead of the pretty URL they prefer (example.com/en/shorty-george.htm).

What does Google do about it?

During our crawling and when serving search results, we try hard to index and show pages with distinct information. This filtering means, for instance, that if your site has articles in "regular" and "printer" versions and neither set is blocked in robots.txt or via a noindex meta tag, we'll choose one version to list. In the rare cases in which we perceive that duplicate content may be shown with intent to manipulate our rankings and deceive our users, we'll also make appropriate adjustments in the indexing and ranking of the sites involved. However, we prefer to focus on filtering rather than ranking adjustments ... so in the vast majority of cases, the worst thing that'll befall webmasters is to see the "less desired" version of a page shown in our index.

How can Webmasters proactively address duplicate content issues?
  • Block appropriately: Rather than letting our algorithms determine the "best" version of a document, you may wish to help guide us to your preferred version. For instance, if you don't want us to index the printer versions of your site's articles, disallow those directories or make use of regular expressions in your robots.txt file.
  • Use 301s: If you have restructured your site, use 301 redirects ("RedirectPermanent") in your .htaccess file to smartly redirect users, the Googlebot, and other spiders.
  • Be consistent: Endeavor to keep your internal linking consistent; don't link to /page/ and /page and /page/index.htm.
  • Use TLDs: To help us serve the most appropriate version of a document, use top level domains whenever possible to handle country-specific content. We're more likely to know that .de indicates Germany-focused content, for instance, than /de or de.example.com.
  • Syndicate carefully: If you syndicate your content on other sites, make sure they include a link back to the original article on each syndicated article. Even with that, note that we'll always show the (unblocked) version we think is most appropriate for users in each given search, which may or may not be the version you'd prefer.
  • Use the preferred domain feature of webmaster tools: If other sites link to yours using both the www and non-www version of your URLs, you can let us know which way you prefer your site to be indexed.
  • Minimize boilerplate repetition: For instance, instead of including lengthy copyright text on the bottom of every page, include a very brief summary and then link to a page with more details.
  • Avoid publishing stubs: Users don't like seeing "empty" pages, so avoid placeholders where possible. This means not publishing (or at least blocking) pages with zero reviews, no real estate listings, etc., so users (and bots) aren't subjected to a zillion instances of "Below you'll find a superb list of all the great rental opportunities in [insert cityname]..." with no actual listings.
  • Understand your CMS: Make sure you're familiar with how content is displayed on your Web site, particularly if it includes a blog, a forum, or related system that often shows the same content in multiple formats.
  • Don't worry be happy: Don't fret too much about sites that scrape (misappropriate and republish) your content. Though annoying, it's highly unlikely that such sites can negatively impact your site's presence in Google. If you do spot a case that's particularly frustrating, you are welcome to file a DMCA request to claim ownership of the content and have us deal with the rogue site.
In short, a general awareness of duplicate content issues and a few minutes of thoughtful preventative maintenance should help you to help us provide users with unique and relevant content.


较早对“Deftly dealing with duplicate content”的1个评论存档

标签:



Google(谷歌)的网站优化利器---中文网站管理员工具

发表者:谷海一粟,软件工程师

在搜索引擎如日中天的今天,网管的工作除了管理网站内容,维护网站性能和安全外,如何通过搜索引擎推销自己的网站成为一个非常重要的任务。谷歌作为世界上最大的搜索引擎,非常注重和网管的互动。20068月,谷歌在其网站管理员中心推出了网站管理员工具,并随后推出了中文版。它不但完全免费,和广告完全无关,并且无须安装,是一个在线工具。

不知道这个工具?不要紧,你并不孤单。

20075月,我参加了在福建厦门举行的搜索引擎战略大会(SES)。我比较吃惊地意识到,大多数中文网管,包括搜索引擎优化(SEO)业者,并不知道谷歌为他们量体定身所做的这款网站管理员中文工具。换句话说,大多数中文网管以及一些SEO业者还在“摸着石头过河”推销网站或者根本不知道Google已有或者可以提供他们网站的信息。

谷歌推出网站管理员工具之前,要想推销自己的网站,一个普通网管的做法就是管理好网站的内容,希望谷歌能很好地索引自己的网站,并把自己的网站排在前列。至于谷歌是否真的对所有的页面都进行了正确的索引,自己的网站究竟排在那些关键词查询的前列,哪些网页有反向链接等等问题,绝大多数网管是没底的。可以说网管在搜索引擎面前是比较被动的。有些网站干脆花钱让SEO公司来推销他们的网站。有了谷歌网站管理员工具之后,网管们对自己的网站在谷歌的表现就一目了然了。绝大多数网管可以利用谷歌的网站管理员工具的来轻松地优化他们的网站,对有些网管来说更是如虎添翼。

让我们来看看谷歌的网站管理员工具功能究竟有多强大吧。该工具包含以下主要功能:
  1. 你可以在任何连上互联网的计算机上通过网络浏览器(例如 Internet Explorer Firefox) 来访问网站管理员工具得到你的网站的信息。
  2. 你可以轻松地查询和调整谷歌爬虫爬行你网站的频率。你还可以查询谷歌爬行的成功率并研究为什么不成功。
  3. 察看你的网页是否正确地被谷歌索引了。这项功能相当重要。如果谷歌不能正确索引你的网页,其他搜索引擎极有可能也不能正确索引你的网页。
  4. 你可以查询哪些网站在链向你的网页。
  5. 查询你的网站在哪些Google关键词中排名前列。
  6. 查询哪些关键词给你真正带来了流量。
  7. 你可以构造你的网站地图,让谷歌索引所有你想要它索引的网页,尤其是那些谷歌还没爬到的网页,以及一些动态网页。
  8. 回答各种你所感兴趣的问题。譬如说,什么叫桥页
  9. 有时你可以查询是否你的一些网页违反了谷歌的网站质量指南而受到了惩罚。虽然我们不显示对所有网站的所有惩罚,我们显示了对一些网站的惩罚。
  10. 如果你发现作弊网页,你可以通过该工具举报。


在这些功能中,也许第五项功能最为重要。通过它,你可以知道你的网站是否真正排在你所期望的关键词的搜索结果前列。如果不是您所期望的甚至你的网站排在了你不期望的关键词结果前列(例如,你的网站排在了“劣质产品”查询结果的前列),你就必须分析为什么。

该工具的另外一个功能是,如果你使用它,它就是你和谷歌之间联系的桥梁。有时候谷歌想对你的网站进行友情提示,譬如说,你的网站是个好网站,但由于各种原因(例如你的网站被黑了)存在一些违反谷歌网站管理员指南的内容。如果没有网站管理员工具,从你的网页上又根本找不到联系方式,我们就无法联系您。有了工具,谷歌和你的联系就畅通无阻了。

那么怎样才可以使用谷歌网站管理员工具呢?要使用该工具首先要有一个谷歌帐号,即gmail.com帐号。如果你还没有的话,访问http://www.gmail.com,点击“注册 Gmail”后按照指令操作就可以得到一个帐号。有了帐号后,访问网站管理员中心,点击网站管理员工具就能使用该工具了。你所做的第一件事可能就是添加你所属的网站到该工具。谷歌会通过一个认证的过程来确认你所添加的网站确实属于你。然后你就可以看到谷歌提供给您(也仅仅是给您)的内部信息了。

试试看,希望你能感到“世界真奇妙”。

较早对“Google(谷歌)的网站优化利器---中文网站管理员工具”的41个评论存档

标签: , , ,



SEO secret weapon -- Google Webmaster Tool

At a time like today when search engines play such an important role in the cyberworld, apart from content management and website maintenance, webmasters regard how to promote their own websites through search engine as another important responsibility. As the world’s largest search engine, Google has always emphasized communication with webmasters. On August 2006, Google launched Webmaster Tools on Webmaster Central (English), followed by a Chinese version. It is not only free and ads-free, but also is an online tool which means no installation is needed.

You’ve never heard of Google Webmaster Tools? You are not alone.

On May 2007, I attended the SES conference in Xiamen, Fujian. To my surprise, a majority of Chinese webmasters, including SEOs, have no idea about this great tool that Google created for them. In other words, most Chinese webmasters and SEOs are far left behind in the knowledge of tools that Google provides for information about their web site.

Before Google Webmaster Tools was launched, the way for a regular website to promote itself was to manage the content with the hope that Google can index their website and rank high on search result pages. However, the webmaster would have no idea as to whether or not Google has indexed all pages of the website correctly, for which queries/keywords, which pages have backlinks, etc. That is to say, webmasters were pretty passive when it came to search engines. Some websites hired SEO companies to help promote their sites. Since the Webmaster Tools were created, webmasters have a place to find out their website's performance on Google. It’s simple and clear. Most webmasters can easily use Google Webmaster Tools to optimize their websites.

Now, let’s take a look at how powerful these Google Webmaster Tools are. The major functions are:

  1. Access your website information gathered by Webmaster Tools from any computer that is linked to the internet.
  2. Check and set the frequency for Google to crawl your site. You can also get the information on crawling, the success rate, and the reason for a crawling failure.
  3. Check whether your website has been indexed correctly. This is a very important function. If Google has not indexed it correctly, other search engines could likely do the same.
  4. See sample incoming links to your site.
  5. Receive information on the queries with which your website ranks high in search results.
  6. Get information on the queries that bring you traffic.
  7. Create your own sitemaps to tell the pages you want Google to crawl and index, especially for those pages that Google has not crawled and dynamic pages.
  8. An information center with answers to many questions you might have in mind. For example, what is a Doorway Page?
  9. You can also inquire whether your website has been penalized for violating Google Webmaster Guidelines. We don't alert every site that has a penalty, but we can for many sites.
  10. You can also submit spam pages that you encountered using these tools.

Among all the functions mentioned above, the fifth one is probably the most important. You can find out whether your website has ranked highly with certain queries. If your website is ranked highly with queries you do not like, for example the keyword “Inferior products”, you will need to find out the reason why.

Another great feature about the tools is that they actually become the bridge between you and Google. Sometimes, if Google wants to send out some friendly reminders, say, your website is good, but for some reason (e.g. the website was hacked) it violates Google Webmaster Guidelines. If you don’t use Webmaster Tools and there is no valid contact information on your website, we have no way to reach you. It opens up a direct and efficient channel for communication once you start using the tools.

Now, you might ask how to use Google Webmaster Tools? First of all, you need a Google account, i.e. gmail.com account. If you haven’t got one, please visit http://www.gmail.com, click on “create an Account”, then just follow the instruction and you will get an account. After the account is created, go to Webmaster Central, click on Webmaster Tools to start using the tools. The first thing you have to do is to add your site to the tools. Google will need a verification process to make sure the site you added really belongs to you. Then you (and only you) can access all of this internal information on Google about your website.

Try out Webmaster Tools, and enjoy!

较早对“SEO secret weapon -- Google Webmaster Tool”的3个评论存档

标签: ,



Copyright © 2007 Google Inc. All rights reserved.
隐私政策 - 服务条款