利用数据与网络垃圾作斗争



原文:Using data to fight webspam
发表于:2008年6月27日星期三 下午4:51

这篇博客是讲述我们如何利用所收集的数据来改善我们的产品和服务系列文章中的最新一篇

作为谷歌反网络垃圾小组的负责人,我的职责是确保您得到的搜索结果尽可能的相关与翔实。也许您没有听说过网络垃圾,
网络垃圾就是搜索结果中的垃圾结果,这些垃圾结果要么狡猾地骗取了搜索结果中较高的排名位置,要么违反了搜索引擎质量指南。如果您从来没有见过网络垃圾,下面是一个很好的例子:如果您在搜索结果中点击了这样一个垃圾链接,就可能会看到以下画面(点击可浏览大图)。



您可以看到,这是一个没有任何价值的网页。这个例子中的网页几乎没有任何原创内容,还充斥着大量无关链接以及对用户没有多大用处的信息。我们努力确保您不会看到这样的搜索结果。可以想象,如果您点击了一个谷歌搜索结果的链接却最终看到了这类网页会是多么的不愉快。

现在,搜索用户并不会经常在搜索结果中看到这样露骨的、纯粹的网络垃圾。但是,早在谷歌普及之前,在我们找到有效的反网络垃圾的方法之前,网络垃圾就已经是一个大问题了。一般而言,网络垃圾真的令人非常恼火,例如您搜索自己的名字,返回结果的链接却指向了色情网页。而对于许多非常注重获得相关性信息的搜索来说,网络垃圾成了一个严重的问题。例如,一个关于前列腺癌的搜索,获得的结果却充斥着网络垃圾而不是相关信息的链接,这会大大削弱搜索引擎作为一种有用工具的价值。

来自搜索日志的数据是我们用来与网络垃圾作斗争,力求返回更纯净、更相关的搜索结果的一种工具。
IP地址和cookie信息等日志数据,使建立和使用指标系统、从不同方面衡量我们的搜索质量(例如索引的规模和覆盖范围、结果的"新鲜"程度,垃圾链接的数量等)成为可能。

每当我们创建新的衡量指标时,很重要的一点是能够审阅我们的日志数据,并利用先前的查询或搜索结果生成衡量网络垃圾的新的指标。我们使用搜索日志实现
"时间回溯",看看谷歌几个月来在用户查询方面改进了多少。当我们建立了一个新的指标能够更加精准地衡量一种新型的网络垃圾时,我们不仅可以跟踪今后我们阻击这种网络垃圾的进展情况,更可以使用日志数据分析我们在几个月前甚至几年前对同一类型网络垃圾的处理效果。

IP
cookie信息非常重要,它们能帮助我们把这种方法的应用范围仅限于"合法"的用户搜索,而不是那些由机器产生的搜索以及其他虚假搜索。举例来说,如果一个自动程序一遍又一遍地将相同的查询发送至谷歌,那么在我们衡量用户看到了多少网络垃圾之前,就应把这些搜索查询剔除出去。所有这一切——日志数据、IP地址和cookie信息——都会让您得到的搜索结果更纯净、更相关。

如果您认为网络垃圾已经不再成为一个问题了,请再仔细想想吧。去年,谷歌的索引体系遭遇了来自
.cn顶级域名的网络垃圾的疯狂攻击。一些网络垃圾制造者大量购买廉价的.cn域名,并在这些网站上堆满故意拼错的词汇和色情词汇。资深的用户可能还记得曾经读过几篇与此相关的博客,但绝大多数普通用户甚至可能从来没有注意到这些。普通的搜索用户没有注意到这些异常搜索结果的原因,是因为谷歌及时识别出了这些.cn网络垃圾,并通过一个快速跟踪项目,很好地应对了此类网络垃圾的攻击。如果没有日志数据帮助我们识别问题发生的速度和范围,可能会有更多的谷歌用户受到此类攻击的影响。

理想的情况是,绝大多数用户甚至不需要知道谷歌有这样一个反网络垃圾小组。如果我们的工作做得很出色,您可能偶尔会看到质量不高的搜索结果,但您无需面对恶意的
JavaScript重定向、令人反感的色情内容、充斥着无意义内容的页面或其他类型的网络垃圾。我们的日志数据有助于确保我们追踪到网络垃圾的新动向,并且在它们影响您的搜索体验之前采取相应的行动。

标签: , ,



SEO建议:关于获取链接



原文:SEO Advice: Getting Links
发表于:2008年3月11日星期二 晚上11:35

[注:此文写作于2005年12月(!) 最近我正在整理自己的一些旧草稿,并把那些看起来不太糟的文章发表在博客里。这些搁置许久的文章可能会有些粗糙。]

好的,这里有一些不需要通过电子邮件、不需要付款,甚至不需要关注搜索引擎就能得到高品质链接的方法:

提供有用的一次性服务,它真的不用花费太多精力。这里是一些例子:
  • 请在IE浏览器中查看http://www.stclaire.com/go/industrial_signage/sb2/html。 您需要注册一个免费帐号,这样这个网站就能提供一个在线界面,以创建ANSI可兼容的警告标志,而且您会得到可打印的PDF文件。 用这个站点创建标志非常方便。这里有一个我只花了几分钟时间就做好的例子:

  • 提供以上的服务对您来说有难度是么?您不知道如何创建PDF格式的文件,或者您手边没有安全标志图库?好吧,这里有一个更简单的例子:大家都厌恶收到垃圾邮件。如果您的电子邮件地址被公布到了网上,您会收到更多的垃圾邮件。这里有一个网站,可以让您制作一个图片形式的邮件地址标记:http://gsig.brightdev.com/index.php 。这个URL是针对Gmail用户的,http://esigs.brightdev.com/可以让您为Hotmail、Yahoo! ,AOL或者其他网站的邮件地址制作图标。

  • 这样还是太难么?复杂的图片魔术让您望洋兴叹么?那么,您也可以使用Javascript或字符实体来对电子邮件地址进行编码。举例来说, http://www.wbwip.com/wbw/emailencoder.html可以将一个正常的电子邮件地址,例如:user@example.com,编译成
    daven@spam
    mer.com
    这样您的邮件地址就不会被邮件地址采集软件采集到了。

  • 自己制作一个robots.txt校验器
提供一个持续不断的服务:
  • 基于Web的服务,Bloglines就是一个很好的例子。

使自身成为一种资源:

  • 您可以通过个人公司博客达到这一目的。博客是一种获得链接亲睐和使自己的言论广泛传播的好方法。

  • 如果提供博客服务听起来有些吓人,那么您也可以从新闻组、研究、调查或白皮书开始。

  • 有一次,一家从事语言翻译的公司(我称之为网站A)问我,为什么他们的网站排名不像另一个网站(我称之为网站B)那么高。我查看时发现,网站A上只有很少的内容,仅仅5至6页,除了联系方式之外,只有公司业务的简要说明。它就像一个在线宣传册。那么,网站B怎么样呢?他们提供了一个辅导教程,说明片假名、平假名和日本汉字之间的区别,另外他们还教您如何写几个日文字符。 您会选择链接到哪个站点呢,是那个空洞的宣传册网站,还是那个提供辅导教程的网站?

提供有价值的信息:

  • 成为第一个创新的人。成为第一人意味着提出创造性的想法,捕捉到网络最新颖最令人着迷的部分。

  • 是谁任命Loren Baker担任最佳搜索博客的裁判?没有人这么做:他只是看到了一个创造性的机会,并且成功地抓住了它。

  • 找到一篇描写您自己的文章。但是要注意,争议虽然会引来注意力,但也可能影响人们对您的看法。如果您太过频繁地哗众取宠,往往会影响您的声誉。

发掘您自己的产品:

  • 我买了一部TiVo,因为我可以随意摆弄它。我选择了XM广播,因为他们提供了一种装置(XM PCR),让电脑可以接收到模拟卫星广播。这种富有魅力的装置有一个开源服务器,除了播放音乐,还可以用它流畅地播放RSS或几乎任何其他信息。当我发现一个本地计算机商店出售160GB的外置式硬盘,它经过改装后可以运行Linux时,我立刻跑去买了一个。我在上面安装了Linux操作系统(只是因为我可以这么做!),并使它成为一个流媒体MP3自动点唱机。此后我又做了些什么呢?我到计算机商店又买了一个Buffalo网络硬盘 ,这个当然是自己说了算!因为我可以随心所欲地支配160GB的硬盘驱动器,现在我又盯上他们的1.6TB的TeraStation。[编者按:我确实买了一个Terastation,而且它已经为我服务了好几年。] 这一切,都因为我能够自己动手改装、摆弄和修改某种产品。

[放手干吧。我认为这些想法中的大部分都已经很成熟了。]

标签: , ,



如何验证谷歌抓取机器人(Googlebot)



原文: How to verify Googlebot
发表于: 2006年9月20日,周三, 上午11时45分

最近我听到一些聪明 人士要求搜索引擎提供一种方法来验证一个抓取机器人是正宗的。毕竟,任何垃圾制造者都可以用Googlebot来命名他们的抓取机器人,并声称自己是Google的。那么,你应该信任哪些抓取机器人,又应该阻截哪些?

我们听到最普遍的要求是把Googlebot的IP地址列表公布给大家。这个做法的问题是,如果/当我们的抓取工具的IP地址范围改变时,并非每个人都知 道去检查。事实上,爬行组几年前搬迁过Googlebot的IP地址,他们遇到的一个真正的麻烦是提醒一些把Googlebot的IP范围写在他们的程序 里的网管们。所以爬行组的成员们提供了另一种方法来验证Googlebot。这里是爬行组成员们提供的一个答案(经他们同意在此引述) :

请告诉网站管理员们,最好的方法看来是使用域名解析服务器(DNS)来核实每个案例。我推荐的验证技术是做反向DNS查找,核实该名字是在googlebot.com域名内,然后使用该googlebot.com名做一个相应的正向DNS->IP的查找; 例如:
(译者注:以下是Linux命令及执行结果)

> host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
(1.66.249.66.in-addr.arpa域名指针crawl-66-249-66-1.googlebot.com)

> host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
(crawl-66-249-66-1.googlebot.com的IP地址是66.249.66.1)

我认为只做反向DNS查找是不够的,因为一个垃圾制造者可以建立反向的DNS来指向crawl-a-b-c-d.googlebot.com。

这个答案也是我们内部的技术帮助中心提供给我的,所以我认为这是一个验证Googlebot的官方方法。为了从“官方的”Googlebot IP范围内抓取,抓取机器人要尊重robots.txt和我们内部的主机负荷惯例,从而使Google不过分爬行您的网站。

(感谢N.和J.为此文提供的帮助,他们介绍了爬行方面涉及的东西) 。

标签: ,



子域名和子目录


(译者按: Matt Cutts, 谷歌反网络垃圾组的带头人。本文译自Matt Cutts的个人博客,供读者参考)
原文: Subdomains and subdirectories
发表于:2007年12月10日上午12时17分

Pubcon会议接近尾声时,我发现 的文章在谈论Google对子域名和子目录的处理。也许我在会上没有把这一方面说清楚,我在这里再详细谈谈这个主题。

从以往记录来看,使用子域名与子目录的时间几乎是对等的。顺便提示一下,在一个象subdomain.example.com/subdirectory/的网址中 ,子域名是"subdomain",子目录是"subdirectory" (有时也被称为文件夹)。如果您还不清楚,你也许可以阅读一下我的“一个URL的组成部分的辅导材料”

如果你把你的内容放在子目录里,通常的原则是所有信息都存储在同一空间里。这可以使找到/编辑/更改代码变得很容易。同时,它也不难把代码从一个地方移到另一个地方。然而,一个子域名往往是一个域名系统(DNS)的别名。子域名的设置对网络管理员新手来说可能有点难,特别是如果"CNAME"对你来说不意味着任何意思。子域名可以分开管理,对你来说可以是一个好事(如果你想转移你网站的一部分,你可以使用DNS来和子域名脱钩),也可以是个头疼的事(DNS的设置相当麻烦,不像使用子目录一样仅仅使用几个命令就可以建立或移动目录)。以我为例,当我开始建我的博客时,我决定用一个子目录(mattcutts.com/blog/),仅仅是想使事情变得简单。

几年来,Google使用了一个所谓的"密集主机(host crowding)"算法,它意味着,对一个域名的每个主机名(hostname)或子域名,Google至多显示两个结果。这种办法(从一个子域名内显 示1-2个结果)一直运行非常良好,但我们也收到这样的投诉:对一些类型的搜索 (如生僻或长尾搜索),Google的一个搜索页面上可能出现很多结果都来自同一个域名的情况。在过去几个星期里,我们改变了我们的算法,使这一现象在未来再也不太可能发生。

这一变化并不会彻底改变有些搜索结果全部来自同一域名的情况;如果某个域名相关性确实非常强,我们仍可能从那个域名中返回多个结果。举例来说,如果一个搜索是[ibm],用户可能确实喜欢并想看到从ibm.com的结果。注意我们的算法变化是一个相当微妙的变化,并没有影响到我们绝大部分的搜索。事实上,这种变化已经存在了几个星期左右,到现在也没有人注意到。:)我在PubCon上谈及此变化的唯一原因是因为有人想听听我对子域名与子目录的意见。

对子域名和子目录,我个人更喜欢子目录。这是因为 我通常倾向于子目录为我的大部分内容提供的方便。一个子域名可有效分离出完全不同的内容。例如,Google为完全不同的产品使用子域名,例如news.google.com或maps.google.com。如果你是一个网络管理员或搜索引擎优化业者新手, 我建议你使用子目录,直到你对你的网站结构有足够的信心。在这一点上,您将可以对你的网站有更好的理解,从而作出正确的决定。

标签: , ,



关于通过买卖链接来传递PageRank的最新消息



原文:Information about buying and selling links that pass PageRank
发表于:2007年12月1日下午12时02分,星期六

我们的目标是通过提供公平和准确的结果为用户提供最好的搜索体验。我们迫切希望与网站管理员一起来实现这一目标, 因为当你生成更好、更便于访问的内容时,对互联网,对我们的索引都有好处; 这反过来又使我们能够提供更多相关的搜索结果给用户。

但是如果一个网站管理员选择买卖链接以操纵搜索引擎排名,我们保留保护我们的索引质量的权利。通过买卖链接来传递PageRank违反了我们的站长指南。这种链接会损害我们搜索的相关性而造成:

- 失实:虚假的流行性以及不是基于实际价值、相关性、或权威性的链接
- 不平等:谷歌的有机搜索结果会变成让钱包最鼓的网站占有不公平的优势

为了遵循谷歌的质量准则,买卖链接应通过"rel=nofollow"或其他技术来屏蔽,例如,重定向到一个在robots.txt中被禁止索引的页面。下面是关于我们对买卖链接来传递PageRank的立场的更多解释:

2003年2月:谷歌官方的质量指南已经建议"不要参与旨在增加你的网站排名或PageRank的链接方案"达数年之久。

2005年9月:我在我的博客上发表了“文本链接和PageRank”一文。

2005年12月:我在我的博客上的另一篇文章讨论过这个问题,并表示:
很多致力于搜索引擎排名的人士认为买卖链接会降低互联网上链接的质量。如果你纯粹为了你的访问者或流量而不是为搜索引擎买卖链接,有一个简单的方法(nofollow属性)可以做到这一点。谷歌对买卖链接的立场是相当明确的。我们也在使用算法或手工相当准确地发现买卖的链接。出售链接的网站会失去搜索引擎的信任。
2006年9月:在一次John Battelle对我的采访中,我提到"谷歌一直认为通过销售链接而影响搜索引擎的行为违背了我们的质量准则" 。

2007年1月:我在我的博客中再次提醒人们: "付费博客文章中的链接应以不影响搜索引擎的方式出现" 。

2007年4月:我们提供了让人们向谷歌举报付费链接的机制。

2007年6月:在西雅图召开的搜索营销博览会(SMX)上,我在我的主题演讲中阐述了付费链接问题。这里是主题演讲讨论的录像节选。它的长度不到一分钟,但强调了谷歌将利用算法和人工方法来检测违反我们的质量准则的付费链接,并表达了将采取更强有力的行动来对付这种链接的决心。

2007年6月:一篇谷歌官方站长博客上的文章指出,"通过买卖链接来操纵结果并欺骗搜索引擎违背了我们的指南" 。该文还介绍了在谷歌网络管理员控制台中用户举报买卖链接的新表格。

2007年6月:谷歌在我们的官方站长文档中补充了关于如何举报买卖链接和什么样的链接计划违反了我们的质量准则的更具体的指导。

2007年8月:在圣何塞的搜索引擎战略(SES)会议上有一个专门关于付费链接的分会场,我描述了谷歌关于买卖链接的官方立场。

2007年9月:在我的博客的一篇文章中,我扼述了SES圣何塞会议,也把我在会上的演讲(powerpoint链接)提供给了广大用户。

2007年10月:谷歌为一篇题为"谷歌清洗了互联网贿赂"的福布斯文章提供评论。

2007年10月:谷歌正式向Search Engine Land证实,我们正在对买卖链接采取强有力的措施,包括降低通过销售链接来传递PageRank的网站的工具栏中的PageRank

2007年10月:我发给搜索引擎杂志的一个电子邮件也明确表示谷歌正在对通过买卖链接来传递PageRank的行为采取更强有力的行动。

我们非常感谢用户对付费连接问题给我们的反馈。一些较普遍的问题是:

问:通过买卖链接传递PageRank的行为违反谷歌的指南吗?为什么?
答:是的,我们已在上面陈述了理由。最近我在我的个人博客中有一个贴子,该贴通过一个例子来说明为什么搜索引擎不希望存在这样的链接。我们标出了在一篇严肃的医学话题(脑肿瘤)文章中的一些链接。写文章的人收了一些钱,撰写了关于脑肿瘤治疗的文章,但他们根本不懂脑肿瘤的治疗。很多情况下,写付费文章的人不会做一点哪怕是最基本的研究(甚至是拼写检查!)。

问:这一问题是谷歌独有吗?
答:不是。所有主要的搜索引擎都反对买卖影响搜索引擎的链接。对于福布斯文章“谷歌清洗了互联网贿赂”,Andy Greenberg也询问了其他搜索引擎的政策,结果是一致的。看一看下面的故事:
搜索引擎讨厌这种付费链接的流行。谷歌的站长指南禁止购买只是为了提高搜索排名的链接。其它搜索引擎(包括Ask, MSN及雅虎),只要他们是模仿谷歌基于链接的搜索排名的搜索引擎,都劝阻买卖链接。
其他搜索引擎也有对买卖链接的特别评论,例如,微软搜索引擎代表在最近的一次采访中评论说:

实际情况是,大多数付费链接是 a.) 显然是不客观的;b.) 往往是无关紧要的。如果你问付费链接的影响,我的答案是,绝对有较大的风险。我们将不会容忍任何对用户体验没有增加多大价值并试图有效地欺骗我们的系统的假链接。

问:这就是为什么我们看到一些卖链接的网站在谷歌的工具栏上的PageRank较低的原因?
答:是的。如果一个站点在卖链接,它会影响我们对该网站的价值的判断,或直接导致我们对该站失去信任。

问:如果一个网站通过卖链接来传递PageRank,并且该网站自己的PageRank在谷歌工具栏被降低了,网站所有者可以做什么来补救?
答:网站所有者可以停止违背网络管理员指南的行为,并在谷歌的站长中心控制台提交复议请求。在提出复议请求之前,请确保所有售出的链接不再传递PageRank或者删除它们。

问:谷歌是不是在告诉网站管理员如何管理自己的网站?
答:不是。我们给每个想使他们的网站在谷歌上有良好表现的网站管理员提出参考。正如我在20076月的主题演讲视频中所说,网站管理员可以随心所欲地创建它们的网站,但是谷歌保留保障我们的索引质量和相关性的权利。据我们所知,所有主要的搜索引擎都采取了同样的立场。


问:谷歌是不是在试图打压其他用来增加网站流量的广告形式?
答: 没有,完全不是这回事。我们的站长指南明确指出,你可以使用链接的手段来获得有针对性的流量。事实上,我在20078月的演讲中,特意举了几个完全符合我们的指南的非谷歌广告的例子。我们只是希望付费链接能自己让搜索引擎知道它们是付费的,这样它们就不会影响搜索引擎的运作。

问:我知道有一个网站似乎是在买卖链接。我怎样才能把这一信息告诉谷歌?
答:请阅读我们在2007早期的一篇关于如何报告付费链接的贴子。我们已经在短短几个月内收到了数以千计的举报,但我们欢迎有更多的举报。我们非常感谢你们的反馈,因为它帮助我们采取直接行动,并改善现有的检测算法。我们也使用该数据来训练用以检测违反我们质量准则的付费链接的新算法。

问:我可以得到更多的信息吗?
答:当然可以。我今年早些时候写了关于付费链接问题的更多解答。如果你还有问题,你可以随时加入我们的站长帮助小组的讨论。

标签: , ,



SEO的建议:URL标准化

译自: Matt Cutts博客

(译者按: Matt Cutts, 谷歌反网络作弊组的带头人, 于2006年1月4日在他的个人博客上发表了"SEO advice: url canonicalization"一文。尽管已快两年了,Google也为网站管理员提供了站长工具,我们发现对很多站长来说该文仍是一篇很好的SEO文章。)


在我开始收集关于Bigdaddy数据中心的反馈之前,我想简略地谈一谈有关标准化、“www相对于非www”、重新定向、重复URLs、302“劫持”等问题的看法,这样我们的讨论才有共同的基础。

问:什么是一个标准化URL?为什么要用这么一个奇怪的字眼?
答:很抱歉,这是一个奇怪的词汇;这是谷歌内部对它的称呼。标准化是一个在若干选项中选取最佳URL的过程,这里通常是指主页。例如,多数人会将下列URL看作相同性质的:

* www.example.com
* example.com/
* www.example.com/index.html
* example.com/home.asp

但是从技术角度看,这些URL都是互不相同的。对于上述URLs,Web服务器会返回完全不同的内容。当谷歌“标准化”特定的URL时,我们试图从一整套同类URL中选出看起来最具代表性的一个。

问:那么我如何能确保谷歌能挑选出我所想要的URL?
答:挑选出你想要的URL,并且在此后一直使用这个URL访问特定网站,这是很有帮助的。例如,不要让同一个输入的链接一半指向http://example.com/而另一半则指向http://www.example.com/ 。相反,挑选一个你喜欢的URL,并且在你的内部链接中总是使用这个格式。
(译者注:现在你可以使用站长工具来通过“控制台 > 工具 > 设置首选域名”)。

问:除此之外,我还能做什么?
答:比如,如果你希望你的默认URL为http://www.example.com/。那么,你可以设置你的web服务器,这样如果有人请求http://example.com/,它就会产生一个301的(永久性)重新定向,链接到http://www.example.com/。这样可以帮助谷歌了解到你希望将哪个URL作为自己的标准。如果您的网站常有变更(例如动态内容和博客等),那么加入一个301重新定向可能更便于搜索引擎的定位和捕获。

问:如果我希望去掉domain.com,但希望保留www.domain.com,我是否应该使用URL清除工具来删除这个域名?
答:不要,绝对不要这样做。对于任何一个www域名,或非www 域名,一旦删除其结果可能导致该域名在未来六个月内无法恢复。绝对不要这样做。如果你本想使用URL清除工具删除www域名或者非www域名,但实际上却删除了你所有的域名,请发送一个重新收录请求,并声明你用URL清除工具不小心删除了整个域名,现在要求重新收录。

问:我注意到,你自己并没有使用301重新定向将你的站点从非www版本转向www版本,为何没有这样做?
答:实际上我是故意这样做的。我几个月之前就注意到了这一点,但决定不自行调整,或者请求谷歌员工帮我搞定它。我或许最终会加入一个301,但至少到目前为止,它还是一个有帮助的实验案例。

问: 那么在讨论“www与非www”时,你也认为这是一种标准化的类型吗?还有没有别的方法能实现URL的标准化?
答:确实还有很多方法,但是多数人不会也无需注意到这些。搜索引擎能够自动完成诸如保留或者删除末尾的斜杠、将URL从大写格式转换为小写格式,或者将session ID从BBS或其他软件上删除等任务(即使你省略了session ID,许多BBS依然能够正常运行)。

问:让我们谈谈"inurl:"操作符。为何每个人都认为如果inurl:mydomain.com显示出某些并非来自mydomain.com的结果,那么他一定是被人劫持了?
答:早先,如果你看到someresult.com/search2.php?url=mydomain.com,有时候其中会包含来自mydomain的内容。如果someresult.com url是一个指向mydomain.com的302重新定向,而我们决定显示一个来自someresult.com的结果,就会产生这种情况。从那以后,我们已经改变了我们的启发方式,大大降低了302重新定向源URL的显示几率。我们逐渐采纳了一个用于处理重新定向的框架,它几乎总是显示目的地URL。雅虎通常采用显示目的地URL的方式来处理302重新定向,而我们正处于逐步过渡到一套类似启发方式的过程中。请注意,雅虎保留了在重新定向的过程中处理所出现的例外的权力,而谷歌也会这样做。根据我们的分析,我们将在302重新定向过程中显示URL源的总概率不到0.5%(基本上,当我们有足够的理由相信URL源正确无误时才会显示)。

问:那么,补充材料又如何呢?补充材料是否会招致谷歌的惩罚?
答:不会。
(译者注:补充材料已成为历史。请阅读补充材料转为主流一文)。

问:在补充性结果中有我的一些网页,但这些网页已经很老旧了。我该怎么办?
答:如果换了我,就不会在这方面花太多的精力。如果网页已经删除,我会确保有一个301重新定向,指向新网页的位置。如果的确彻底消失了,我会确保服务器返回一个关于这些网页的404错误信息。此后,我不会再花费任何精力。当谷歌最终重新抓取那些网页时,就会发现其中的变化。但是由于我们自己爬取补充性结果的时间间隔要长一些,所以你可能在一段时间内看不到更新。

目前我能想到的只有这些。很快,我会更详细地谈论一些关于302和inurl:的范例,帮助大家更具体地理解这个问题。

标签: , ,



谷歌的算法更改和数据刷新

[译者按] 我们在中文网管论坛上总能看到一些关于算法更改和数据刷新的讨论. Matt Cutts, 谷歌反网络作弊组的带头人, 于2006年12月23日在他的个人博客上发表了他对这两个概念的理解.

原文 Explaining algorithm updates and data refreshes

这两天一组发表在管理员世界上的帖子在问Google是否进行了更新,我在这里可以很明确地回答:并没有。

如果想要更具体的解释,让我们先来熟悉一下相关的定义。你可以参考这篇blog文章或者看看这段视频(我视频集的第八部分)。我下面会尽力用简短的语言概括一下重点:

算法更改:通常算法的更新会对搜索结果整体产生影响。算法随时可能改变,但是并不会很频繁地发生明显的变化。

数据更新:指现有算法内的数据的更新。这种更新多数是对于那些对搜索结果影响较小的部分,并且变化如此细微以至于我们是不会感觉到的。更小规模的数据更新的一种是:

索引更新: 指新的索引数据被传送到各个服务器。从2000年到2003年间,目录大约是每个月更新一次。带来的变化被称作Google Dance。Google Dance会持续大约6到8天,因为服务器的更新需要轮流进行,直到这些数据库全部被更新为一个全新的网络数据索引,而这是需要一定的时间来完成的。在2003年的夏天(这次的Google Dance被称为“弗里茨更新”),Google 的索引更新由原来的每月一次变成了每天一次(甚至更频繁)。Google几乎每天都会更新一部分索引的内容,这样每天的变化就远远不如先前那么明显(有人称Google 索引的明显变化为everflux)。

近些年来,Google的索引已经进行了改进,使大多数人根本感觉不到它的更新。 由此,诸如“everflux”、“Google Dance”以及“索引更新”这类词汇就很少被提起了(除非是被用错了地方 :) )。取而代之的是,大部分SEO会去关注算法更改或数据更改/刷新。大多数的数据升级就是索引更新,虽然偶尔数据升级会独立于每天的索引更新而进行。例如,每3、4个月会察觉到反向链接和PageRanks的变化。

好了,我们来做个小测验,看你刚才读的够不够仔细:

问:判断对错:索引更新是一种数据刷新。

答:当然正确!注意,我在第四段里刚刚提到。 :) 不要纠缠“更改”和“更新”的区别,因为他们基本上是一回事。其实就是算法,和算法所使用的数据。数据的变化很大程度上就是我们索引的更新。

可以确定的是,过去的几年中并没有大规模的算法更新,而仅有的数据升级都是最普通的(索引更新)。因此,在管理员世界上发帖的人讨论的是什么呢?再去看看这段视频吧。听清楚其中有关“6月27号,7月27号和8月17号的数据升级”的部分。我曾经在网上说过,这些更新很可能会每天发生。在过去的一个月里,数据升级变得更频繁(从原来的3-4周一次到现在每天一次)。我能做的最好的猜测是:人们所看到的任何变化是源于相关数据的升级更为频繁了。

较早对“谷歌的算法更改和数据刷新”的21个评论存档

标签: , , ,



Copyright © 2007 Google Inc. All rights reserved.
隐私政策 - 服务条款