搜索生命 搜索希望 —— 谷歌向网民求助 众志成城 寻找亲人 寻找希望

谷歌黑板报

2008年5月16日星期五, 上午11:40:00

截至今天凌晨,汶川地震已造成 19509 人死亡,遇难人数估计在 5 万人以上,巨大的震惊和悲伤已盘旋国人心头整整四天。大家在每一个角落不断的搜索亲友的消息,希望他们能够安好,哪怕那些信息只是只言片语。

谷歌的工程师经过 24 小时不间断的奋战,已经紧急搭建出灾区人员搜索平台,我们努力将那些零零落落的信息整合在一起,方便大家寻找亲人。在此,我们向每一个朋友真诚求助,因为我们需要一个众志成城的民众共铸的搜索,共同努力提供更多的消息,搭建起一个交换希望于勇气的平台。

我们相信,你正在搜索的亲人、爱人、友人,并不在遇难者那悲痛的巨大数字里。他也许正在废墟前抢救生命,她也许正在医院里护理伤员,他应该已在避难所得到帮助,她应该正忙于为幼儿寻粥问饭……很快,他们就会听到我们的呼唤,知道在这场苦难中,他们从未孤独。

如果您已经有任何友人的信息,请将这些信息放入您熟悉的那些知名网站,无论它是天涯来吧,还是百度贴吧搜搜搜吧新浪网网易如果您有很好的网络信息源,更可以给我们发邮件,我们的工程师会 24 小时不间断地更新信息。

谷歌在中国的力量还太小,因此我们提供了一段开放的代码,任何的网站、博客,都可以将这段代码嵌入到自己的网站中,让更多的人加入到这个寻找希望的队伍中来。

灾区需要持续的支持, 我们要做的事情还太多,我们不会放弃,天佑中华,祈愿灾难中的人们平安。
<style type="text/css">
@import url(http://www.google.com/cse/api/branding.css);
</style><div class="cse-branding-bottom">
<div class="cse-branding-form">
<form action="http://www.google.com/cse" id="cse-search-box" target="_blank">
<div>
<input type="hidden" name="cx" value="013290620019079885792:i33awug1ntm" />
<input type="hidden" name="hl" value="zh-cn" />
<input type="text" name="q" size="25" />
<input type="submit" name="sa" value="搜索" />
</div>
</form>
</div>
<div class="cse-branding-logo">
<img src="http://www.google.com/images/poweredby_transparent/poweredby_FFFFFF.gif"
alt="Google" />
</div>
<div class="cse-branding-text">
寻找灾区的亲人
</div>
</div>


为有内容的网站创建良好的用户体验



Google,我们总是将为用户提供丰富有用的搜索结果放在首位。以下我们试给出几点创建良好内容网站用户体验的小建议


提供与主题高度相关的内容

确立一个清晰的主题,提供与之高度相关的内容。避免堆砌互不相关的内容。在确立了网站主题之后,想想还可以如何进行更进一步的分类。例如一个关于育儿的网站,可以考虑按照“幼儿保健”,“疾病治疗”,“幼儿教育”等进行分类;您还可以选取一个与主题相关的,通俗易懂的域名来方便用户记住您的网址。


采用清晰的、用户友好的浏览界面和网页布局

好的用户界面对于任何一个网站包括
Google都是非常重要的,它能够给用户很好的第一印象,对用户如何浏览网站亦非常重要。如果您想采用多媒体例如Flash,为了保证Flash内容的网站能够被Google正常索引,可以参考我们的博客文章如何最好地使用Flash

提供一些方便用户的功能

例如,您可以提供站内搜索功能,让用户能很快找到自己想要的内容;您还可以在您的网站上进行用户调查,了解自己网站的优点与不足,让用户感到您对他们的关心;您还可以为图片提供合理的
alt文字,以方便无法浏览图片或网速较慢的用户。

提供原创的内容

用户来到您的网站,他们希望看到其他地方没有的内容;一味抄袭的内容会破坏用户体验(使用程序自动抓取内容还会对您的网站在搜索结果里的排名产生负面影响
。 如果确实需要转载,请尊重原创者的版权,标明文章的出处(提供一个原文链接)。尝试投入自己的精力再组织、编辑和扩充这些内容,使之更匹配您自己的网站的主题、风格和布局。如果您还提供多媒体内容,例如在线视频或音乐,您可以提供文字说明。如果将这些内容嵌入您的网页上,让用户能够在您的网站上就能够欣赏这些内容,那就更好了。

维护好自己的网站

网站被“黑”是站长的恶梦。请定期检查自己的网站以确保网站安全性同时,您也要避免自己的网站遭到恶意软件的侵袭,参考
阻击恶意软件--清除和保护您的网站的小技巧

提供有效的、易获取的联系方式可以帮助您得到最直接的来自用户的反馈;如果您的网站还有论坛或者留言板,那么最好确保它们不会被垃圾留言者利用。如何避免留言垃圾,可以参考
减少垃圾留言的小技巧

标签: ,



Great user experience for content sites

By Xiang Meng , Search Quality Team

At Google, our #1 priority is providing users with rich and useful content in our search results. Here are a few tips on creating a great user experience for your content-rich site.

Provide highly relevant content

Establish a clear focus for your site, and create content that's strongly relevant to that focus. Try not to fill your site with irrelevant content. Once you've chosen your site's subject matter, think about how further categorization could be helpful. For instance, if your site is about baby care, think about grouping your content into categories such as Health care, Diseases, or Education. It's also a good idea to pick a relevant domain name that's easy for your audience to remember.

Create user-friendly navigation and page layout

A good user interface is critical for any website - including Google; it creates a good first impression and is critical to how users navigate your site. If you want to include multimedia elements like Flash in your design, make sure that your pages can still be indexed by Google. Check out our blog post on Best uses of Flash.

Make things easy for your users

For instance, you could provide a search box for your users to search within your site; or show your users a little TLC (Tender Loving Care) by creating a survey on the home page. Some users can't view images or have very slow connections - improve their experiences (and the indexability of your site!) by making sure your images have useful and appropriate alt text.

Provide original content

Your site's users are looking for something unique - content that can't be found elsewhere. When someone enters your site, he or she might want to see something unique. Copying content from other sites creates a negative user experience (and scraping content can negatively impact your site's ranking in our search results). If you really need to use content from another site, respect copyright and credit the original source (and provide a link). Try to reorganize and augment the content, so that it fits better with your own site's focus and style. If you provide multimedia content such as video or music, text descriptions of these are always useful. It's also smart to consider embedding this content directly on your pages, so users can enjoy it without having to leave your site.

Keep your site well maintained

Getting hacked is a nightmare. Make sure you check your site for any potential security issues on a regular basis. Check out Tips for cleaning & Securing Your Website.

Valid and easy-to-find contact information will help you get direct feedback from your users. If you have a forum or a guest book on your site, better make sure it never be abused by spammers. Check out How to prevent comment spam.

标签: ,



网站迁移的最佳方法

Ríona MacNamara,网站管理员工具组

发表于:2008年4月16日星期三,下午1:55

您正在计划为自己的网站更换新的域名吗?很多网站管理员发现这真是一个繁琐的过程。究竟怎样做才能不影响网站在谷歌搜索结果中的表现呢?


moving your site
您希望这种迁移对于用户来说是毫无察觉地发生的,同时希望谷歌知道新页面应该与原网站页面得到相同的质量认可。当您迁移网站时,那些讨厌的404误提示(无法找到文件) 不仅会伤害用户体验,还会给您的网站在谷歌搜索结果中的表现带来负面影响。

本文将介绍如何稳妥地将您的网站搬到一个新域名(例如从www.example.com变为www.example.org)。这与将网站搬到一个新的IP地址是不同的,如果想了解这方面的内容请阅读此文

网站迁移的主要步骤如下:
  • 首先通过移动一个目录或子域名的内容来测试整个网站的迁移过程。然后使用301重定向功能将原有网站网页重定向到您的新网站上。通过此方法可告知谷歌和其它搜索引擎:您的网站已经永久性地迁移了。
  • 上述操作完成后,查看一下您新网站里的网页能否出现在谷歌的搜索结果里。如果您对这次小范围的迁移感到满意,就可以迁移整个网站了。请不要将旧网站中所有网页的流量都重定向到您的新主页上,这种一刀切式的重定向虽然会避免404错误,但它并不能为用户提供良好的体验。尽管页对页的重定向(旧网站中每一网页都重新定向到新网站的相应网页上)会带来更大的工作量,但这也会给您的用户带来更连贯和明晰的体验。如果在新旧网站中不是一对一的页面匹配,那么一定要努力确保旧网站中每一个网页至少要重定向到具有类似内容的新网页上。
  • 如果网站因为要重新命名或重新设计而需变更域名,您可以分两个阶段进行:第一阶段,移动您的网站;第二阶段,开始重新设计。这样做,不仅可以掌控用户在每一阶段中感受到的变化幅度,而且可以使整个过程变得更顺利。把变化控制在最低限度可以使您更容易发现和解决各种意外情况。
  • 检查您网站网页的内、外部链接。理想的情况是您应该联络每个链接到您网站上的其他网站的管理员,让他们把链接指向您新域名的相应网页。如果这难以实现,您要确保原网站中所有含有其他网站链接指向的网页都被重定向到您的新网站上。您也应该检查并更新所有旧网站里的内部链接,使它们指向新域名。当您的网站内容已经在新服务器上准备就绪后,您可以使用一个诸如Xenu的链接检查工具来确认在您的新站点上没有遗留的故障链接。这一点特别重要,如果您的原始内容包含绝对链接(如www.example.com/cooking/recipes/chocolatecake.html )而不是相对链接(如 …/recipes/chocolatecake.html)的话。

  • 为防止混淆和混乱,您最好继续持有对原网站域名的控制权限至少180天。
  • 最后,确保您的新、旧网站都在网站管理员工具中得到验证,并定期检查抓取错误,确保来自旧网站的301重定向工作正常,同时新网站上也不会显示我们不想看到的404错误提示。
我们承认,迁移从来就不是一件容易的事 —— 但是,这些步骤能帮助您确保原有网站的良好声誉在迁移的过程中不受损失。

标签:



我的网站被黑掉了——怎么办?

Nathan Johns,搜索质量组

原文:My site's been hacked - now what?
发表于: 2008年4月7日,星期一,11:37AM


许多网站管理员都有过这样的遭遇:尽管您绞尽脑汁防止此类事情发生,您的网站还是被黑掉了。一些防患于未然的措施包括确保您的网站及时更新最新的软件和补丁,在谷歌网站管理员工具里建立账号以便查看当前被收录的页面,密切注视您的日志文件,确保其中没有可疑的内容等等。(在我们去年发布的"网站安全快速检查清单"里您可以查看到更加详细的信息。)

请记住,您决不是唯一的受害者——网站被黑的情况变得越来越常见。网站被黑会导致您的站点感染有害软件(更具体地说就是恶意软件,这是有害软件的一种类型)。您可以阅读一下StopBadware最近发布的2007年有害软件趋势报告,这篇报告全面分析和总结了近几年来不良软件的发展趋势及其危害。您还可以看看这篇发表在谷歌在线安全博客上的文章,它指出,越来越多的搜索结果中包含着被标为对用户计算机有害的URL。如果您希望阅读有关基于Web的恶意软件的深度分析报告,请您通过下载阅读《浏览器里的幽灵》(pdf) 和这篇技术报告 (pdf) 。读完这些报告后,您会对这些问题的影响范围有更好的理解。这些报告还包括了一些不同类型恶意软件的真实案例。

在任何情况下,你应该采取的第一步措施都是联系您的主机托管供应商——如果您有的话。多数情况下他们都会为您解决很多技术上的麻烦。许多站长使用共享主机托管,但这样可能会使得下面我们提到的一些措施难以实施。在如下这些措施当中,标注星号(
*)的就是在使用共享主机托管的情况下,您最有可能需要您的主机托管供应商协助的项目。如果您对所使用的服务器有全部的控制权,我们建议采取下面四个基本步骤:


让您的站点处于离线状态
  • 暂时让您的站点处于离线状态,至少等到您确信已经修复了故障为止。*
  • 如果你无法让站点处于离线状态,那么您要返回一个503 状态代码,防止搜索引擎抓取到您的网站。
  • 在网站管理员工具中,使用URL清除工具,从搜索结果中清除任何已经被搜索引擎收录但之后又被黑掉的页面或URL。这样做的目的是防止被黑掉的页面再被用户访问到。
损失评估
  • 弄清楚黑客究竟想要干什么是一个聪明的主意。
    • 他们是在寻找敏感信息吗?
    • 他们是否图谋控制您的站点,用于其他目的?
  • 寻找黑客在您的服务器上做过改动或上传的恶意文件。
  • 检查您的服务器日志,看看有没有任何可疑的活动,例如失败的登录尝试、命令历史记录(特别是在根目录上)、未知用户账号等。
  • 确定问题范围——您是否还有其他站点也受到了影响?
恢复
  • 最正确的办法就是采用来源可信的软件,彻底重装一次操作系统。这是唯一可以确保清除一切黑客对您网站造成的影响的方法。*
  • 重新安装后,使用您最近的一次备份,恢复网站内容。别忘了确认一下备份文件绝对安全、没有被黑掉了的内容。*
  • 对所有软件包打补丁,确保它们是最新版,包括Web日志平台、内容管理系统,或者其他任何已安装的第三方软件。
  • 更改您的密码——https://www.google.com/accounts/PasswordHelp
重建您的在线系统
  • 使您的系统恢复到在线状态
  • 如果您是网站管理员工具的用户,请登录您的账户
    • 如果您的站点被标为含有恶意软件,请您发出评估申请以确定您的站点是否已经安全无毒。
    • 如果您使用了URL清除工具清除了那些您确实希望搜索引擎收录的URL,您可以请求网站管理员工具通过撤销先前的清除操作来使您的内容重新收录。
  • 时刻保持警惕,因为黑客或许会卷土重来。
对于您可能提出的其他问题,我们有以下解答:

问:使我的站点处于离线状态,或使用robots.txt防止它被搜索引擎抓取到,哪一种做法更好呢?
答:使站点处于离线状态是更好的做法;这样能够防止任何恶意软件或有害软件乘机进入用户系统,并防止黑客进一步滥用您的系统。


问:当我修复了我的站点之后,什么方法可以在最短时间内让我的站点被重新抓取和收录?

答:无论您的站点是否被黑过,最好的方法都是遵从网站管理员支持中心指南

问:我已经对网站进行了清理工作,但是如果黑客在我的网站上放置了指向不良网站的链接,谷歌会对我进行处罚么?
答:我们尽量不这么做。我们能很好地确保良好的站点不会因为黑客和网络垃圾制造者的行为而遭受惩罚。为了安全起见,请彻底清除黑客可能已经放置在您网站上的的任何链接。

问:如果这一切发生在我自家的电脑上怎么办?
答:上述措施依然有效,但是您在清理过程中必须加倍小心;否则的话,同样的灾难还是可能再度发生。最理想的方法是彻底重装操作系统。

其他可能会对您有所帮助的资源:
如果您有一些其它好的建议,欢迎您在本文后留言。

标签: , ,



巧妙使用网站管理员工具和分析服务

Reid Yokoyama,搜索质量组

原文:Making harmonious use of Webmaster Tools and Analytics
发表于:2008331
下午5:28

谷歌网站管理员支持论坛上,经常会有网站管理员提问,“我应该使用谷歌网站管理员工具还是谷歌Analytics(分析)呢?”我们的回答是:两者都使用!”以下将从三个方面来说明这两种工具的强大功能。

1.
让您的网站更受关注

网站管理员工具最受欢迎的特性之一就是它能
列出最常让您网站出现的前20个搜索查询和最常让用户点击您网站的前20个搜索查询。来自“热门搜索查询”的数据使您能够迅速查明哪些搜索查询使您的网站得以展示以及哪些搜索查询触发了点击。让我们以上星期对www.google.com/webmasters的统计数据作为一个例子来加以说明。


如您所见,谷歌网站管理员中心收到大量由搜索查询
[小工具(gadgets) ] 带来的展示,但是并没有充分将这些展示转化为用户点击。点击 [小工具(gadgets) ] 可以查看您的网站是怎样出现在我们的搜索结果中的。您的标题和摘要看起来吸引人么?正如我的同事Michael最近所写到的,现在或许是您该对您的网站做一次大扫除的时候了——这是一个非常好的,几乎没有成本的抓住访问者注意力的方法。比如,我们可以改善内容摘要,使之从:

变得更易读,例如通过给URL加入一个元描述(meta description)的方式使之变为“使用网页小工具轻松地为您的网站加入很酷的动态内容…”

那么用户在访问您的站点时都做了些什么?他们是浏览了您的内容,还是很快就从您的站点跳了出来?为了查明这一点,谷歌Analytics(分析)会计算出您网站的流失率,也就是用户每次仅浏览一个网页的比例(例如,有些人只访问了站点的首页就离开了)。这有助于衡量您站点的目标网页的质量和访问流量的高低。毕竟,您费尽千辛万苦让用户访问到您的网站,还是希望他们能多停留一会儿的!您可以查看Analytics(分析)日志,了解更多关于流失率的详细信息。

2.进行智能的地域锁定
假设您有一家网上公司,目标市场在日本。网站管理员工具使您能够为自己的站点
设定一个目标地域在这里您可能会选择日本。但是,这样做并不是一个快捷的解决办法。您可以利用Analytics(分析)中的地图覆盖(Map overlay)功能来确认站点访问者的地理位置,这种功能可以精确到城市级别。您还可以查出哪些类型的用户在访问您的站点——包括他们所用的浏览器类型和连接速度。如果用户因为浏览器不兼容或连接速度太低而无法访问您的网站,或许您需要重新考虑自己网站的设计了。坚持这样做的话对您获得自己所期望的访问流量是大有帮助的。

3
.控制对敏感内容的访问

假如有一天,您登录
Analytics(分析),查看按标题划分的内容的数据时,没准会吃惊地发现用户正在访问您私人的或是存有隐私数据的网页。不用担心!进入网站管理员工具,使用URL 清除工具可以将这些网页从谷歌的搜索结果中清除。修改您的robots.txt文件,也能阻止谷歌机器人今后抓取到您的这部分网站内容。

如果您希望了解更多有关谷歌
Analytics(分析)的使用技巧,请访问分析帮助中心。如果您想提出任何建议,敬请在本文后留言,或者登录我们的网站管理员支持论坛

标签: ,



垃圾结果报告的新进展

,搜索质量组,都柏林
( :这篇博客的原文是由德语博客翻译至英语的)

原文:An update on spam reporting
发表于:2007年3月28日星期三,下午2:30

2006年,我们在沟通领域的几项努力之一就是,当某些网站管理员违反了我们的网站管理员指南向他们发出通知例如使用了某种能够生成额外的"桥页"的"特殊搜索引擎友好"的软件)。在这些出于善意而发给网站管理员的电子邮件中,有相当数量是由我们的用户提交的垃圾结果报告所促成的。


我们对这些举报垃圾搜索结果的用户感到非常骄傲,他们提醒我们注意潜在的滥用和侵害从而维护了整个互联网社区的利益。我们对此尤其欣赏,因为
PageRank™ (乃至谷歌搜索)都是以民主原则为基础的,比如,一个站长通过链向另一个网站的方式来对其投赞成票表示认可。


2007
年,作为这一民主原则的延伸和完善,我们希望进一步强化用户的意识,让他们了解网站管理员的行为是否符合谷歌的标准。这样,具备了这些知识的用户就可以通过填写垃圾结果报告的方式来对垃圾结果采取抵制行动。最终,不仅所有的谷歌用户都可以受益于最佳的搜索质量,而且可以让那些违反网站管理员指南的站长们意识到,他们企图通过不公平的手段来操纵自己网站排名的尝试将会得不偿失。


我们的垃圾结果报告表单有两种不同的形式:一种是经过身份认证的表格,它要求用填写者已经注册了网站管理员工具,另外还有一种无需身份认证的表格。目前,我们对来自注册用户的垃圾结果报告进行逐一审阅和分析。由非注册用户提交的垃圾结果报告其影响会得到评估并且相当一部分也会得到审阅和分析。


所以,下一次当您忍不住觉得某一项搜索结果的排名并非得益于其内容价值和合理的搜索引擎优化的时候,就是您举报垃圾结果的最好时机。每一项举报都会向我们提供重要信息,让我们不断优化自己的搜索算法。


如果您还希望了解更多,请继续阅读以下最常见的三个问题及其解答。


有关垃圾结果报告的常见问题:


问:谷歌将会怎样处理经过身份认证的垃圾结果报告?
答:我们将对已通过身份认证的垃圾结果报告进行分析,然后将其用于新的垃圾结果侦测算法,并用于判断网络垃圾的新趋势。我们的目的在于未来能够自动识别那些利用类似操纵手段的网站,并确保我们的算法能够恰当地为这些网站排序。当然,我们并不希望与个别满脑子坏主意的网站管理员玩所谓"猫捉老鼠"的低效率游戏。


问:为什么有时候垃圾结果报告并不能立即产生显著的效果?
答:谷歌总是致力于改善自己的算法,与垃圾结果作斗争,但是我们也会对个别垃圾结果报告采取相应行动。有时这些行动的结果并不容易立即被外部用户察觉,因此您没有必要多次对相同的站点进行举报,敦促谷歌对特定URL进行评估。有的用户可能会有这样的错误印象,觉得自己提交的某一个垃圾结果报告"石沉大海"了,实际情况不是这样的,其中的一些原因包括:

  • 有的时候,谷歌已经妥善处理了所举报的情况。例如,如果您报告某个站点看上去在从事过分的链接交换活动,可能发生的情况是,我们已经妥善地忽略不计了那些非正当反向链接的权重,而这个站点是出于其他原因才出现在搜索结果中的。要知道,谷歌对某个站点反向链接处理方式的改变,外界用户可能无法立即看出来。还有一种可能,就是我们已经在评分算法中对某种现象(例如关键字堆砌)进行了相应的处理,因此我们并不过分担心那些看起来不太美妙,但实际上并不影响网站排名的情况。
  • 将被举报的站点从谷歌的流量中完全删除仅仅是其中的一种处理方式。谷歌有时候会先给网站一张“黄牌警告”,让这些网站在短时期内从索引中消失。但是,如果该网站无视这个信号,紧接而来的就是一张作用时间更长的“红牌”。所以,可能发生的情况是:谷歌已经注意到了这个问题,并且正在就这个问题与网站管理员进行沟通,或者我们根据某一垃圾结果报告,已经对特定网站采取了"摘牌"之外的措施。
  • 还有的时候,我们的回答是请您耐心地再等一段时间,因为对算法改变的效果要想完全显现出来可能需要比较长的时间,外部显示的PageRank的更新也是需要一个周期的。
  • 还有一种可能是,谷歌正在着手解决某一问题的更普遍的情况,所以我们不情愿只是针对某个个案采取行动。
  • 某些垃圾结果报告有时候还可能被认为有失公允。例如,有些情况下,某份垃圾结果报告的动机仅仅是中伤其排名靠前的直接竞争对手。
问:户能从谷歌这里收到有关垃圾结果报告的反馈吗?
答: 这是一个普遍的要求,而且我们知道,用户或许希望他们举报的URL得到验证,或者得到一个简单的确认,证明谷歌已经审阅过这个报告。但是由于时间有限,我 们决定将有限的时间和精力更多地放在对垃圾结果报告采取措施和改进我们的算法上 ,让谷歌的算法更加强大有效。不过,我们始终会广泛听取用户意见并且不断思考如何进一步改善与用户的沟通。

标签: ,



良好的站务管理

发表者:Michael Wyszomierski,搜索质量组

原文:Good housekeeping
发表于:2008年3月20日星期四,早上7:45

今天是北半球春季的第一天,正
是您开始春季大扫除的绝佳时间。但是作为一名站长,您的家务活并没有在完成车库的打扫后就大功告成了——您或许还需要对您的服务器做一些清扫工作。

外部
在我们着手清理内部之前,先站在外面从大街上看一下您的站点——或者在谷歌搜索结果里看起来怎么样。只要随手打开离您最近的谷歌搜索框,使用查询格式[site:example.com]对您的网站进行一次站点收录情况检索即可。就象您总是会让您的门牌号码和信箱名字保持清晰可见一样,看看您的访问者能否方便地从谷歌所列出的标题和摘要中识别您的站点及其内容。如果您希望改善网站的目前面貌,请尝试使用谷歌网站管理员工具内容分析特性,并阅读相关资料,了解如何改善您的网站摘要



谈到让您的地址清晰可见,就要问问您的网站是怎样被列在搜索结果中的。比如我叫Michael,但是也有人叫我Mike甚至Wysz。但是,我只希望自己在电话簿上被列出一次。相似地,您的站点可能有些页面可以从多个不同的URL进入,例如:www.example.comexample.com。为了整合您网站在谷歌中的搜索结果,可以使用301重定向,告诉谷歌(和其他搜索引擎)您希望自己的页面怎样被收录和排列。您还能够借助网站管理员工具方便地告诉谷歌您所喜欢的域名。就象我希望银行知道,MikeMichael名下的存款都应该归入同一账户下一样,那些重定向能够帮助谷歌恰当地整合指向特定目标网页的链接属性(比如PageRank)。

内部

无论您的房子再怎样整洁,如果您的访问者找不到大门或无从进入,您所做的一切都可能白费了。您需要通过多种浏览器来查看您的站点外貌和功能,并确保所有的访问者都能享受到您费尽苦心所设计的体验。并非所有的人都在使用Internet Explorer,所以我们建议您使用代表不同页面风格的浏览器进行查看。FirefoxSafariOpera浏览网页的方式各不相同,而这三种浏览器可能决定着至少20%访问者的的网站浏览体验。对于有些站点,这个比重还可能更高——《纽约时报》最近报道说,他们的在线读者中有大约38%的人使用Firefox或者Safari

如果您的站点要求用户使用插件,请检查一下这些额外内容在不同的操作系统上是否能够正常运行。要知道,许多人只有在购买新机器的时候才升级他们的操作系统,所以您需要退后一到两个版本,看看您的站点在旧版本的操作系统上表现得怎么样。为了确保您不会把那些浏览功能受限的访问者拒之门外,最好尝试不用图片、
Flash或者Javascript等方式来浏览一下您自己的站点。如果您想了解谷歌在爬行您站点时可能会碰到那些困难,请查阅网站管理员工具,看看里面是否有任何关于您站点的爬行错误的报告。

清除垃圾

不幸的是,我们中有很多人都接待过不速之客。如果他们走的时候留下了乱七八糟的东西,那就请帮帮那些未来的访问者,把这些垃圾清除出去。把留言簿中充斥着垃圾信息的页面删除。清除那些由各种广告商在您论坛里发布的毫不相干的垃圾帖。在丢掉垃圾的同时,注意有没有任何空白或者被废弃的页面。我们的地下室里总是有一些永远都没有顾得上收拾的东西。如果您的站点仍然有显示
1997年前后网站正在建设中的图片的URL,或者还有类似于"Products > Shirts > Graphic T's: There are no graphic t's at this time"的模板,它们除了落满灰尘之外毫无用处,而且我敢打赌您今后再也不会回过头去把那些东西做完了。在您清除了垃圾,并修正了链接指向之后,请使用404 HTTP状态代码,从而确保访问者都知道这些网页已经不复存在了。您可以使用FireFox浏览器上的Live HTTP Headers插件来查看您的服务器返回了什么代码。

安全性和预防性维护

为了防止未来访问者对您的网站造成侵害,特别是防范那些可能在深更半夜潜入您家后门的不速之客,请按照我们的核对表逐项检查您是否已经具备了基本的安全措施。


如果您站点的维护工作(例如升级软件包等)会让访问者暂时无法查看网站内容,请使用
503 HTTP 状态代码告诉您的访问者,请他们谅解。它也会通知谷歌稍后再来拜访,而不会将您的错误页也当成网站内容的一部分。如果您使用的是WordPress,就能够借助维护模式插件,在设定状态编码的同时方便地设定您要传达的讯息。

谈到入侵者和软件升级,您永远也不能预见什么时候会出错。在发生问题之前,现在就马上开始重新评估您的备份策略吧。就象您购买的家庭保险一样,花上一份努力和金钱,就能换回心里的平安,何况说不定到时候可能真的会排上用场呢!良好的备份系统可以将您的备份文件存放在工作站点以外的地方,而且会自动执行,不用担心自己会忘记。 在您更新软件或者进行大的改动之前,备份您的站点(包括其中的数据库)是一种非常明智的做法。

标签:



如何使用robots.txt

发表者: 马超, 石仁赫

robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制。这些漫游器是自动的,在它们访问网页前会查看是否存在限制其访问特定网页的 robots.txt 文件。如果你想保护网站上的某些内容不被搜索引擎收入的话,robots.txt是一个简单有效的工具。这里简单介绍一下怎么使用它。

如何放置Robots.txt文件


robots.txt自身是一个文本文件。它必须
位于域名的根目录中并 被命名为"robots.txt"。位于子目录中的 robots.txt 文件无效,因为漫游器只在域名的根目录中查找此文件。例如,http://www.example.com/robots.txt 是有效位置,http://www.example.com/mysite/robots.txt 则不是。

这里举一个
robots.txt的例子:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~name/

使用 robots.txt 文件拦截或删除整个网站

要从搜索引擎中删除您的网站,并防止所有漫游器在以后抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:

User-agent: *
Disallow: /

要只从 Google 中删除您的网站,并只是防止 Googlebot 将来抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:
User-agent: Googlebot
Disallow: /

每个端口都应有自己的 robots.txt 文件。尤其是您通过 http 和 https 托管内容的时候,这些协议都需要有各自的 robots.txt 文件。例如,要让 Googlebot 只为所有的 http 网页而不为 https 网页编制索引,应使用下面的 robots.txt 文件。

对于 http 协议 (http://yourserver.com/robots.txt):

User-agent: *
Allow: /

对于 https 协议 (https://yourserver.com/robots.txt):

User-agent: *
Disallow: /

允许所有的漫游器访问您的网页
User-agent: *
Disallow:
(另一种方法: 建立一个空的 "/robots.txt" 文件, 或者不使用robot.txt。)

使用 robots.txt 文件拦截或删除网页

您可以使用 robots.txt 文件来阻止 Googlebot 抓取您网站上的网页。 例如,如果您正在手动创建 robots.txt 文件以阻止 Googlebot 抓取某一特定目录下(例如,private)的所有网页,可使用以下 robots.txt 条目:
User-agent: Googlebot
Disallow: /private
要阻止 Googlebot 抓取特定文件类型(例如,.gif)的所有文件,可使用以下 robots.txt 条目:
User-agent: Googlebot
Disallow: /*.gif$
要阻止 Googlebot 抓取所有包含 ? 的网址(具体地说,这种网址以您的域名开头,后接任意字符串,然后是问号,而后又是任意字符串),可使用以下条目:
User-agent: Googlebot
Disallow: /*?
尽管我们不抓取被 robots.txt 拦截的网页内容或为其编制索引,但如果我们在网络上的其他网页中发现这些内容,我们仍然会抓取其网址并编制索引。因此,网页网址及其他公开的信息,例如指 向该网站的链接中的定位文字,有可能会出现在 Google 搜索结果中。不过,您网页上的内容不会被抓取、编制索引和显示。

作为网站管理员工具的一部分,Google提供了robots.txt分析工具。它可以按照 Googlebot 读取 robots.txt 文件的相同方式读取该文件,并且可为 Google user-agents(如 Googlebot)提供结果。我们强烈建议您使用它。 在创建一个robots.txt文件之前,有必要考虑一下哪些内容可以被用户搜得到,而哪些则不应该被搜得到。 这样的话,通过合理地使用robots.txt, 搜索引擎在把用户带到您网站的同时,又能保证隐私信息不被收录。

标签:



How to use robots.txt

By Chao Ma, In Hyuk Seok

A
robots.txt provides restrictions to search engine robots (known as "bots") that crawl the web. These bots are automated, and before they access pages of a site, they check to see if a robots.txt file exists that prevents them from accessing certain pages. If you want to protect some of your contents from being indexed by search engines, robots.txt is a simple tool for it. In this time, we would like to discuss how to use it.
Placing Robots.txt

The "/robots.txt" file is a text file, with one or more records. The robots.txt file must be reside in the root of the domain and must be exactly named "robots.txt". A robots.txt file located in a subdirectory is not a valid, as bots only check for this file in the root of the domain.

For instance, http://www.example.com/robots.txt is a valid location. But, http://www.example.com/mysite/robots.txt is not.

Example of a robots.txt:
User-agent:*
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~name/

Block or remove your entire website using a robots.txt file

To remove your site from search engines and prevent all robots from crawling it in the future, place the following robots.txt file in your server root:
User-agent: *
Disallow: /
To remove your site from Google only and prevent just Googlebot from crawling your site in the future, place the following robots.txt file in your server root:
User-agent: Googlebot
Disallow: /
Each port must have its own robots.txt file. In particular, if you serve content via both http and https, you'll need a separate robots.txt file for each of these protocols. For example, to allow Googlebot to index all http pages but no https pages, you'd use the robots.txt files below.

For your http protocol (http://yourserver.com/robots.txt):

User-agent: *
Allow: /
For the https protocol (https://yourserver.com/robots.txt):
User-agent: *
Disallow: /
Allow all robots complete access
User-agent: *
Disallow:

(alternative solution: Just create an empty "/robots.txt" file, or don't use one at all.)

Block or remove pages using a robots.txt file

You can use a robots.txt file to block Googlebot from crawling pages on your site.

For example, if you're manually creating a robots.txt file, to block Googlebot from crawling all pages under a particular directory (for example, private), you'd use the following robots.txt entry:
User-agent: Googlebot
Disallow: /private
To block Googlebot from crawling all files of a specific file type (for example, .gif), you'd use the following robots.txt entry:
User-agent: Googlebot
Disallow: /*.gif$
To block Googlebot from crawling any URL that includes a ? (more specifically, any URL that begins with your domain name, followed by any string, followed by a question mark, followed by any string):
User-agent: Googlebot
Disallow: /*?
While we won't crawl or index the content of pages blocked by robots.txt, we may still crawl and index the URLs if we find them on other pages on the web. As a result, the URL of the page or other publicly available information such as anchor text in links to the site can appear in Google search results. However, no content from your pages will be crawled, indexed, or displayed.

As a part of webmaster tool, Google provides robots.txt analysis tool. The tool reads the robots.txt file in the same way Googlebot does and gives you results for Google user-agents. We strongly suggest to use it . Before creating robots.txt, you should think about how much information you want to share with people, or to keep private. Remember that search engine is a good way to have your contents publicly more accessible. By using robots.txt properly, people will be happy to visit your website through search engine but meanwhile you can still prevent your private information from being exposed.

标签:



Copyright © 2007 Google Inc. All rights reserved.
隐私政策 - 服务条款