好文章!~~
不错,比较实用。 以后知道该注意什么了 谢谢了
我的blog和feed都被google索引了,会定为内容重复吗?
当然不会。但谷歌“只会选择一个版本显示给谷歌用户”。如果你不想我们索引你feed版,你可以在你的robots.txt文件中写上目录名或正则表达式来禁止谷歌对feed版的抓取。
关于“链接要一致:努力使你的内部链接保持一致; 千万不要既有/page/,又有/page和/page/index.htm 的内部链接”
google一直有能力辨认它们三个页面为一个页面,有必要这么讲究细节吗???????
那么首页就不能出现www.example.com/和www.example.com/index.html两个url了???
“千万不要”语气有点重了。这只是一个例子而已。Google的算法可以辨别,但可能不是100%的准确。已删除“千万”以和原文一致。
关于你回答“克亚 ”的问题,用robots禁止feed。 feed的url是feedburner呢?这样子robots.txt禁不了的。估计这样子只能听天由命了。。。呵呵
这种普遍情况应该没问题。
[…] 新开的谷歌中文网站管理员官方博客果然起到了一些作用,至少我之前由于语言的原因没有注意到Google官方对重复内容的说法,建议大家都去看看。 […]
看了这篇文章我深有感触,因为我自己一直在与WordPress产生的重复内容作斗争,所以就写了一篇文章《再再谈恼人的“重复内容”》,在文章最后我给您提了个建议,使用英文的post slug而不是汉字作为permalink。谢谢您。
google如何判定,原始出处
我想知道如果中文网站没有robots.txt的话,GOOOGLE还会收录吗
如果没有robots.txt,说明你允许所有搜索引擎(包括谷歌)来抓取并收录你的所有目录。绝大多数网站没有robots.txt。
robots.txt文件的存在是为了从搜索引擎中删除你的网站。建议你看一看”从 Google 索引中删除我的内容”。
是不是在文章的末尾都有相应的版权声明或者有链接指向版权声明区可以成为GOOGLE判断文章的原始出处的依据之一呢???
不是。抄袭者完全可以也有版权声明或链接呀。
www1.abc.com/test.html www2.abc.com/test.html www3.abc.com/test.html www4.abc.com/test.html
都是同样的内容,算内容重复吗?
我们不能期望100%的用户满意我们的算法,但Bvcsi的问题对Google来说也太简单了一点 . Google对重复内容的判别还是相当的准确的。
出现了url的相同和title的相同,更多的是内容的相同.比较害怕的是内容的相同。
不错。
支持个。早就知道此博了。不过一直没来看看。
中南搜索爱好者杨金平,过来报个道,会多向大家学习的。
内容重复的确是一个中文网站中普遍存在的现象,对版权的漠视、求多不求精的建站思路,最终导致的就是自身网站在用户中丧失不可替代性。其实这是一个怪圈,用户对一个网站的依赖性越高,这个网站对搜索引擎的依赖性就越低。所以有时候,当你过于在乎你在搜索引擎中的排名时,也许就从另一个侧面证明了你建站思路的错误。
没有必要介意重复内容,从自己做起,不拷贝,不转载,别人转载你的,也无所谓,让Google去判断吧。
不知道Google如何处理这里转载的英文原文,会不会把原来的英文原版博客上的文章放到补充类。
觉得转载的原版英文是给在中国居住的老外看的,他们穿墙的道行比我们中国人差一点。
翻译的也太……
“辛迪加” ……这样很不妥!!
我觉得中文的翻译还应该再多推敲一点。 略有些生涩。
望继续提高,很好的文章。
不错,学习了
这个很只得参考
解决了困扰了我很久的一个问题
有时候重复内容不是恶意的,的确,像我在做剧情网,里面剧情你不可能自己去编造.所以google应该对这些问题加以考虑
如果两个域名指向了同一个地址,怎么告诉google机器人。 比如:www.china.com和www.cn.com都绑定了同一个网站,google怎么处理?
“两个域名指向同一个地址”,这种情况太多了。Google完全允许。Google也完全能处理一个网站301重定向到另一个网站(两个或多个网站的内容只有一个拷贝)。
你一定是想问,Google怎样处理镜像网站(Mirror Sites),也就是两个(多个)网站有两个(多个)内容几乎完全相同的拷贝?绝大多数情况下,Google能正确处理。他们会被看作重复内容。Google会根据它的算法显示其中之一,但肯定不能保证是你想要的那个。最好的做法是采用301重定向。
301定向,现在还不是很明白,我相信大部分人都没弄懂。呵呵
我最近刚发现一个问题:我的一个网站,虽然页面不是很多,但内容很丰富且原创,可是主要内容区域被别人一字不改的放进了他网站的内容区域(连图片都没换)。 也不知道人家在做试验还是什么意图。不知道这样的情况谷歌会怎样处理。 还没安排时间去做详细的调查,我担心的是:如果别人的网站在谷歌评级中比我的网站级别高,我的网站级别低(由于我的网站是企业网站 不方便在内容底部书写版权和原载时间),在这样的情形不知道谷歌是否会放弃级别低的网站。
你可以使用谷歌的网站管理员工具看看你的文章究竟在哪些查询中排前列。如果抄袭你文章的网站排在你的前面,你可以通过网站管理员工具使用举报垃圾网站的表格来举报重复内容网站。
我哥们的blog(google已收录)现在打算同时贴在多个地方,一个sina的blog,一个自己的域名的blog,另,发现douban.com等对他的blog有镜像(有注明来源),这些算不算重复内容?
这就是文中提到的所谓的”辛迪加式的联合供文”.
啊?这对“允许转载”的blog岂不是不利? 有没有办法减小这种不利?
回36楼,上面说了,以链接形式注明首发地址,对首发博客才会有用。有一些聚合网站,从RSS中导入内容生成网页,而你的文章没有给自己加上链接,真的是亏大了。 我昨天处理了这样的一个问题,把RSS生成的方式改了,把内容去掉,描述部分改成标题,让他们聚合去吧。哈哈,什么内容也没有。
其实现在的SEO不会傻到做几个网站都是拷制版的,我看见更多的是申请几个甚至几十个网站域名,每个网站域名做成不同的样子,但是优化同一类关键词,这样的结果是大量的优质资源互动,在优化的对象关键词上出现在首页的搜索结果就会出现几个自己的网站。不知道谷歌对这种现象有什么防范措施??如果没有,很快,我保证,大量的搜索结果就是这样的不友好。
收益非浅,以后要学习和注意的地方还有很多呀
我的博客中单文章有2种页面,一个静态和一个动态,如: post/1.html和view.asp?=1 这样会不会被认定为重复页面?我想用ROBOTS文件阻止GOOGLE访问和收录VIEW.ASP生成的页面应该怎么写内容?
User-agent: * Disallow: /view.asp 或者 User-agent: * Disallow: /view.asp?=
2007年07月13日 9:16 am
好文章!~~
2007年07月13日 9:23 am
不错,比较实用。
以后知道该注意什么了
谢谢了
2007年07月13日 9:54 am
我的blog和feed都被google索引了,会定为内容重复吗?
2007年07月13日 10:11 am
当然不会。但谷歌“只会选择一个版本显示给谷歌用户”。如果你不想我们索引你feed版,你可以在你的robots.txt文件中写上目录名或正则表达式来禁止谷歌对feed版的抓取。
2007年07月13日 10:27 am
关于“链接要一致:努力使你的内部链接保持一致; 千万不要既有/page/,又有/page和/page/index.htm 的内部链接”
google一直有能力辨认它们三个页面为一个页面,有必要这么讲究细节吗???????
那么首页就不能出现www.example.com/和www.example.com/index.html两个url了???
2007年07月13日 10:28 am
“千万不要”语气有点重了。这只是一个例子而已。Google的算法可以辨别,但可能不是100%的准确。已删除“千万”以和原文一致。
2007年07月13日 10:35 am
关于你回答“克亚 ”的问题,用robots禁止feed。
feed的url是feedburner呢?这样子robots.txt禁不了的。估计这样子只能听天由命了。。。呵呵
2007年07月13日 11:25 am
这种普遍情况应该没问题。
2007年07月13日 11:30 am
[…] 新开的谷歌中文网站管理员官方博客果然起到了一些作用,至少我之前由于语言的原因没有注意到Google官方对重复内容的说法,建议大家都去看看。 […]
2007年07月13日 11:39 am
看了这篇文章我深有感触,因为我自己一直在与WordPress产生的重复内容作斗争,所以就写了一篇文章《再再谈恼人的“重复内容”》,在文章最后我给您提了个建议,使用英文的post slug而不是汉字作为permalink。谢谢您。
2007年07月13日 12:01 pm
google如何判定,原始出处
2007年07月13日 12:10 pm
我想知道如果中文网站没有robots.txt的话,GOOOGLE还会收录吗
2007年07月13日 12:49 pm
如果没有robots.txt,说明你允许所有搜索引擎(包括谷歌)来抓取并收录你的所有目录。绝大多数网站没有robots.txt。
robots.txt文件的存在是为了从搜索引擎中删除你的网站。建议你看一看”从 Google 索引中删除我的内容”。
2007年07月14日 9:33 am
是不是在文章的末尾都有相应的版权声明或者有链接指向版权声明区可以成为GOOGLE判断文章的原始出处的依据之一呢???
2007年07月14日 9:34 am
不是。抄袭者完全可以也有版权声明或链接呀。
2007年07月14日 10:17 am
www1.abc.com/test.html
www2.abc.com/test.html
www3.abc.com/test.html
www4.abc.com/test.html
都是同样的内容,算内容重复吗?
2007年07月14日 12:12 pm
我们不能期望100%的用户满意我们的算法,但Bvcsi的问题对Google来说也太简单了一点
. Google对重复内容的判别还是相当的准确的。
2007年07月14日 12:20 pm
出现了url的相同和title的相同,更多的是内容的相同.比较害怕的是内容的相同。
2007年07月14日 5:00 pm
不错。
支持个。早就知道此博了。不过一直没来看看。
中南搜索爱好者杨金平,过来报个道,会多向大家学习的。
2007年07月14日 5:28 pm
内容重复的确是一个中文网站中普遍存在的现象,对版权的漠视、求多不求精的建站思路,最终导致的就是自身网站在用户中丧失不可替代性。其实这是一个怪圈,用户对一个网站的依赖性越高,这个网站对搜索引擎的依赖性就越低。所以有时候,当你过于在乎你在搜索引擎中的排名时,也许就从另一个侧面证明了你建站思路的错误。
2007年07月15日 2:47 am
没有必要介意重复内容,从自己做起,不拷贝,不转载,别人转载你的,也无所谓,让Google去判断吧。
2007年07月15日 3:18 am
不知道Google如何处理这里转载的英文原文,会不会把原来的英文原版博客上的文章放到补充类。
觉得转载的原版英文是给在中国居住的老外看的,他们穿墙的道行比我们中国人差一点。
2007年07月15日 11:46 pm
翻译的也太……
“辛迪加” ……这样很不妥!!
2007年07月16日 12:24 am
我觉得中文的翻译还应该再多推敲一点。
略有些生涩。
望继续提高,很好的文章。
2007年07月16日 3:04 pm
不错,学习了
2007年07月16日 3:14 pm
这个很只得参考
2007年07月16日 3:45 pm
解决了困扰了我很久的一个问题
2007年07月16日 5:14 pm
有时候重复内容不是恶意的,的确,像我在做剧情网,里面剧情你不可能自己去编造.所以google应该对这些问题加以考虑
2007年07月17日 11:26 am
如果两个域名指向了同一个地址,怎么告诉google机器人。
比如:www.china.com和www.cn.com都绑定了同一个网站,google怎么处理?
2007年07月17日 11:58 am
“两个域名指向同一个地址”,这种情况太多了。Google完全允许。Google也完全能处理一个网站301重定向到另一个网站(两个或多个网站的内容只有一个拷贝)。
你一定是想问,Google怎样处理镜像网站(Mirror Sites),也就是两个(多个)网站有两个(多个)内容几乎完全相同的拷贝?绝大多数情况下,Google能正确处理。他们会被看作重复内容。Google会根据它的算法显示其中之一,但肯定不能保证是你想要的那个。最好的做法是采用301重定向。
2007年07月18日 12:58 am
301定向,现在还不是很明白,我相信大部分人都没弄懂。呵呵
2007年07月18日 2:36 pm
我最近刚发现一个问题:我的一个网站,虽然页面不是很多,但内容很丰富且原创,可是主要内容区域被别人一字不改的放进了他网站的内容区域(连图片都没换)。
也不知道人家在做试验还是什么意图。不知道这样的情况谷歌会怎样处理。
还没安排时间去做详细的调查,我担心的是:如果别人的网站在谷歌评级中比我的网站级别高,我的网站级别低(由于我的网站是企业网站 不方便在内容底部书写版权和原载时间),在这样的情形不知道谷歌是否会放弃级别低的网站。
2007年07月18日 2:38 pm
你可以使用谷歌的网站管理员工具看看你的文章究竟在哪些查询中排前列。如果抄袭你文章的网站排在你的前面,你可以通过网站管理员工具使用举报垃圾网站的表格来举报重复内容网站。
2007年07月18日 5:05 pm
我哥们的blog(google已收录)现在打算同时贴在多个地方,一个sina的blog,一个自己的域名的blog,另,发现douban.com等对他的blog有镜像(有注明来源),这些算不算重复内容?
2007年07月18日 6:16 pm
这就是文中提到的所谓的”辛迪加式的联合供文”.
2007年07月24日 6:15 pm
啊?这对“允许转载”的blog岂不是不利?
有没有办法减小这种不利?
2007年07月25日 3:44 pm
回36楼,上面说了,以链接形式注明首发地址,对首发博客才会有用。有一些聚合网站,从RSS中导入内容生成网页,而你的文章没有给自己加上链接,真的是亏大了。
我昨天处理了这样的一个问题,把RSS生成的方式改了,把内容去掉,描述部分改成标题,让他们聚合去吧。哈哈,什么内容也没有。
2007年07月26日 10:06 pm
其实现在的SEO不会傻到做几个网站都是拷制版的,我看见更多的是申请几个甚至几十个网站域名,每个网站域名做成不同的样子,但是优化同一类关键词,这样的结果是大量的优质资源互动,在优化的对象关键词上出现在首页的搜索结果就会出现几个自己的网站。不知道谷歌对这种现象有什么防范措施??如果没有,很快,我保证,大量的搜索结果就是这样的不友好。
2007年07月26日 10:51 pm
收益非浅,以后要学习和注意的地方还有很多呀
2007年07月27日 4:46 pm
我的博客中单文章有2种页面,一个静态和一个动态,如:
post/1.html和view.asp?=1
这样会不会被认定为重复页面?我想用ROBOTS文件阻止GOOGLE访问和收录VIEW.ASP生成的页面应该怎么写内容?
User-agent: *
Disallow: /view.asp
或者
User-agent: *
Disallow: /view.asp?=