可以被索引和不能索引的情况

参考地址:
1、http://www.phpxs.com/post/2112/
不能被索引的链接:
1、隐藏在需要提交的表格中的链接
2、不能解析的JavaScript脚本中的链接
3、Flash、Java和其他插件中的链接
4、PowerPoint和PDF文件中的链接
5、指向被metaRobtots标签、rel="NoFollow"和robots.txt屏蔽的页面的链接
6、页面上有上几百个链接
7、frame(框架结构)和iframe里的链接
  对于现在的网站来还有下面的原因,
8、通过来说是因为内容是动态生成的,而不是静态的
9、网站通过WebSocket的方法渲染内容
10、使用诸如Mustache之类的JS模板引擎
能被索引的链接:
1、确保页面可以在没有JavaScript下能被渲染。对于现在JavaScript语言使用越来越多的情况,在使用JS模板引擎的时候也应该注意这样的问题。
2、在用户禁用了JavaScript的情况下,保证所有的链接和页面是可以访问的。
3、确保爬虫可以看到所有的内容。那些用JS动态加载出来的对于爬虫来说是不友好的。
4、使用描述性的锚文本的网页。
5、限制的页面上的链接数量。除去一些分类网站、导航网站之类有固定流量,要不容易被认为垃圾网站。
6、确保页面能被索引。有一指向它的URL。
7、URL应该遵循最佳实践。如blog/how-to-driver有更好的可读性。
正确的地方使用正确的关键词:
1、把关键词放在URL2、关键词应该是页面的标签
3、带有H1标签
4、图片文件名、ALT属性带有关键词
5、页面文字
6、加粗文字
7、Descripiton标签

Leave a Reply

电子邮件地址不会被公开。 必填项已用*标注