首页 > 站长人生 > 草根沉浮 >

企业栈优化运营说明-如何提高抓取效率
2022-05-27 16:41:18   来源:   评论:0

上一张
收藏  分享到:
查看原图

最近也是在搜外偶尔看看帖子 发现很多问题吧 都是太初级了。很多人做网站连百度的一些官方说明 都没看一下


很多网站发出来一看 那不是搜索引擎不收录 是压根就没做优化

想要提高收录 首先需要先明白 蜘蛛的工作原理

蜘蛛访问到你网站的时候 先访问的是 robots.txt

这个文件

我发现很多人的网站 连robots.txt这个文件都没有

直接一访问就是404

网站上线后 第一时间要看的就是robots

前几天在某个站长论坛 看到一个特别有意思的事

说是自己操作失误了 把所有搜索引擎屏蔽了

导致收录全部没了

这就是没有利用好robots

你需要把不想被收录的目录、页面写在robots减少蜘蛛的工作时间。

如果robots.txt文件禁止搜索引擎抓取某些网页或者内容,蜘蛛将遵循协议,不对其进行抓取

作为一个合格的SEO 你需要经常对蜘蛛访问日志进行分析

很多时候你知道要看 但是不知道要看什么

首先判断蜘蛛的真假IP

有一些假的IP也在爬取 有可能是对你网站在进行采集

蜘蛛不可能抓取所有的网站 所以一定要先看看 页面是否对蜘蛛友好

比如一些框架下写的网站

可能不被抓取。

除了robots文件之外呢

还有一个源代码标签。

nofollow

告诉搜索引擎 不要传递权重或抓取该链接。

那么你网站的一些企业介绍 帮助中心

关于我们 联系我们 客服页面

是不是都做了这样的标签呢?

为什么起名叫做蜘蛛呢?

蜘蛛爬行的过程中 要织网

这个网 就是你网站的URL页面逻辑。

一定要确保 每一个页面 都是通的

而不能是死的

你网站到处都是死胡同 蜘蛛下回就不来了

蜘蛛是通过网页的链接地址来寻找网页,

那么一般一个网站首页的链接是最多的

比如58这种。

提供链接的页面 未必是排名页面。这个是后话

今天的核心主要是让你提高抓取效率

蜘蛛通过网站首页进入网站后

会顺着你源代码的URL路径

一层一层的爬下去

以前早期的蜘蛛池 文字链站群等 都是给蜘蛛做了一个迷宫 无限的页面 让蜘蛛一直爬取 把蜘蛛困在站内 最后给一个出口 让蜘蛛跟着出口 大量的导入想被抓取的页面

页面上的链接 出现的位置 会影响到搜索引擎对这个页面的评级。

比如你出现在主导航的链接 跟你底部导航链接 搜索引擎给予的评分是不同的

那么 你需要把重要的链接 尽可能的放在头部

什么是重要的链接?

点击该链接 可以看到更多 更细致的内容的

而不能是空页面或单页面

比如列表页 专题页 聚合页等等

那么除了这些页面之外

都不需要传递权重或引导抓取

页面逻辑的广度 也是需要你深入了解的

1个核心指向10个路口 每个路口下面又有10个岔道

这是广度

1个核心指向1个路口 1个路口没有岔道 但是路口长度很长 就是深度。

提高抓取效率的目的是什么?

第一时间被收录。可以更快速的提升权重

如果你的网站内容是秒收录的

那么你的完整标题上所嵌入的长尾词。

很可能直接排名首页

除了利用robots.nofollow等引导蜘蛛的方式

还可以通过站外的文字广告 友情链接 论坛发帖 签名档等方式进行站外引入蜘蛛。

具体引入效果 需要结合网站日志 来进行观察

有效果的地方多发 没有效果的地方 不要发 浪费时间

另外,搜索引擎的蜘蛛现在算法已经很先进。

你网站想做个标题去重都是分分钟的事 搜索引擎也一定能做到

所以尽量不要直接复制、采集。可以二次加工整合


相关图集