
几天前,我在八月底和朋友聊天,就百度算法的更新交换了一些看法。该网站的问题在于,截图停留在8月15日,百度在将近20天内没有包括新内容。
从简单的对话中,我们知道该网站已经上线2个月了,每天更新它的原始内容和外部链。自从百度收录了文章,第二天收录了文章,长尾单词排名很好。但是快照在8月1日归档到815之后没有更新。9.通过对车站整体结构和内容的分析,发现车站整体结构清晰,没有严重的结构问题。文章内容充斥着图文并茂,长尾词排列整齐,有利于新站的建设。
为什么快照没有更新,新内容不再包含是百度自己的问题,还是肉眼看不到的另一个症结此时,我想日志分析,有时只能通过内部透视。
从好友到前一天的网站LOG日志,下面是从蜘蛛简档截图的日志分析工具。从图中,我们可以看到蜘蛛访问次数、停留时间和三个主要搜索引擎的总爬行量。
本站友属新站,外链不多,整个网站的信息内容不是很大。根据个人经验分析,蜘蛛单抓(总抓取次数)到80-100是一个很好的数字。为什么新内容不是inc.在网站上找到了吗
第二步是查看网站目录的爬行。下面的图片是抓取Top3目录的三个主要蜘蛛目录的屏幕截图。从图中,我们可以看到,在地图上抓取的档案目录远远多于其他网站目录。这个数字让我有点不安。
从朋友的网站,我们知道这是一个每日档案目录。从图中,我们可以看到,在2010年9月5日返校当天发布的内容是空的(朋友的网站只建立了两个多月)。
从网站管理员工具中可以看到,URL返回了200个状态码。此时,心理状态可能有底部,爬行这个目录中的蜘蛛一定遇到困难。
为了验证我的判断,我通过EddPress打开了日志文件。出乎意料的是,当抓取归档目录时,几只大蜘蛛陷入了死胡同。
关键已经找到了,下一步是如何解决这个问题。因为这个文档归档功能是朋友购买的插件,所以朋友仍然希望保留这个每日归档列,毕竟,所花的钱是实用的,不是因为该列可以带来流量,而是有用的。补充。首先,我们考虑过使用NOFOLLOW来防止蜘蛛爬行,但是考虑它并不合适。毕竟,已经包含的页面为蜘蛛提供了爬行的空间,并且将会出现本文中提到的死循环。
这是整个诊断过程。很多时候当我们的网站出现问题时,请打开你的网站博客日志,仔细比较和分析里面的数据,将帮助你找到问题。