如何分析网站日志

2013-09-09 00:07:16 59.60.7.125 GET /news/news2013524236.html – 80 – 123.125.71.16 HTTP/1.1 Mozilla/5.0+(Linux;u;Android+2.3.7;zh-cn;)+AppleWebKit/533.1+(KHTML,like+Gecko)+Version/4.0+Mobile+Safari/533.1+(compatible;++http://www.baidu.com/search/spider.html) – – www.jinh.cn 200 0 0 16143 296 140

上面一段文字是笔者从网站日志中截取的完整的一小段。GET的前面有两个数据,前半部分是时间,后半部分就是你网站的域名IP了,GET后面到-前面所代表的是蜘蛛所爬行的页面。若什么都没有的,就代表了它爬了你网站的首页。

后面的-后面就是非常重要的爬行蜘蛛的IP了。一般常见的IP其实就两种一种是提权蜘蛛的IP220.181.108.*,另一种就是垃圾内容的查看蜘蛛123.125.71.*。对于新站来讲,还需要特别留意一个IP:121.14.89.*。这个IP代表了你的新站已经摆脱了新站的考察期,正式成为一个普通网站看待。

还有一些需要注意的就是IP的第三个区间段为68或者51的IP,当这些IP大量出现在你的网站的时候,我可以负责任的告诉你们:亲们,你可以为你的网站准备后事了。

当然很多时候你还会发现很多你看不懂的IP,大多时候都是你在用一些网站监测工具的时候,它们模拟百度蜘蛛产生的IP,如站长之家,爱站网等。这些的冒牌货用NSLOOKUP命令一查便知,完全没必要太过于在意。

然后IP后面跟着的一大堆唯一要注意就是那个网址。它代表了蜘蛛找到你的网站的入口。比如你再某博客或者论坛发表了一篇文章,而后面发现蜘蛛是从那里找到你的网站的。那么,说明这个外链是效果比较好的,你就可以继续坚持去做下去。然后就是最后那些返回值了,就是200 0 0这一段。返回的代码一般有200、301、304、403、404这些代码在网上都可以找到先关说明笔者就不多做介绍了。最后的那三个值代表了下载,上传以及耗时。

百度最初爬行网站的内容的蜘蛛应该都是220.181.108.*,百度在爬行每一个新页面的时候都是用提权蜘蛛,然后通过提取到的内容,返回数据库进行对比,从而决定了第二次爬你网站蜘蛛的IP。也就是说,所谓的220.181.108.*爬过的网页隔天收录是针对第二次的IP而言。

两个IP分别是220.181.108.97和123.125.71.49可以很容易看出来这2个IP一个是提权的蜘蛛,一个是垃圾内容的蜘蛛。

日志分析的主要作用是:

第一:内容上的指导。当我们网站的页面出现123.125.71.*的IP时我们应该引起警觉。对于这样的页面我们应该第一时间去查看下,这个页面的内容是否抄袭,或者内容是否属于垃圾内容。对于123.125.68以及220.181.51.*的IP我们应该把它理解为百度蜘蛛对你网站的警告。对于这些情况我们应第一时间对于想对应的页面进行整改。很多时候我们蜘蛛在访问网站的时候会返回301,304,403,404等代码,我们也要及时地应对。

第二外链上的指导。很多时候我们在发外链的时候可能不知道什么样的外链是有效的,什么是高质的,什么是垃圾的。这是一个很难以确定标准的东西。但是我们在网站日志里可以看到一些端倪。例如网站每次记录都是有一个来源的,通过入口的来源,我们可以发现,这条记录百度是通过哪里进入你的网站的。或者很多有心的人会发现,我们发外链的时候所给的链接是不一样的。

第三,综合的指导。经常性我们在日志里可以发现一些返回值不是200的条目,而通过日志的返回值我们就可以很容易地找到,这个页面,并且对于这个页面的错误或者不足进行修改。而通过对于网站每天日志的对比记录,我们可以发现,蜘蛛每天来网站的次数是增加了还是减少了。如果增加了,是一些友好的IP还是不好的IP,这些记录又是从哪个入口进入的。从而分析出我们在日常的网站SEO工作中,在哪些方面是做得比较好的,哪些方面是不足的。

再次强调一点,蜘蛛的IP是在未爬行到网站之前决定的,所以千万别看到220.181.108.*的IP就以为是天使的眷顾,它也很可能是死神的镰刀!下次笔者将和大家分享,如何深度分析网站的日志 。

未经允许不得转载:西安王尘宇 » 如何分析网站日志

赞 (0)

评论 0