最新消息:专业日照SEO日照网站优化,日照网站建设等网络服务。联系点击 QQ:187348839 电话:189-6336-0585

日照SEO网站优化每天必做-网站日志分析

SEO术语 日照SEO 630浏览

自从自己从事SEO网站优化以来,自己慢慢的去关注网站日志。网站日志分析成为自己每天工作的第一件事情,每天一到公司第一时间就是对昨天的网站日志进行分析。也许部分站长们还不会分析网站日志,这个可以参阅下之前日照网络公司小编发表过的《SEO优化如何进行网站日志分析》,但也有少部分觉得分析网站日志就是在浪费时间,天天看着那些数据有什么作用。这里日照seo小编觉得至少有四点我们可以了解到。

网站日志是什么? 

作为一个网站管理人员,我们该除了通过流量统计工具来查看网站访问人数之外,并不能帮助我们很好地了解网站的运行状况,而网站日志的出现很好地帮助我们解决这一问题。网站日志是由网站所在服务器实时记录网站运行状态的各种数据的文件,通过对网站日志的分析,我们可以知道哪些用户访问了网站,访问了哪些页面;同时可以查看到搜索引擎中的蜘蛛在网站中的爬行情况,利用网站日志还能查看到请求中返回的HTTP协议状态码,长期分析网站日志中的HTTP状态码能够发现对网站不利的细节部分,使网站管理人员更好地管理和优化网站。   

网站日志存放在哪里? 

网站日志一般存放在网站根目录下的“log文件夹”或“logfiles文件夹”,文件夹名称视各虚拟主机提供商不同而不同。网站日志是以txt结尾的文本文件。可以通过FlashFxp、Leapftp等网站上传下载工具将日志下载到本地进行分析。

 

第一、 确定是否有蜘蛛过来爬行

如何确定是否有蜘蛛过来爬行:

1、 通过观看网站日志代码进行观看,这个针对分析高手

2、 通过网站日志分析工具进行观看,这个比较适合新手使用

通过网站日志分析工具可以直接查看站点有哪些页面已经被蜘蛛爬行抓取了。

第二、 客户ip便知蜘蛛类型。

1、220.181.108.*ip段的百度蜘蛛(提权蜘蛛)

2、123.125.71.*ip段的百度蜘蛛(劣质文章捉取蜘蛛)

3、123.125.68.*ip段的百度蜘蛛(考察蜘蛛)

4、117.28.255.*ip段的百度蜘蛛(假冒蜘蛛)

5、。。。。。。

第三、 检测页面状态正常与否

通过网址日志我们可以直接的服务器响应代码看出我们的页面哪些有问题,哪些正常的。一般情况下返回的状态码是200的话说明正常,出现404的话,说明页面出现问题。

第四、 搜索引擎对站点的友好程度

从网站日志,我们可以直接的看出蜘蛛来我们站点的爬行次数,爬行次数越多说明蜘蛛对我们的站点越友好。

通过上图我们可以直接的看出蜘蛛对我们站点的爬行次数了,但是这里面的爬行次数里面也存在冒牌的蜘蛛,所以我们还需要通过客户ip进行确认哪些是真正的蜘蛛,哪些是冒牌的。

通过上面三点的了解,日照网络公司小编对以上四点进行进一步的探知:

针对上面第一、我们可以直接的查看哪些页面被爬行抓取了,哪些没有。随着算法的不断更新,新站的考察期越来越长了,以至于好多新站长更新的文章通过site:域名,查收录都没有显示。这大部分是因为搜索引擎滞留了没有及时释放。

针对上面第二、我们可以通过客户ip辨别站点安全信息及文章内容质量怎样

根据不同的IP我们可以分析网站是个怎样的状态,以下常见的百度蜘蛛IP:

1、123.125.68.*常来,别的来的少,那么站点进入沙盒,或被者降权的可能性非常高。

2、220.181.68.*每天只增加没有减少,则是进入沙盒或者被降权的预兆。

3、220.181.7.*、123.125.66.* 搜索引擎开始要抓取东西。

4、121.14.89.*摆脱了新站考察期。

5、203.208.60.*站点开始不正常。

6、210.72.225.*这个ip段不间断巡逻各站。

7、220.181.108.*高质量文章内容页或首页抓取。

一般成功抓取返回代码都是 200 0 0返回,若返回状态显示304 0 0代表网站没更新,蜘蛛来过,但没抓取。如果是 200 0 64,那么也别担忧,这只不过是一些动态页面的抓取。

针对上面第三、如果服务器返回状态,比如200 表示正常访问。404 表示页面不存在。304代表网页还没更新。这些都可以通过网站日志里面的代码直接看出来的。如果大量的出现404的话,那么非常有必要对这些404的页面进行采取措施。我们可以用robots.txt协议来屏蔽这些页面,不让搜索引擎来爬行这个页面。

针对上面第四、真的蜘蛛来的次数越多越好!

好了,对网站日志就介绍里面。网站日志可以通过以下两种方式获得:

1、 ftp空间log文件夹

2、 登入你站点的服务器,通常网站日志位置C:WINDOWS-system32-LogFiles

 

网站日志案例分析:   

1、日志语法:    #Software: Microsoft Internet Information Services 6.0   

#Version: 1.0    #Date: 2010-08-11 00:00:17    

#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes   

说明:    

#Software:表示软件名称;   

#Version:表示版本号;   

#Date:表示时间   

#Fields:说明如下:   

date:表示记录访问日期;   

time:访问具体时间;    

s-sitename:表示你的虚拟主机的代称或机器码;   

s-ip:服务器IP;    

cs-method:表示访问方法或发生的请求/提交事件,

常见的有两种:一个是GET,就是平常我们打开一个URL访问的动作,

另一个是POST,提交表单时的动作;   

cs-uri-stem:用户在当前时间访问哪一个文件或具体页面;    

cs-uri-query:是指访问地址的附带参数,如asp文件?后面的字符串id=12等等,如果没有参数则用“-”表示;   

s-port:访问的端口    

cs-username:访问者名称,如果没有参数则用“-”表示;    

c-ip:访问者IP    

cs(User-Agent):访问的搜索引擎和蜘蛛名称;    

sc-status:Http状态码,

200表示成功,

403表示没有权限,

404表示打不到该页面,

500表示程序有错;    

sc-substatus:服务端传送到客户端的字节大小;   

cs–win32-statu:客户端传送到服务端的字节大小;   

sc-bytes:服务端传送数据字节大小;     

cs-bytes:用户请求数据字节大小;  

状态码后面几位数据没有固定格式,

如果只有一个表示下载数据字节大小;   

2、Http状态码:   

100——客户必须继续发出请求

  101——客户要求服务器根据请求转换HTTP协议版本

  200——交易成功

  201——提示知道新文件的URL

  202——接受和处理、但处理未完成

  203——返回信息不确定或不完整

  204——请求收到,但返回信息为空

  205——服务器完成了请求,用户代理必须复位当前已经浏览过的文件

  206——服务器已经完成了部分用户的GET请求

  300——请求的资源可在多处得到

  301——删除请求数据

  302——在其他地址发现了请求数据

  303——建议客户访问其他URL或访问方式

  304——客户端已经执行了GET,但文件未变化

  305——请求的资源必须从服务器指定的地址得到

  306——前一版本HTTP中使用的代码,现行版本中不再使用

  307——申明请求的资源临时性删除

400——错误请求,如语法错误

  401——请求授权失败

  402——保留有效ChargeTo头响应

  403——请求不允许

  404——没有发现文件、查询或URl

  405——用户在Request-Line字段定义的方法不允许

  406——根据用户发送的Accept拖,请求资源不可访问

  407——类似401,用户必须首先在代理服务器上得到授权

  408——客户端没有在用户指定的饿时间内完成请求

  409——对当前资源状态,请求不能完成

  410——服务器上不再有此资源且无进一步的参考地址

  411——服务器拒绝用户定义的Content-Length属性请求

412——一个或多个请求头字段在当前请求中错误

  413——请求的资源大于服务器允许的大小

  414——请求的资源URL长于服务器允许的长度

  415——请求资源不支持请求项目格式

  416——请求中包含Range请求头字段,在当前请求资源范围内没有range指示值,请求也不包含If-Range请求头字段

  417——服务器不满足请求Expect头字段指定的期望值,如果是代理服务器,可能是下一级服务器不能满足请求

  500——服务器产生内部错误

  501——服务器不支持请求的函数

  502——服务器暂时不可用,有时是为了防止发生系统过载

  503——服务器过载或暂停维修

  504——关口过载,服务器使用另一个关口或服务来响应用户,等待时间设定值较长

  505——服务器不支持或拒绝支请求头中指定的HTTP版本

转载请注明:日照天空网络公司 » 日照SEO网站优化每天必做-网站日志分析