发新话题
打印

Apache日志解读-2

Apache日志解读-2

Apache日志解读-1


可以看到,CGI错误和前面的404错误格式相同,包含日期/时间、错误级别以及客户地址、错误信息。但这个CGI错误的错误信息有好几行,这往往会干扰一些错误日志分析软件的工作。

有了这个错误信息,即使是对Perl不太熟悉的人也能够找出许多有关错误的信息,例如至少可以方便地得知是哪几行代码出现了问题。Perl在报告程序错误方面的机制是相当完善的。当然,不同的编程语言输出到错误日志的信息会有所不同。

由于CGI程序运行环境的特殊性,如果没有错误日志的帮助,大多数CGI程序的错误都将很难解决。

有不少人在邮件列表或者新闻组中抱怨说自己有一个CGI程序,当打开网页时服务器却返回错误,比如“Internal Server Error”。我们可以肯定,这些人还没有看过服务器的错误日志,或者根本不知道错误日志的存在。决多大多数情况下,错误日志能够精确地指出CGI错误的所在以及如何修正这个错误。

四、查看日志文件

我常常告诉别人说,在进行开发的同时我会不断地检查服务器的日志,以便能够立即知道哪儿出了问题。但我得到的回答却往往是沉默。起先我以为这种沉默意味着“你当然得这样做”,后来我才发现这种沉默的真正含义是“我不知道别人的做法,但我自己是不干的。”

虽然如此,下面我们还是要看看如何方便地查看服务器日志文件。用telnet连接到服务器,然后输入下面的命令:

        tail -f /usr/local/apache/logs/error_log

该命令将显示出日志文件的最后几行内容,如果有新的内容加入到日志文件,它还会立即显示出新加入的内容。

                          
Windows用户也同样可以使用这种方法,比如可以使用各种为Windows提供的Unix工具软件包。我个人爱好一个称为AINTX的工具,它可以在http://maxx.mc.net/~jlh/nttools/index.htm找到。


还有一种替代方法是使用下面的Perl代码,它利用了一个称为File::Tail的模块:

       use File::Tail;

       $file=File::Tail->new("/some/log/file");

        while (defined($line=$file->read)) {

        print "$line";

        }

无论具体采用的是哪一种方法,同时打开多个终端窗口都是一种好习惯:比如在一个窗口中显示错误日志,在另一个窗口中显示访问日志。这样,我们就能够随时获知网站上发生的事情并立即予以解决。

在这个《Apache日志》系列的下一篇文章中,我们将讨论定制服务器日志,即如何在日志文件中记录所有我们想要的信息,排除所有我们不想要的信息。

在此之后,我们还将讨论日志文件的处理,即如何从日志文件生成统计报表。在最后几篇文章中,我们还将讨论如何把日志记录重定向到指定的程序而不是保存到日志文件,以便由程序实时地处理新生成的日志数据,比如将日志数据保存到数据库,或者当发生某些关键性错误时通过email把日志信息发送给系统管理员,等等。

Apche日志系列(3):定制日志

有时候我们需要定制Apache默认日志的格式和内容,比如增加或减少日志所记录的信息、改变默认日志文件的格式等。本文介绍可以用日志记录的所有信息,以及如何设置Apache使其记录这些信息。

一、定义日志格式(4月3日)

很久以前,日志文件只有一种格式,这就是“公共格式”,许多人已经习惯于使用这种格式。随后出现了定制日志格式,而且看起来定制日志格式更很受欢迎,即使公共日志格式本身也重新用定制日志格式定义。本文介绍的就是如何随心所欲地定制日志文件的格式、如何让日志文件记录自己想要的信息。

定制日志文件的格式涉及到两个指令,即LogFormat指令和CustomLog指令,默认httpd.conf文件提供了关于这两个指令的几个示例。

LogFormat指令定义格式并为格式指定一个名字,以后我们就可以直接引用这个名字。CustomLog指令设置日志文件,并指明日志文件所用的格式(通常通过格式的名字)。

LogFormat指令的功能是定义日志格式并为它指定一个名字。例如,在默认的httpd.conf文件中,我们可以找到下面这行代码:

        LogFormat "%h %l %u %t \"%r\" %>s %b" common

该指令创建了一种名为“common”的日志格式,日志的格式在双引号包围的内容中指定。格式字符串中的每一个变量代表着一项特定的信息,这些信息按照格式串规定的次序写入到日志文件。

Apache文档已经给出了所有可用于格式串的变量及其含义,下面是其译文:

----------------------------------------------------------------------

         %...a: 远程IP地址

         %...A: 本地IP地址

         %...B: 已发送的字节数,不包含HTTP头

         %...b: CLF格式的已发送字节数量,不包含HTTP头。例如当没有发送数据时,写入‘-’而不是0。

         %e: 环境变量FOOBAR的内容

         %...f: 文件名字

         %...h: 远程主机

         %...H 请求的协议

         %i: Foobar的内容,发送给服务器的请求的标头行。

         %...l: 远程登录名字(来自identd,如提供的话)

         %...m 请求的方法

         %n: 来自另外一个模块的注解“Foobar”的内容

         %o: Foobar的内容,应答的标头行

         %...p: 服务器响应请求时使用的端口

         %...P: 响应请求的子进程ID。

         %...q 查询字符串(如果存在查询字符串,则包含“?”后面的部分;否则,它是一个空字符串。)

         %...r: 请求的第一行

         %...s: 状态。对于进行内部重定向的请求,这是指*原来*请求的状态。如果用%...>s,则是指后来的请求。

         %...t: 以公共日志时间格式表示的时间(或称为标准英文格式)

         %t: 以指定格式format表示的时间

         %...T: 为响应请求而耗费的时间,以秒计

         %...u: 远程用户(来自auth;如果返回状态(%s)是401则可能是伪造的)

         %...U: 用户所请求的URL路径

         %...v: 响应请求的服务器的ServerName

         %...V: 依照UseCanonicalName设置得到的服务器名字

------------------------------------------------------------------

在所有上面列出的变量中,“...”表示一个可选的条件。如果没有指定条件,则变量的值将以“-”取代。分析前面来自默认httpd.conf文件的LogFormat指令示例,可以看出它创建了一种名为“common”的日志格式,其中包括:远程主机,远程登录名字,远程用户,请求时间,请求的第一行代码,请求状态,以及发送的字节数。

有时候我们只想在日志中记录某些特定的、已定义的信息,这时就要用到“...”。如果在“%”和变量之间放入了一个或者多个HTTP状态代码,则只有当请求返回的状态代码属于指定的状态代码之一时,变量所代表的内容才会被记录。例如,如果我们想要记录的是网站的所有无效链接,那么可以使用:

----------------------------------------------------

         LogFormat %404{Referer}i BrokenLinks

---------------------------------------------------

反之,如果我们想要记录那些状态代码不等于指定值的请求,只需加入一个“!”符号即可:

         LogFormat %!200U SomethingWrong

         Apche日志系列(4):日志分析

尽管日志文件中包含着大量有用的信息,但这些信息只有在经过深入挖掘之后才能够最大限度地发挥作用。本文首先讨论了能够从日志文件获得的信息以及不能从日志文件获得的信息,然后介绍了几种优秀的日志分析工具以及如何自己编程分析日志文件。

一、可以得到哪些信息(4月4日)

在这个《Apache日志》系列文章的前面几篇中,我们讨论了Apache的标准日志文件——访问日志和错误日志,以及如何定制日志文件。本文接下来讨论如何分析日志文件获得宝贵的统计信息。

我们面临的问题是,虽然日志文件中包含了大量的信息,但这些信息对于我们管理、规划网站却没有多少直接的帮助。为了管理和规划网站,我们需要知道:有多少人浏览了网站,他们在看些什么,停留了多长时间,他们从哪里得知这个网站,等等。所有这些信息就隐藏于(或者可能隐藏于)日志文件之中。

就网站的经营者而言,他们还希望知道浏览者的姓名、地址、鞋子大小,甚至还有浏览者的信用卡号码,但这些信息都不可能从日志文件中得到。为此,作为技术人员的我们就必须知道如何向这些经营者解释清楚:这部分信息不仅不可能从日志文件获得,而且要获得这些信息的唯一方法是直接向浏览者本人询问,并作好被拒绝的准备。

有许多信息可以用日志文件来记录,其中包括:

远程机器的地址:“远程机器的地址”和“谁在浏览网站”差不多,但并不等同。具体地说,远程机器的地址告诉我们浏览者来自何方,比如它可能是buglet.rcbowen.com或者proxy01.aol.com。

浏览时间:浏览者何时开始访问网站?从这个问题的答案中我们能够了解不少情况。如果网站的大多数浏览者都在早上9:00和下午4:00之间访问网站,那么可以相信网站的浏览者大多数总在工作时间进行访问;如果访问记录大多出现在下午7:00到午夜之间,我们可以肯定浏览者一般在家里上网。
                        
当然,从单个访问记录能够得到的信息非常有限,但如果从数千个访问记录出发,我们就可以得到非常有用和重要的统计信息。

用户所访问的资源:网站的哪些部分最受用户欢迎?这些最受欢迎的部分就是我们应该继续加以发展的部分。网站的哪些部分总是受到冷落?网站中这些受到冷落的部分或许隐藏得太深,或许它们确实没有什么意思,此时我们就得想办法加以改进。当然,网站还有的内容,比如法律上的声明,虽然很少有人访问,但却不应该随便地改动它们。

无效链接:当然,日志文件还能够告诉我们哪些东西不能按照我们所想象地运行。网站中是否存在错误的链接?其他网站链接过来时有没有搞错URL?是否存在不能正常运行的CGI程序?是否有搜索引擎检索程序每秒发出数千个请求,从而影响了本网站的正常服务?这些问题的答案都可以从日志文件找到线索

TOP

带上好东西啊

TOP

good
得到同时失去-失去同时得到
MYGOD南无阿咪偶托你的福

TOP

http://shop36303316.taobao.com

TOP

晕,都给挤哪去了
顶回来吧
http://shop36303316.taobao.com

TOP

收藏。。

TOP

可否讲一下。如何将日志文件保存到数据库里。方便查询。
PUMA

TOP

收藏

TOP

谢谢,收藏

TOP

谢谢楼主分享。

TOP

谢谢分享

TOP

谢谢分享,哈哈!

TOP

继续学习~

TOP

‹‹ 上一帖:apache如何二级域名伪静态   |   下一帖:redhat 5.5下 SVN+APACHE+AD 实现通过域账号访问SVN ... ››
发新话题
最近访问的版块