用定制的PHP應用程序來獲取Web服務器的狀態(tài)信息
大多數(shù)網(wǎng)站托管(Web hosting)公司都支持客戶對Web站點統(tǒng)計數(shù)據(jù)的訪問,但是你往往會覺得服務器所產(chǎn)生的狀態(tài)信息不夠全面。例如,配置不正確的Web服務器不能識別某些文件類型,這些類型的文件就不會出現(xiàn)在狀態(tài)信息之中。幸好,你可以用PHP來定制狀態(tài)信息收集程序,這樣你就可以獲取你所需要的信息了。
公共日志文件格式(Common Logfile Format,CLF)的結(jié)構
CLF最初是NCSA為HTTPd(全球網(wǎng)服務器軟件)而設計的。CERN HTTPd是一個由萬維網(wǎng)聯(lián)盟(World Wide Web Consortium,W3C)維護的公共域Web服務器。W3C網(wǎng)站列出了該日志文件規(guī)范。基于微軟和UNIX的Web服務器都可以生成CLF格式的日志文件。CLF格式如下:Host IdentAuthuserTime_Stamp 'request' Status_codeFile_size
例如:21.53.48.83 - - [22/Apr/2002:22:19:12 -0500] 'GET /cnet.gif HTTP/1.0' 200 8237
下面是日志條目的細目分類:
Host是網(wǎng)站訪問者的IP地址或者DNS名;在上面的例子中,它是21.53.48.83。 Ident是該訪客的遠端身份(RFC 931)。破折號表明“未指定”。 Authuser是用戶ID(如果Web服務器已經(jīng)驗證了驗證網(wǎng)站訪問者的身份的話)。 Time_Stam是服務器以“日/月/年”這種格式返回的時間。 Request是網(wǎng)站訪問者的HTTP請求,例如GET或者POST。 Status_Code是服務器所返回的狀態(tài)代碼,例如:200代表“正確——瀏覽器請求成功”。 File_Size是用戶所請求文件的大小。在本例中,它為 8237字節(jié)。
服務器狀態(tài)代碼
你可以在HTTP標準中找到W3C所開發(fā)的服務器狀態(tài)代碼規(guī)范。這些由服務器所產(chǎn)生的狀態(tài)代碼表示了瀏覽器和服務器之間的數(shù)據(jù)傳輸成功與否。這些代碼一般傳遞給瀏覽器(例如非常有名的404錯誤“頁面沒有找到“)或者添加到服務器日志中去。
收集數(shù)據(jù)
創(chuàng)建我們的自定義應用程序的第一步就是獲取用戶數(shù)據(jù)。每當用戶選擇網(wǎng)站的某個資源時,我們就希望創(chuàng)建一個對應的日志條目。幸好,服務器變量的存在使得我們能夠查詢用戶瀏覽器并獲取數(shù)據(jù)。
報頭中的服務器變量攜帶了從瀏覽器傳遞到服務器的信息。REMOTE_ADDR就是一個服務器變量的例子。這個變量返回了用戶的IP地址:例子輸出:27.234.125.222
下面的PHP代碼將顯示出當前用戶的IP地址:<?php echo $_SERVER['REMOTE_ADDR']; ?>
讓我們看看我們的PHP應用程序的代碼。首先,我們需要定義我們想跟蹤的網(wǎng)站資源并指定文件大小://獲取我們想記錄的文件名稱$fileName='cnet-banner.gif';$fileSize='92292';
你無需把這些值保存到靜態(tài)變量中去。如果你要跟蹤許多條目,那么你可以把它們保存到數(shù)組或者數(shù)據(jù)庫中去。在這種情況下,你可能會希望通過一個外部鏈接來找到每個條目,如下所示:<a href='http://www.cgvv.com.cn/bcjs/weblogger.php?bannerid=123'><imgsrc='cnet-banner.gif' border='0'></a>
其中“123”表示“cnet-banner.gif”所對應的記錄。然后,我們通過服務器變量來查詢用戶瀏覽器。這樣我們就得到在我們的日志文件中添加新條目所需的數(shù)據(jù)://得到網(wǎng)站瀏覽者的CLF信息$host=$_SERVER['REMOTE_ADDR'];$ident=$_SERVER['REMOTE_IDENT'];$auth=$_SERVER['REMOTE_USER'];$timeStamp=date('d/M/Y:H:i:s O');$reqType=$_SERVER['REQUEST_METHOD'];$servProtocol=$_SERVER['SERVER_PROTOCOL'];$statusCode='200';
然后,我們檢查服務器是否返回了空值(null)。根據(jù)CLF規(guī)范,空值應該用破折號來代替。這樣,下一個代碼塊的任務就是尋找空值并用破折號來取代它://給空值添加破折號(根據(jù)規(guī)范)if ($host==''){ $host='-'; }if ($ident==''){ $ident='-'; }if ($auth==''){ $auth='-'; }if ($reqType==''){ $reqType='-'; }if ($servProtocol==''){ $servProtocol='-'; }
一旦我們獲取了必要的信息,這些值將被組織成一種符合CLF規(guī)范的格式://創(chuàng)建CLF格式的字符串$clfString=$host.' '.$ident.' '.$auth.' ['.$timeStamp.'] ''.$reqType.' /'.$fileName.' '.$servProtocol.'' '.$statusCode.' '.$fileSize.'rn';
創(chuàng)建自定義日志文件現(xiàn)在,格式化之后的數(shù)據(jù)可以存放到我們的自定義日志文件中去。首先,我們將創(chuàng)建一種文件命名協(xié)定,并編寫每日產(chǎn)生一個新日志文件的方法(函數(shù))。在本文所舉的例子中,每個文件都以“weblog-”開頭,然后是按月/日/年表示的日期,文件擴展名為.log。.log擴展名一般表示服務器日志文件。(實際上,絕大多數(shù)日志分析器都搜索.log文件。)// 用當前日期來命名日志文件$logPath='./log/';$logFile=$logPath.'weblog-'.date('mdy').'.log';
現(xiàn)在,我們需要判斷當前日志文件是否存在。如果存在,我們就向它添加條目;否則,應用程序就創(chuàng)建新的日志文件。(新日志文件的創(chuàng)建一般發(fā)生在日期更改時,因為這時文件名發(fā)生變化了。)//檢查日志文件是否已經(jīng)存在if (file_exists($logFile)){//如果存在,則打開已存在的日志文件$fileWrite = fopen($logFile,'a');}else {//否則,創(chuàng)建新的日志文件$fileWrite = fopen($logFile,'w'); }
如果你在寫或者追加文件時,收到“權限不足(Permission Denied)”錯誤信息,請更改目標日志文件夾的權限來允許寫操作。絕大多數(shù)Web服務器的默認權限為“可讀可執(zhí)行”。你可以用CHMOD命令或者使用FTP客戶端來改變文件夾的權限。
然后,我們創(chuàng)建文件鎖定機制,這樣當兩個或者更多用戶同時訪問日志文件時,只有其中的一個用戶可以對該文件進行寫操作://創(chuàng)建文件寫操作的鎖定機制flock($fileWrite, LOCK_SH);
最后,我們寫入條目的內(nèi)容://寫CLF條目fwrite($fileWrite,$clfString);//解除文件鎖定狀態(tài)flock($fileWrite, LOCK_UN);//關閉日志文件fclose($fileWrite);
處理日志數(shù)據(jù)
在該系統(tǒng)產(chǎn)品化之后,客戶希望得到對所收集到的訪問者數(shù)據(jù)的詳細統(tǒng)計分析。由于所有的定制日志文件都是按照一個標準的格式組織的,因此任何一個日志分析器都可以處理它們。日志分析器是一個工具,它分析大的日志文件并產(chǎn)生餅圖、直方圖以及其它統(tǒng)計圖形。日志分析器也用來收集數(shù)據(jù),并綜合出提供哪些用戶訪問你的網(wǎng)站、點擊數(shù)等方面的信息。
下面列出了幾個比較流行的日志分析器:
WebTrends是一個非常不錯的日志分析器,它適用于大規(guī)模網(wǎng)站以及企業(yè)級的網(wǎng)絡。 Analog是一個頗受歡迎的免費日志分析器。 Webalizer是一個免費的分析程序。它可以產(chǎn)生HTML報告,這樣大多數(shù)網(wǎng)絡瀏覽器都可以查看它的報告。
遵守標準
我們可以輕松的擴展該應用程序來讓它支持其它類型的日志記錄。這樣你就可以捕獲到更多的數(shù)據(jù),如瀏覽器類型以及referrer(referrer指得是鏈接到當前網(wǎng)頁的前一個網(wǎng)頁)。這里的經(jīng)驗就是:在你編程的時候遵循標準或者慣例終究會簡化工作。
