測量數(shù)據(jù)采集系統(tǒng)專注于數(shù)據(jù)采集的好處,是有能力發(fā)現(xiàn)那些相關(guān)點(Integrationpoints),對這些點的異常值進行報警。Flickr使用Ganglial作為測量數(shù)據(jù)采集系統(tǒng),Nagios作為監(jiān)控及報警系統(tǒng)。在某些情況下,將兩者緊密結(jié)合起來,以建立復(fù)雜的報警條件。使Nagios.感知 Ganglia采集的數(shù)據(jù),就可以具有更為高級的監(jiān)控手段,這樣,不僅單點達到閾值(threshold)時會產(chǎn)生異常,在滿足多值亞閾值模式(multiple-value subthresholdpattem)的情況下,也會產(chǎn)生異常。
例如,假設(shè)一個運行 Apache的Web服務(wù)器集群,這些Web服務(wù)器訪問運行MYSQL或Poster的后端數(shù)據(jù)庫,獲取信息生成頁面。一個經(jīng)常發(fā)生的情況是數(shù)據(jù)庫查詢運行時間太長,且原因不明,這樣,由于連接不能盡快關(guān)閉,數(shù)據(jù)庫總的活動連接數(shù)就會增加。結(jié)果是,在這些連接上等待的 Apache進程也會增加。由于Web服務(wù)器和數(shù)據(jù)庫的進程數(shù)都有最大值的限制,所以要分別設(shè)置Web服務(wù)器和數(shù)據(jù)庫的警告(warning)和緊急(critical)閾值,將閾值分別設(shè)置為最大值的某個合適的百分比。
對Web服務(wù)器和數(shù)據(jù)庫集群中的每個節(jié)點的每個值(Apache的忙碌進程和數(shù)據(jù)庫的打開連接)有異常都要報警嗎?假如這種異常只發(fā)生在一臺數(shù)據(jù)庫(或一個數(shù)據(jù)庫集群),或一部分Web服務(wù)器上,會怎么樣呢? Flickr的做法是將Ganglia采集的各種數(shù)據(jù)集成到Nagios,我們就能夠做靈活的報警設(shè)置,即忙碌的Web服務(wù)器(指忙碌的 Apache進程數(shù)達到緊急閾值的Web服務(wù)器)的數(shù)量達到一定百分比時,才報警,也僅在忙碌的數(shù)據(jù)庫服務(wù)器(指忙碌的連接數(shù)達到緊急國值的數(shù)據(jù)庫服務(wù)器)的數(shù)量達到一定百分比時,才報警。
能夠處理這些甚至更復(fù)雜的系統(tǒng)與數(shù)據(jù)的耦合,意味著降低了報警的噪聲,只在發(fā)生眾所周知而又復(fù)雜的情況時,呼機才會在半夜三更響起來。
另一個例子是對值的飆升進行報警,報警系統(tǒng)不像采集系統(tǒng)那樣記錄了歷史數(shù)據(jù)的細節(jié)。例如,如果應(yīng)用程序提供了照片或視頻上載的功能,使用模式也相對正常(如每日的波峰和波谷),而且對高低線上的變化能夠報警,在美國東海岸進入夢鄉(xiāng)時,你可能會料想到照片上載量會下降,日峰和日谷之間的變化可能會達到40%。但你會想到一小時之內(nèi)上載量會下降409%嗎?不是下降到0,而是短時間之內(nèi)的劇烈下降!這種情況就值得報警。
這種將網(wǎng)站建設(shè)監(jiān)控系統(tǒng)和采集系統(tǒng)集成起來的做法很常見,這方面有大量的開放源代碼項目和文檔 :
集成Nagios (http://www.monitoringexchangeorg/inventory/check-plugins Software/Misc/check ganglia)
Nagios和 Cacti(http://trac2.assemblacom/npc/)
Nagios和munin (ht://munin-monitoring.org/wiki/Howtocontactnagios
開放源代碼GroundWork(集成Nagios、Ganglia、Cacti,http//www.groundwork-pensource.com/community/open-source/).
本文地址:http://93xgc8e.cn//article/3312.html