2010-12-16 25 views
1

以爲我會把這個扔到那裏,看看別人的經歷是什麼樣的。您如何解決不可重現的問題,隨機性和變化不能立即測試?

我遇到系統在工作中停止處理隊列中的作業和'卡紙'可以這麼說的問題。一旦服務重新啓動,軟件將處理隊列,一切恢復正常。

以我迄今爲止的經驗,我不能爲我的生活找出是什麼導致這些停工。那,我不能自己再造停工。隊列在所有不同的時間間隔都會失敗,有時會連續運行一個月,其他時間則會在一天內兩次失敗。此後,我涉及到兩個不同的供應商和部門內的各種同事,每個人都被困住了,並且已經持續了好幾個月。

自從我開始以來,我們已將處理隔離到單個服務器,並啓動了我們發送給供應商的日誌記錄。也不知道問題是什麼。

我們已經更新了一些設置,升級客戶端和服務器部分,但我們不知道我們正在做的事情是否有助於整體解決方案。

所以我有一個問題,似乎是不可重複的,隨機的和不可測的。

有沒有人蔘與過類似的情況? 解決這種情況的方法有哪些?

任何共享輸入或經驗都會很好。

乾杯,

編輯::拍成記錄,更新了所有組件的最新版本,並確保適當的防病毒排除中進行,到目前爲止,還沒有超過卡在月!

+0

有沒有影響程序內存使用的東西?我想你已經完成了負載測試和分析?除此之外,我能想到的唯一的事情就是它堵塞了某些屬性可能不太明顯的工作......在你看到的干擾工作中是否有任何相似之處? – 2010-12-16 16:06:15

回答

2

使用可在生產中打開的日誌記錄框架。您可能最初必須記錄太多日誌,但它應該有助於縮小問題的範圍,並且隨着距離越來越近,您可以縮小日誌範圍,同時增加剩餘日誌語句的詳細程度(這是一個詞)。

0

除了凱利指出的日誌記錄之外,還有可能發生死鎖,因爲事情似乎停止了。如果這是一個Java應用程序,一種選擇是使用jconsole並連接到JVM實例。 jconsole有一個檢測死鎖選項,可以在發生掛機時提供非常有價值的信息。

如果這不是Java應用程序,也可能是.NET應用程序,那麼可以使用此technique

相關問題