2017-10-18 136 views
-3

我有非結構化數據(應用程序屏幕截圖)和半結構化數據(屏幕轉儲文件),我選擇將其存儲在hbase中。我的目標是找到應用程序上的缺陷或問題(意味着完整的數據)。現在,我想對這些應用數據挖掘,這是一種文本挖掘?以及我如何在這些數據上應用一些數據挖掘技術?非結構化數據如何實現數據挖掘?

+0

屏幕截圖將被圖像和屏幕轉儲爲文本數據。那是對的嗎? –

+0

是的,屏幕轉儲是xml數據,它是屏幕hieranchy – KaKa

回答

0
  • 首先,您可以使用基於規則的方法定義一組檢測缺陷場景的規則。
  • 然後你可以準備訓練數據集,其中有許多缺陷,非缺陷場景的實例。在這一步中,對於您收集的每個屏幕截圖或屏幕轉儲文件;您會手動將其標記爲缺陷或無缺陷。
  • 然後你可以使用這個訓練數據來訓練分類器。分類器會嘗試推廣訓練樣本來預測過去未見過的樣本的輸出標籤。
  • 因爲您的輸入是非標準的,您可能需要一些預處理將您的輸入轉換爲標準格式。例如,要處理屏幕截圖,您可能需要一些圖像處理,OCR和計算機視覺庫。
+0

感謝Yogi Devendra – KaKa