2015-04-07 38 views
0

目前我正在使用azure機器學習。我使用兩種類型的數據集訓練我的ML,它們只是網頁內容的地址和地址而不是地址機器學習 - 按內容分類地址和不分配地址的網頁

訓練輸入:

i.e) 
this is a address no 24/5 address 
this is no address no-address 

我使用雙級貝葉斯分類到他們,我應該用任何其他方法進行分類

給定的輸入:

i.e) 
This a address 12/4 

獲得的輸出:

i.e) 
content score probability 
This a address 12/4 no-address 0.54 

預期輸出:

i.e) 
content score probability 
This a address 12/4 address with higher probability 

我的實驗是這樣的:

enter image description here

+0

您的問題是什麼? –

+0

我需要提高分類的概率正確的標籤 – The6thSense

+0

它顯示了錯誤的標籤 – The6thSense

回答

2

您需要使用的功能哈希模塊將文本轉換成Word功能。但是,這可能還不夠,因爲單詞對於您的問題並不是很好的功能。您可能需要做文本進行一些處理,創造更多的實用功能(可能是檢測的郵政編碼的存在,數字的位置,等...)

編輯:使用原始文本列作爲一個功能不會得到你在哪裏。你不希望你的模型按照他們寫的方式來學習地址。相反,您需要了解文本中爲地址與非地址實例提供證據的模式。 使用功能散列時,文本列將被轉換爲多個單詞(或n-gram)列,其中值表示每個文本輸入中這些單詞的計數。這裏的問題是過度擬合。例如,這兩個地址沒有共同之處: 「100 broadway st,GA」和「200 main rd,NY」,但很明顯它們具有相似的結構。創建「有用功能」的一種方法是用標籤替換單詞:「#NUM #TXT,#STATE」並使用功能哈希(雙元)來創建諸如「#NUM #TXT」和「#STATE 」。正如你所看到的,這些二元組在兩個地址中都被看作是證據,並建議它們之間有某種相似性(與其他非地址實例相比)。當然這是對問題的過分簡化,但我希望你明白爲什麼你不能使用原始文本或簡單功能哈希。
您仍然可以使用功能散列,培訓和得分Azure的ML模塊,除了一個「執行R」模塊訓練前做文本處理。

編輯:功能哈希用法示例:http://gallery.azureml.net/Details/cf65bf129fee4190b6f48a53e599a755

+0

對不起,問這種無聊的問題,但我是一個新手,機器學習不能只是通過地址內容餵養它訓練模塊和非地址content.So做你說的話我必須移動從可用AZURE ML模塊和使用Python或R離開我是對還是我錯了,我應該做什麼樣的處理。謝謝 – The6thSense

+1

@VigneshKalai:我編輯了上面的答案和更多細節。 –

+0

所以它會變得像模式匹配 – The6thSense