機器學習 - 按內容分類地址和不分配地址的網頁

目前我正在使用azure機器學習。我使用兩種類型的數據集訓練我的ML，它們只是網頁內容的地址和地址而不是地址機器學習 - 按內容分類地址和不分配地址的網頁

訓練輸入：

i.e) 
this is a address no 24/5 address 
this is no address no-address

我使用雙級貝葉斯分類到他們，我應該用任何其他方法進行分類

給定的輸入：

i.e) 
This a address 12/4

獲得的輸出：

i.e) 
content score probability 
This a address 12/4 no-address 0.54

預期輸出：

i.e) 
content score probability 
This a address 12/4 address with higher probability

我的實驗是這樣的：

enter image description here

來源

2015-04-07 The6thSense

您的問題是什麼？ –

我需要提高分類的概率正確的標籤 – The6thSense

它顯示了錯誤的標籤 – The6thSense

您需要使用的功能哈希模塊將文本轉換成Word功能。但是，這可能還不夠，因爲單詞對於您的問題並不是很好的功能。您可能需要做文本進行一些處理，創造更多的實用功能（可能是檢測的郵政編碼的存在，數字的位置，等...）

編輯：使用原始文本列作爲一個功能不會得到你在哪裏。你不希望你的模型按照他們寫的方式來學習地址。相反，您需要了解文本中爲地址與非地址實例提供證據的模式。使用功能散列時，文本列將被轉換爲多個單詞（或n-gram）列，其中值表示每個文本輸入中這些單詞的計數。這裏的問題是過度擬合。例如，這兩個地址沒有共同之處：「100 broadway st，GA」和「200 main rd，NY」，但很明顯它們具有相似的結構。創建「有用功能」的一種方法是用標籤替換單詞：「#NUM #TXT，#STATE」並使用功能哈希（雙元）來創建諸如「#NUM #TXT」和「#STATE 」。正如你所看到的，這些二元組在兩個地址中都被看作是證據，並建議它們之間有某種相似性（與其他非地址實例相比）。當然這是對問題的過分簡化，但我希望你明白爲什麼你不能使用原始文本或簡單功能哈希。
您仍然可以使用功能散列，培訓和得分Azure的ML模塊，除了一個「執行R」模塊訓練前做文本處理。

編輯：功能哈希用法示例：http://gallery.azureml.net/Details/cf65bf129fee4190b6f48a53e599a755

來源

2015-04-07 15:56:06

對不起，問這種無聊的問題，但我是一個新手，機器學習不能只是通過地址內容餵養它訓練模塊和非地址content.So做你說的話我必須移動從可用AZURE ML模塊和使用Python或R離開我是對還是我錯了，我應該做什麼樣的處理。謝謝 – The6thSense

@VigneshKalai：我編輯了上面的答案和更多細節。 –

所以它會變得像模式匹配 – The6thSense

機器學習 - 按內容分類地址和不分配地址的網頁

回答

相關問題