我剛開始處理分類問題。它是一個兩類問題,我的訓練模型(機器學習)將不得不決定/預測允許URL還是阻止它。如何分類網址?什麼是網址功能?如何從URL中選擇和提取功能
我的問題非常具體。
- 如何分類URL?我應該使用正常的文本分析方法嗎?
- 什麼是網址功能?
- 如何從URL中選擇和提取功能?
我剛開始處理分類問題。它是一個兩類問題,我的訓練模型(機器學習)將不得不決定/預測允許URL還是阻止它。如何分類網址?什麼是網址功能?如何從URL中選擇和提取功能
我的問題非常具體。
我假設您無權訪問URL的內容,因此您只能從url字符串本身提取功能。否則,使用URL的內容更有意義。
這裏有一些功能,我會嘗試。請參閱this論文獲取更多意見:
所有的網址組件。例如,該頁面有以下網址:
http://stackoverflow.com/questions/26456904/how-to-classify-urls-what-are-urls-features-how-to-select-and-extract-features
出現在URL中的不同部分應該有變量值進行分類的所有令牌。在這種情況下,標記後的最後一部分爲此頁提供了很好的功能。 (例如,分類,網址,選擇,提取物,設有)
* stackoverflow
* com
* questions
* 26456904
* how to classify urls what are urls features how to select and extract features
綠色,你解釋得很好,我讀了一些論文,他們通過只使用URL功能來分類網頁。從URL中提取功能很簡單,我很迷惑。像www.google.com它沒有足夠的功能。如果我決定在訓練算法時從數據集中的所有URL中提取6個要素,那麼在簡單URL獲得方式時會發生什麼? – Nasir 2014-10-22 23:05:38
您使用的大部分功能都很少。您可能意味着6種功能或6種功能系列,而不是6種功能。在'google.com'示例中,唯一有用的功能是標記「google」,它應該與「搜索引擎」等標籤有很強的關聯。應該從標記的數據集中學習連接。因此,在此示例中,您不必擔心**功能不足**。 – greeness 2014-10-23 00:45:39
謝謝格林尼斯,是不是像我會告訴我的估計器/分類器那些在示例中開始的令牌有更多的權重,然後駐留在冗長示例結束的令牌? – Nasir 2014-10-23 20:26:17
plus,是否有任何API庫具有用於此目的的內置功能。我是機器學習的新手,請糾正我錯在哪裏。我將使用python。 – Nasir 2014-10-23 00:35:34