我正在爲網站的內容編制索引,我希望僅基於網址實現一些分類。如何使用機器學習對URL進行分類?
我想告訴從導航頁面APPART內容視圖頁面。 'content view pages'我的意思是網頁,通常可以看到產品或書面文章的細節。 「導航頁面」是指(通常)由內容頁面鏈接列表或其他更具體列表頁面組成的頁面。
雖然有些網站使用網站廣泛密鑰系統來繪製它們的內容,大部分網站都一點一滴和範圍的鍵映射,所以這應該是可能的。
在實踐中,我想要做的是採取由類似一個網站,他們組的URL列表。我相信這可以通過機器學習完成,但我不知道如何。機器學習似乎是一個廣泛的話題,我應該開始閱讀什麼特別的東西? 哪些概念,哪些算法,哪些工具?
重大決定:你想有一些標記的例子來說明這兩種方法是怎樣學習的,或者你想自動發現這些組(這很難)?另外,你想僅基於url還是基於url的頁面內容進行分類?如果你澄清,我將能夠提出一些建議。 –
我想自動發現組。我知道這很難,但它也更有趣/更具挑戰性。我也知道這不會總是可能的。但我想嘗試和實施一些經過驗證的算法,看看它可以做多少。我之所以提到網址只是因爲我想盡可能簡單地開始。後來,更多的變量可以發揮作用來改進算法。 – Pico