2012-11-01 40 views
3

我正在爲網站的內容編制索引,我希望僅基於網址實現一些分類。如何使用機器學習對URL進行分類?

我想告訴從導航頁面APPART內容視圖頁面。 'content view pages'我的意思是網頁,通常可以看到產品或書面文章的細節。 「導航頁面」是指(通常)由內容頁面鏈接列表或其他更具體列表頁面組成的頁面。

雖然有些網站使用網站廣泛密鑰系統來繪製它們的內容,大部分網站都一點一滴和範圍的鍵映射,所以這應該是可能的。

在實踐中,我想要做的是採取由類似一個網站,他們組的URL列表。我相信這可以通過機器學習完成,但我不知道如何。機器學習似乎是一個廣泛的話題,我應該開始閱讀什麼特別的東西? 哪些概念,哪些算法,哪些工具?

+0

重大決定:你想有一些標記的例子來說明這兩種方法是怎樣學習的,或者你想自動發現這些組(這很難)?另外,你想僅基於url還是基於url的頁面內容進行分類?如果你澄清,我將能夠提出一些建議。 –

+0

我想自動發現組。我知道這很難,但它也更有趣/更具挑戰性。我也知道這不會總是可能的。但我想嘗試和實施一些經過驗證的算法,看看它可以做多少。我之所以提到網址只是因爲我想盡可能簡單地開始。後來,更多的變量可以發揮作用來改進算法。 – Pico

回答

3

如果你想自動發現這些組,我建議你找到一個聚類算法的實現(K-Means可能是最流行的,你不會說你想做什麼語言)。您知道有兩個類別,因此您可以指定先驗類別的數量,從而使問題更容易。

之後,爲您的網頁定義一堆功能,並通過k-means運行它們以查看生成的組是什麼類型的。調整你使用的功能,直到你看到令人滿意的東西。如果您自己有權訪問網頁,我強烈建議您使用在整個頁面上定義的功能,而不僅僅是網址。

+0

這回答我的問題。謝謝。 '聚類'和'K-means'是關鍵詞。我可能會使用Python,但我不確定這是非常相關的。 – Pico

2

您首先需要收集的導航/內容頁面的數據集,並貼上標籤。之後,它非常直截了當。

將您使用什麼語言?我建議你試試Weka這是一個基於java的工具,你可以在這個工具中簡單地按下一個按鈕並從中找回50個奇怪算法的性能指標。之後,你會知道哪個是最準確的,可以部署。

+0

目標是擺脫儘可能多的人力投入。如果我必須手動構建一個數據集,那麼更簡單的解決方案可能會更容易/更便宜。 – Pico

2

我覺得你正試圖用HITS算法對AuthorityHub進行分類。

  • Hub是您的導航頁面;
  • Authority是你的內容視圖頁面。

通過對每個網頁進行鏈接分析,您應該能夠通過在域中的所有網頁上執行HITS來找出頁面的類型。如下圖所示,左圖顯示了網頁之間的鏈接關係。右圖顯示了在運行HITS後,相應於hub/authority的評分。 HITS不需要任何標籤即可啓動。更新規則很簡單:基本上只有一次更新權威評分和另一次更新中心評分。

enter image description hereenter image description here

Here是一個教程討論的PageRank/HITS其中I借上述兩個曲線圖。

Here是HITS結合HITS和信息檢索方法(TF-IDF,向量空間模型等)的擴展版本。這看起來更有希望,但肯定需要更多的工作。我建議你從天真的HITS開始,看看它有多好。最重要的是,嘗試一下BHITS中提到的一些技巧來提高你的表現。

+0

這是一個有用的條目,我會探討這種可能性,但是,它仍然不能準確回答我的問題。檢查我對原始問題的評論。 – Pico