2010-06-21 34 views
1

我必須從網頁/ Feed中構建標籤雲。一旦獲得標籤的單詞頻率表,就很容易構建tagcloud。但我的疑問是,如何從網頁/ Feed中檢索標籤/關鍵字?如何從網頁/ Feed中獲取標籤/關鍵字?

這是我現在在做什麼:

獲取內容 - >帶HTML - >關鍵詞列表

- >與\ S \ n \ T(空格,換行,製表)其拆分但是這並不好。

有沒有更好的方法?

+2

爲什麼它不起作用? – 2010-06-21 21:04:47

+0

1.使用這種方法,你永遠不會得到多字標籤。 2.非字母(特殊符號)使標籤意義更小(例如:在我的問題本身中,「\ s \ n \ t(空格,換行符,標籤)」這整個將被視爲單個標籤) 3即使在分割標籤之前用空格替換spl字符,它們也會影響標籤的含義。 (例如:16.25將成爲1625,www.google.com - > wwwgooglecom) – 2010-06-22 10:29:09

回答

0

你有什麼是粗略的一階近似。我想如果你回過頭來查看數據並搜索2個單詞短語的頻率,然後搜索3個單詞短語,直到可以被認爲是一個標籤的單詞總數爲止,那麼您將更好地表示關鍵詞頻率。

您可以通過指定可作爲短語(代詞等)的一部分包含的某些單詞來優化此粗略搜索模式。

相關問題