0
我想知道是否有任何已知的方法將網站按照HTML級別存在的結構模式分類爲博客,新聞,論壇(或其他類型的CMS類型)而不是純粹的內容。我不認爲只有基於文本的分析才能區分這種類型的分類嗎?直觀地說,特別是對於博客/新聞和論壇之間的區別,關於結構模式的頻率和多樣性(模式可以是例如代表標記路徑的XPath表達式)有明顯的區別。 我如何選擇這些結構特徵,以便達到分類目標?有沒有成功的開源方法?網站分類到博客,新聞或論壇
我想知道是否有任何已知的方法將網站按照HTML級別存在的結構模式分類爲博客,新聞,論壇(或其他類型的CMS類型)而不是純粹的內容。我不認爲只有基於文本的分析才能區分這種類型的分類嗎?直觀地說,特別是對於博客/新聞和論壇之間的區別,關於結構模式的頻率和多樣性(模式可以是例如代表標記路徑的XPath表達式)有明顯的區別。 我如何選擇這些結構特徵,以便達到分類目標?有沒有成功的開源方法?網站分類到博客,新聞或論壇
你想看看HTML元素只(不包括其文本內容)看一下嗎?那麼'
我想在分類任務中使用文本特徵,但也要結構化。統計例如重複結構模式的數量(如元素的HTML編碼,可能抽象非常具體的屬性 - 沒有文本)。例如在論壇上,這個數字會高於新聞頁面(除非頁面的評論數量很高......)。 –