0

我想知道是否有任何已知的方法將網站按照HTML級別存在的結構模式分類爲博客,新聞,論壇(或其他類型的CMS類型)而不是純粹的內容。我不認爲只有基於文本的分析才能區分這種類型的分類嗎?直觀地說,特別是對於博客/新聞和論壇之間的區別,關於結構模式的頻率和多樣性(模式可以是例如代表標記路徑的XPath表達式)有明顯的區別。 我如何選擇這些結構特徵,以便達到分類目標?有沒有成功的開源方法?網站分類到博客,新聞或論壇

+0

你想看看HTML元素只(不包括其文本內容)看一下嗎?那麼'

'而不是'
Author: John
'? – unor

+0

我想在分類任務中使用文本特徵,但也要結構化。統計例如重複結構模式的數量(如元素的HTML編碼,可能抽象非常具體的屬性 - 沒有文本)。例如在論壇上,這個數字會高於新聞頁面(除非頁面的評論數量很高......)。 –

回答

0

您可以通過添加某些屬性的HTML標記

使用谷歌提出的結構化內容的方法就拿這裏http://schema.org/docs/gs.html

+0

對不起,我不確定我明白這將如何幫助。 –