3

我在過去幾天一直在研究一個項目,並且在這個項目中有一個任務,我實際上不知道該怎麼做,該項目包括分析網頁以查找表徵頁面的標記。算法:分析網頁的標籤

嘿,好友,你是什麼意思的標籤?通過說標籤我的意思是關鍵字,總結什麼網頁。例如在這裏你寫你自己的標籤,這樣人們可以發現你的問題更好。我正在談論的是構建一個算法來分析網頁,以便通過頁面中的文本找到它的標籤。

我開始從頁面獲取文本 - >完成

一般即時尋找一種方式來找到關鍵字得出結論認爲哪些網頁約

不過,我真的不知道接下來做什麼。有沒有人有建議?

+0

你描述的是,你有一些文字(無論是從網頁或任何地方)並希望通過挑選一些詞語並將其聲明爲標籤來表徵它? – Yahia

+0

您是否針對特定類型的網頁?例如那些實現了stackoverflow API?或者你的目標是通用網頁。如果是後者,那麼我認爲你會遇到困難。不同的網站會以自己的方式實施「標籤」。如果它是前者,那麼它應該是相當直接的... –

+0

一般我想找一種方法來找到關鍵字,結束什麼網頁關於 –

回答

4

對於一個真正的基本方法,你可以使用TF-IDF算法從維基百科找到最重要的詞在你的頁面

快速遠眺:

的TF-IDF權重(詞頻 - 反向文檔頻率)是經常用於信息檢索和文本挖掘的權重。這個權重是一個統計度量,用於評估一個單詞 對集合或語料庫中的文檔有多重要。重要性與文檔 中單詞出現的次數成比例地增加 ,但被語料庫中單詞的頻率所抵消。搜索引擎經常使用tf-idf加權方案的變體 作爲 中心工具,用於在給定 用戶查詢的情況下對文檔的相關性進行評分和排名。 TF-IDF可以被成功地用於停止的話在不同的學科領域篩選 包括文字總結和 分類

一旦你發現在你的頁面的最重要的一個字,你可以用它們作爲標記。


如果你想改善你的標籤,並使它們更相關。

有很多的方式來進行,但是你可以按照以下步驟:

  • 提取一堆文字,您可以從中知道主標籤。
  • 對於所有這些文本運行一個TF-IDF算法,並創建一個與最高分的 。
  • 嘗試找到一個主要的方向將所有這些載體。 (例如運行ACP 或任何機器學習工具)
  • 並使用此標記來表示主要方向上的單詞集。(非加太國家的最大的矢量)

希望這是可以理解的,它可以幫助

1

通常你尋找某些HTML包圍某些詞。例如,標題通常位於H標記中,例如<h1>

如果您解析所有H1標籤的頁面,則認爲該標籤之後的內容是相關的。一個例子就是這個頁面。它有一個圍繞問題標題的H1標籤。這給了谷歌一個提示,該頁面是關於「算法」,「分析」,「網頁」等。

難的部分是確定上下文。

在我們這裏的例子中,術語「網頁」是非常通用的,可以與任何東西相關。然而「網頁」更具體一些。您可以在分析大量文檔以找到共性之後,使用內部字典進行此操作,該字典是根據期限頻率隨時間推移而建立的。頻率應該爲確定給定頁面的頂部X「標籤」提供加權值。

1

這是更多的Information Retrieval和數據挖掘問題。檢查一些Rao's lectures可能會有所幫助。

當您抓取網頁時,您基本上正在嘗試構建索引。您可以通過構建一個全球術語 - 頻率詞典來完成此操作,其中語言中的每個詞(通常爲stemmed,用於說明多元化和其他修改)將作爲關鍵字存儲,並以文檔中出現的值作爲值存儲。

從那裏,你可以使用algorthms,如PageRankAuthorities and hubs做數據分析。

1

您可以實現一些啓發式的:

  • 全部大寫
  • 這話一點不頻繁,即丟棄出現在所有或大部分文檔的單詞,並有利於出現相對的那些縮寫詞和詞經常只在這一個。總是出現在相同的順序在本文檔中,並可能在其他人也
  • 等詞的
  • 序列