算法：分析網頁的標籤

我在過去幾天一直在研究一個項目，並且在這個項目中有一個任務，我實際上不知道該怎麼做，該項目包括分析網頁以查找表徵頁面的標記。算法：分析網頁的標籤

嘿，好友，你是什麼意思的標籤？通過說標籤我的意思是關鍵字，總結什麼網頁。例如在這裏你寫你自己的標籤，這樣人們可以發現你的問題更好。我正在談論的是構建一個算法來分析網頁，以便通過頁面中的文本找到它的標籤。

我開始從頁面獲取文本 - >完成

一般即時尋找一種方式來找到關鍵字得出結論認爲哪些網頁約

不過，我真的不知道接下來做什麼。有沒有人有建議？

來源

2011-10-20 some Folk

你描述的是，你有一些文字（無論是從網頁或任何地方）並希望通過挑選一些詞語並將其聲明爲標籤來表徵它？ – Yahia

您是否針對特定類型的網頁？例如那些實現了stackoverflow API？或者你的目標是通用網頁。如果是後者，那麼我認爲你會遇到困難。不同的網站會以自己的方式實施「標籤」。如果它是前者，那麼它應該是相當直接的... –

一般我想找一種方法來找到關鍵字，結束什麼網頁關於 –

對於一個真正的基本方法，你可以使用TF-IDF算法從維基百科找到最重要的詞在你的頁面

快速遠眺：

的TF-IDF權重（詞頻 - 反向文檔頻率）是經常用於信息檢索和文本挖掘的權重。這個權重是一個統計度量，用於評估一個單詞對集合或語料庫中的文檔有多重要。重要性與文檔中單詞出現的次數成比例地增加，但被語料庫中單詞的頻率所抵消。搜索引擎經常使用tf-idf加權方案的變體作爲中心工具，用於在給定用戶查詢的情況下對文檔的相關性進行評分和排名。 TF-IDF可以被成功地用於停止的話在不同的學科領域篩選包括文字總結和分類

一旦你發現在你的頁面的最重要的一個字，你可以用它們作爲標記。

如果你想改善你的標籤，並使它們更相關。

有很多的方式來進行，但是你可以按照以下步驟：

提取一堆文字，您可以從中知道主標籤。
對於所有這些文本運行一個TF-IDF算法，並創建一個與最高分的。
嘗試找到一個主要的方向將所有這些載體。（例如運行ACP 或任何機器學習工具）
並使用此標記來表示主要方向上的單詞集。（非加太國家的最大的矢量）

希望這是可以理解的，它可以幫助

來源

2011-10-20 16:28:56

通常你尋找某些HTML包圍某些詞。例如，標題通常位於H標記中，例如<h1>。

如果您解析所有H1標籤的頁面，則認爲該標籤之後的內容是相關的。一個例子就是這個頁面。它有一個圍繞問題標題的H1標籤。這給了谷歌一個提示，該頁面是關於「算法」，「分析」，「網頁」等。

難的部分是確定上下文。

在我們這裏的例子中，術語「網頁」是非常通用的，可以與任何東西相關。然而「網頁」更具體一些。您可以在分析大量文檔以找到共性之後，使用內部字典進行此操作，該字典是根據期限頻率隨時間推移而建立的。頻率應該爲確定給定頁面的頂部X「標籤」提供加權值。

來源

2011-10-20 16:31:01 NotMe

這是更多的Information Retrieval和數據挖掘問題。檢查一些Rao's lectures可能會有所幫助。

當您抓取網頁時，您基本上正在嘗試構建索引。您可以通過構建一個全球術語 - 頻率詞典來完成此操作，其中語言中的每個詞（通常爲stemmed，用於說明多元化和其他修改）將作爲關鍵字存儲，並以文檔中出現的值作爲值存儲。

從那裏，你可以使用algorthms，如PageRank和Authorities and hubs做數據分析。

來源

2011-10-20 16:31:16

您可以實現一些啓發式的：

全部大寫
這話一點不頻繁，即丟棄出現在所有或大部分文檔的單詞，並有利於出現相對的那些縮寫詞和詞經常只在這一個。總是出現在相同的順序在本文檔中，並可能在其他人也
等詞的
序列

來源

2011-10-20 16:34:47 deStrangis

算法：分析網頁的標籤

回答

相關問題