我在過去幾天一直在研究一個項目,並且在這個項目中有一個任務,我實際上不知道該怎麼做,該項目包括分析網頁以查找表徵頁面的標記。算法:分析網頁的標籤
嘿,好友,你是什麼意思的標籤?通過說標籤我的意思是關鍵字,總結什麼網頁。例如在這裏你寫你自己的標籤,這樣人們可以發現你的問題更好。我正在談論的是構建一個算法來分析網頁,以便通過頁面中的文本找到它的標籤。
我開始從頁面獲取文本 - >完成
一般即時尋找一種方式來找到關鍵字得出結論認爲哪些網頁約
不過,我真的不知道接下來做什麼。有沒有人有建議?
我在過去幾天一直在研究一個項目,並且在這個項目中有一個任務,我實際上不知道該怎麼做,該項目包括分析網頁以查找表徵頁面的標記。算法:分析網頁的標籤
嘿,好友,你是什麼意思的標籤?通過說標籤我的意思是關鍵字,總結什麼網頁。例如在這裏你寫你自己的標籤,這樣人們可以發現你的問題更好。我正在談論的是構建一個算法來分析網頁,以便通過頁面中的文本找到它的標籤。
我開始從頁面獲取文本 - >完成
一般即時尋找一種方式來找到關鍵字得出結論認爲哪些網頁約
不過,我真的不知道接下來做什麼。有沒有人有建議?
對於一個真正的基本方法,你可以使用TF-IDF算法從維基百科找到最重要的詞在你的頁面
快速遠眺:
的TF-IDF權重(詞頻 - 反向文檔頻率)是經常用於信息檢索和文本挖掘的權重。這個權重是一個統計度量,用於評估一個單詞 對集合或語料庫中的文檔有多重要。重要性與文檔 中單詞出現的次數成比例地增加 ,但被語料庫中單詞的頻率所抵消。搜索引擎經常使用tf-idf加權方案的變體 作爲 中心工具,用於在給定 用戶查詢的情況下對文檔的相關性進行評分和排名。 TF-IDF可以被成功地用於停止的話在不同的學科領域篩選 包括文字總結和 分類
一旦你發現在你的頁面的最重要的一個字,你可以用它們作爲標記。
如果你想改善你的標籤,並使它們更相關。
有很多的方式來進行,但是你可以按照以下步驟:
希望這是可以理解的,它可以幫助
通常你尋找某些HTML包圍某些詞。例如,標題通常位於H標記中,例如<h1>
。
如果您解析所有H1標籤的頁面,則認爲該標籤之後的內容是相關的。一個例子就是這個頁面。它有一個圍繞問題標題的H1標籤。這給了谷歌一個提示,該頁面是關於「算法」,「分析」,「網頁」等。
難的部分是確定上下文。
在我們這裏的例子中,術語「網頁」是非常通用的,可以與任何東西相關。然而「網頁」更具體一些。您可以在分析大量文檔以找到共性之後,使用內部字典進行此操作,該字典是根據期限頻率隨時間推移而建立的。頻率應該爲確定給定頁面的頂部X「標籤」提供加權值。
這是更多的Information Retrieval和數據挖掘問題。檢查一些Rao's lectures可能會有所幫助。
當您抓取網頁時,您基本上正在嘗試構建索引。您可以通過構建一個全球術語 - 頻率詞典來完成此操作,其中語言中的每個詞(通常爲stemmed,用於說明多元化和其他修改)將作爲關鍵字存儲,並以文檔中出現的值作爲值存儲。
從那裏,你可以使用algorthms,如PageRank和Authorities and hubs做數據分析。
您可以實現一些啓發式的:
你描述的是,你有一些文字(無論是從網頁或任何地方)並希望通過挑選一些詞語並將其聲明爲標籤來表徵它? – Yahia
您是否針對特定類型的網頁?例如那些實現了stackoverflow API?或者你的目標是通用網頁。如果是後者,那麼我認爲你會遇到困難。不同的網站會以自己的方式實施「標籤」。如果它是前者,那麼它應該是相當直接的... –
一般我想找一種方法來找到關鍵字,結束什麼網頁關於 –