我試圖創建一個算法,該算法根據它在頁面上找到的關鍵字設置與網頁的某些相關性。如何構建基於關鍵字的HTML頁面分類算法?
我此刻這樣:
我設置一些單詞和他們的值:「電影」(10),「電影」(6),「演員」( 5)和「好萊塢」(4)並搜索頁面的某些部分,給出每個部分的權重並乘以單詞的權重。
例:「電影」 字字在URL(1.5)* 10和標題(2.5)* 10 = 40
這是垃圾被發現!這是我的第一次嘗試,並且它返回了一些相關的結果,但我不認爲由像244,66,30,15這樣的值確定的相關性是有用的。
我想要做的東西,是一個範圍內,從0到1或1到100
我可以用什麼詞加權類型?
除此之外,還有一些現成的算法可以根據URL,關鍵字,標題等內容設置HTML頁面的相關性,但主要內容除外?
編輯1:所有這一切都可以重建,權重是隨機的,我想用一些簡潔的權重,而不是隨機發貨數字來表示像10,5和3
喜歡的東西的重量: low importance = 1
,medium importance = 2
,high importante = 4
,deterministic importance = 8
。
Title > Link Part of URL > Domain > Keywords
movie > cinema> actor > hollywood
編輯2:此刻,我想分析不包括頁面的body content
話網頁的相關性。我將在分析中包括域名,URL的鏈接部分,標題,關鍵字(以及我判斷有用的另一個元信息)。
原因是HTML內容很髒。我可以在菜單和廣告中找到很多單詞,如「電影」,但該頁面的主要內容不包含與主題相關的任何內容。
另一個原因是某些頁面的元信息表明頁面包含關於電影的信息,但主要內容沒有。例如:一個頁面,其中包含講述歷史,人物等的電影情節,但不要在文中提到任何可以表明這是關於電影的東西,只有頁面元信息。
後來,在HTML頁面上運行相關性分析後,我會分別對內容進行相關性分析(過濾)。
如果你能找出最大可能的相關性值,你可以拿分數,並使用最大值找到一個百分比,給你一個1-100的比例。 – Jrod