0
給定URL,第一個URL所在的網頁的URL,網頁的DOM,以及網頁上其餘網址的列表,我如何確定可靠確定該網址是位於網頁的頁眉/頁腳還是兩者都不是?確定給定URL,頁面DOM,父URL和其他頁面URL的網頁的頁眉/頁腳中是否存在URL
我正在使用C#/ .NET。
我知道,沒有解決方案是完美的,因爲網頁沒有語義表達,也是因爲一些網站/網頁專門混淆自己的網頁,但我想建立某種邏輯,將用於工作說網頁的75%。
此外,還有其他信息有助於確定該網址在網頁中的位置嗎?
是的,這正是問題所要求的......啓發式(問題的標籤之一)將URL標記爲在頁眉或頁腳中。我知道我需要定義這些非常廣泛的想法。我從所有簡單的東西(例如頁面上的第一個x鏈接之一)到非常複雜的東西(在DOM中回溯尋找容器,看起來像頁眉和頁腳)。 我想強調簡單的啓發式方法,因爲我在尋找75%的網站。這75%是我認爲的,行爲良好的網頁。我不會在其他25%的頁面上花費我90%的時間。謝謝。 – Chad 2010-07-21 04:55:09
此外,我希望「標題」和「頁腳」是您通常認爲網頁上的頁眉和頁腳的內容。當你看一個頁面時,它往往是顯而易見的,但當看一個頁面的HTML時顯然不會立即顯現出來。 這是問題的挑戰的一部分,我想嘗試確定啓發式方法,可以將URL標記爲位於頁眉/頁腳中。 **我不想限制頁眉/頁腳的想法,而是我想盡可能地適應每一頁。 – Chad 2010-07-21 19:06:01