我正在研究一個我們想要分析網頁內容的學校項目。然而,我們並不想處理導航條和評論等內容。如果我們在查看特定的網站,我們可以創建一個解析器來過濾那些專門針對該網站的無關內容,但我們希望能夠在我們以前可能沒有遇到的任意網站上工作。有沒有任何工具來隔離網頁的內容?
我覺得希望有點多,所以如果沒有這樣的東西存在,我不會感到驚訝,但是有誰知道可以在任意網站上做這種內容隔離的工具嗎?我與同一網站上的其他人有過一些不同的運氣,但它不完美,留下評論等。
我正在使用Java,但會歡迎任何可用於創意的語言的任何開源代碼。
這看起來非常酷!我必須仔細研究它。 – Matt 2010-11-22 11:32:54