0
我正在完成一個研究項目,以編目用於描述科學和學術期刊的所有HTML元標記,例如,都柏林核心,開放圖形,棱鏡,引文,biblio等。如何使用edu.uci.ics.crawler4j.crawler.WebCrawler發現所有HTML元標記
我使用edu.uci.ics.crawler4j.crawler.WebCrawler
並且它有少量種子URL的工作。
我的問題是我需要一個更大的種子URL列表。
我有什麼選擇?
我必須手動搜索網絡來尋找期刊網站,還是可以使用類似於crawler4j
的內容來發現種子網站?