2
我正在構建一個小型網絡爬蟲,我想知道是否有人對實際實現(只是爬行,沒有搜索,沒有排名,沒有分類,只是爬行,吻:)有一些有趣的信息。有關網絡爬行技術的信息
爲了記錄,我已經有O'Reilly「Spiderring hacks」和No Starch Press「Webbots,spiders和screen scrapers」。這些書很好,但是它們往往使事情變得簡單,並沒有詳細說明縮放,存儲數據,並行內容和其他更高級的主題。當然,我可以查看一個現有的開源爬蟲的代碼,但這將發生在另一邊(C++爬蟲似乎很複雜......)。我正在尋找一些有趣的/自信的信息。
任何幫助,歡迎提前致謝。