2016-08-17 207 views
-2

下午好,親愛的社區,使用XPath提取信息

我終於編譯了一個工作的XPaths列表,用於從我需要的URL中提取所有信息。

我想問你的建議,對於編碼的新手什麼是最好的方式來使用只有XPaths(每個鏈接約100 xpaths)的50k鏈接刮?

Import.io是我目前最好的工具,甚至是Excel的SEO工具,但他們都有自己的侷限性。導入io是昂貴的,excel的SEO工具不適合提取超過1000個鏈接。

我很願意學習系統建議,但請爲我的項目建議一個好方法!

已解決!搜索引擎優化工具爬行實際上是超級有用的,我相信我找到了我需要的東西。我想我會阻止Python或Java,直到我遇到另一個棘手的障礙。 謝謝大家!

+0

可能的重複[如何在Python中使用Xpath?](http://stackoverflow.com/questions/8692/how-to-use-xpath-in-python) – n1c9

回答

1

這很大程度上取決於您「抓取信息」的含義。你想從網站挖掘什麼?所有主要語言(當然包括您提到的Java和Python)都可以很好地連接到網站,閱讀內容,使用DOM解析HTML並使用XPath提取某些片段。例如,Java有JTidy,它允許您將網站中的「髒」HTML解析到DOM中並在某種程度上進行處理。但是,所需的工具將取決於項目的確切數據處理需求。

+0

感謝您的輸入,我已經解決了它與現在的Excel的搜索引擎優化工具,我只是要使用他們的抓取工具,完成我需要的工作。 – Tomas

1

我鼓勵你使用Python(我使用2.7.x)w/Selenium。我經常使用這個組合對網站進行自動化抓取和測試(無論是頭腦還是無頭的方式),Selenium解鎖了與每個頁面沒有明確網絡調用的腳本網站進行交互的機會。

下面是來自硒文檔的好,快速教程:2. Getting Started

有很多偉大的根源在那裏,而且將永遠張貼他們所有;但是,您會發現Python社區非常有用,您可能會看到Python是這種類型的Web交互的一種偉大語言。

祝你好運!

+0

謝謝你的輸入,python和java都很好..真的很難決定要學什麼。現在我發現了一個使用SEO工具爬行器的解決方案。 – Tomas