webharvest

    0熱度

    1回答

    我想通過以下x查詢代碼查詢webpage。請幫幫我。 它給了我以下錯誤: XPST0003:#...中的XQuery語法錯誤... // json //句// // trans);讓#: 預計「返回」,找到「;」。 <?xml version="1.0" encoding="UTF-8"?> <config charset="UTF-8"> <var-def name="scrappedCon

    1熱度

    1回答

    我希望有人能指出我的(可能是愚蠢的)這個腳本的問題。我試圖抓取一個網站來獲取網站上的帖子,並將其加載到XML文檔中。我試圖結合幾個示例腳本 - 爬蟲和nytimes示例。 該腳本運行時沒有錯誤,但只有<edublogs date="02.10.2015"></edublogs>標籤被導出。 在此先感謝您的幫助。 <?xml version="1.0" encoding="UTF-8"?> <c

    0熱度

    2回答

    有沒有什麼方法可以從Web Harvest的子鏈接收集數據? 下面是一個XML段我用: <loop item="item" index="i"> <list><var name="products"/></list> <body> <xquery> <xq-param name="item"><var name="item"/></xq

    1熱度

    1回答

    我正在使用WebHarvest工具從幾個網站中剔除網絡數據。我已經通過了這些例子,但無法找到在網站中進行身份驗證的方法,然後從中剔除數據。任何人都可以引用示例配置來實現通過身份驗證的Web數據抓取?如何發送登錄參數然後接收主頁內容?感謝您的幫助。

    0熱度

    1回答

    我如何使用網頁收集從PDF中提取數據?我在頁面中獲取所有相關的PDF url,但我無法從這些Pdf中提取數據。我正在使用Web Harvest version 2.0來提取Pdfs url。請幫忙。 我如何將pdfcommand收集到網頁中以獲取文本?有沒有其他的方式可以不用運行任何批處理文件?

    1熱度

    1回答

    我想從網站「http://www.tecomdirectory.com/」使用webharvest取消所有html頁面。但是腳本無法抓住所有的html頁面,只能抓住很少的html頁面。我使用下面的腳本: <!-- set initial page --> <var-def name="home">http://www.tecomdirectory.com</var-def> <!-- def

    2熱度

    3回答

    我正在使用curl進行網頁抓取,以查看LinkedIn個人資料頁面。如果我們嘗試從這個公開的(http://in.linkedin.com/in/ratneshdwivedi)網址提取數據,則該網址正在運行。當我登錄LinkedIn並嘗試從此URL收集數據(http://www.linkedin.com/profile/view?id=77597832&locale=en_US&trk=tyah2

    0熱度

    1回答

    我有一個問題(可能是假的)。假設我的代碼的HTML頁面內下面的片段與一堆其他的東西(其它腳本標記和HTML標記): <script type="text/javascript"> var count = 0; var active = false; var mapData = **{"points": [{"type":"origin","name":"6003","

    0熱度

    1回答

    我正在使用Webharvest從網站下載文件並採用其原始名稱。 ,我有工作的Java代碼: import org.apache.commons.httpclient.Header; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.HttpStatu

    -1熱度

    1回答

    我想要取消此頁https://plus.google.com/115016587855962294424/about。 一切工作正常,但是當我嘗試點擊顯示更多加載更多評論什麼也沒有發生,這裏是我的代碼 final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_24); page = webClient.getPage("ht