scrape

    0熱度

    2回答

    並且預先感謝您抽出寶貴的時間來解決這個難題,並就此主題進行教育。 (請原諒我的術語) 我使用下面的代碼中的iMacros的Firefox作爲元素存在,並以相同的順序來選擇網站,其中能正常工作中的一個元素,只要。 TAG XPATH=".//*[@id='contacts']/ul/li[1]/div/ul/li[1]" EXTRACT=TXT 在這種情況下會導致「紐約,紐約」 來源: <div

    0熱度

    1回答

    我已經寫了一個web-scrape來提取谷歌學者信息。但是,任何方便的工具(如urllib2 pr請求失敗)。它給了我503錯誤代碼。 而我正在尋找另一種提取信息的方法。有可能我可以讓程序在瀏覽中打開url並提取信息。 例如,它是一個鏈接: 'http://scholar.google.com/citations?user=lTCxlGYAAAAJ&hl=en' 以及如何繼續獲得H-指數等?

    0熱度

    1回答

    我目前正在處理房地產數據,並想從StreetEasy中獲取一些數據,這些數據是Register to see what it closed for about 2 months ago以下的價格。 示例URL http://streeteasy.com/sale/1220187 我需要的數據需要登錄,但登錄機制是非常不同的。沒有登錄頁面,登錄是彈出窗口。無論如何,我可以使用Python來獲得身份驗

    0熱度

    1回答

    所以我現在正在我的數據庫中看,有3篇文章,所以x應代表for循環後面的數字3。如果這些代碼被新鮮收集,應該將這些代碼添加到數據庫中。在titles []數組中有100個項目(從news.google中刪除)。當我執行代碼時,似乎它正確地找到了標題[]列表(這是55,68,60重複)的索引#,但它顯示爲:(我甚至不希望索引# 。被顯示在控制檯要麼,我想這篇文章的標題來顯示我不得不收縮一些這方面的代碼

    1熱度

    1回答

    這裏是我試圖用正則表達式來提取 class="result-title hdrlnk">CHAVY IMPALA</a><span class="result-meta"><span class="result-price">$1300</span> class="result-title hdrlnk">1950 Buick Super straight 8 with 3 on the t

    0熱度

    1回答

    我想從NFL網站刮表,但保持geting錯誤,並不知道我做錯了什麼。 我使用的代碼是: import pandas import urllib2 #specify the url NFLpage = "http://www.espn.com/nhl/statistics/player/_/stat/points/sort/points/year/2015/seasontype/2" #

    1熱度

    2回答

    我試圖從here中導出div標籤的prod-details我想知道是否有方法或腳本可以在chrome開發工具能夠導出CSV數據,並且抓取數據?

    -1熱度

    1回答

    所以我只是試圖用PHP刮掉一個HTML頁面。我在Google上查看了如何操作,並且我使用了file_get_contents()方法。我寫的代碼一點點,但我已經收到,我想不通的錯誤: $page = file_get_contents('http://php.net/supported-versions.php'); $doc = new DOMDocument($page);

    0熱度

    1回答

    我試圖從YouTube視頻中刮取視頻標籤,即使卡住了它也應該很簡單。 我無法找到關於我想要找到的許多文檔,所以現在我問你誰有HtmlAgilityPack的經驗。 我試圖刮這個東西。 video:tag" content="Comedy"> 和所有其他video:tag 正如你所看到的標籤區分。 但是,這是我有多遠&我不知道如何抓住這些標籤。 如何抓住第一個視頻標籤並將其顯示在MessageB

    1熱度

    1回答

    我有興趣下載以便稍後分析一堆網頁。有兩件事我想要做: 將頁面和相關資源(圖像,與文章關聯的多個頁面等)下載到WARC文件。 將所有鏈接更改爲指向現在的本地文件。 我想用Python做到這一點。 有沒有這樣做的好庫? Scrapy似乎被設計爲刮取網站,而不是單個頁面,我不知道如何生成WARC文件。如果沒有更多的python native,調用wget是一個可行的解決方案。 Heritrix是完全矯枉