scrape

0熱度

2回答

並且預先感謝您抽出寶貴的時間來解決這個難題，並就此主題進行教育。（請原諒我的術語）我使用下面的代碼中的iMacros的Firefox作爲元素存在，並以相同的順序來選擇網站，其中能正常工作中的一個元素，只要。 TAG XPATH=".//*[@id='contacts']/ul/li[1]/div/ul/li[1]" EXTRACT=TXT 在這種情況下會導致「紐約，紐約」來源： <div

0熱度

1回答

如何打開一個URL並在Python中提取信息

我已經寫了一個web-scrape來提取谷歌學者信息。但是，任何方便的工具（如urllib2 pr請求失敗）。它給了我503錯誤代碼。而我正在尋找另一種提取信息的方法。有可能我可以讓程序在瀏覽中打開url並提取信息。例如，它是一個鏈接： 'http://scholar.google.com/citations?user=lTCxlGYAAAAJ&hl=en' 以及如何繼續獲得H-指數等？

0熱度

1回答

需要登錄才能修改StreetEasy頁面

我目前正在處理房地產數據，並想從StreetEasy中獲取一些數據，這些數據是Register to see what it closed for about 2 months ago以下的價格。示例URL http://streeteasy.com/sale/1220187 我需要的數據需要登錄，但登錄機制是非常不同的。沒有登錄頁面，登錄是彈出窗口。無論如何，我可以使用Python來獲得身份驗

0熱度

1回答

我回來索引＃和「undefined」從這些if/for循環

所以我現在正在我的數據庫中看，有3篇文章，所以x應代表for循環後面的數字3。如果這些代碼被新鮮收集，應該將這些代碼添加到數據庫中。在titles []數組中有100個項目（從news.google中刪除）。當我執行代碼時，似乎它正確地找到了標題[]列表（這是55,68,60重複）的索引＃，但它顯示爲：（我甚至不希望索引＃。被顯示在控制檯要麼，我想這篇文章的標題來顯示我不得不收縮一些這方面的代碼

1熱度

1回答

C＃正則表達式 - 也就是說，空格，數字和特殊字符以任意順序

這裏是我試圖用正則表達式來提取 class="result-title hdrlnk">CHAVY IMPALA</a><span class="result-meta"><span class="result-price">$1300</span> class="result-title hdrlnk">1950 Buick Super straight 8 with 3 on the t

0熱度

1回答

從網站使用beautifulsoup刮表，最後錯誤

我想從NFL網站刮表，但保持geting錯誤，並不知道我做錯了什麼。我使用的代碼是： import pandas import urllib2 #specify the url NFLpage = "http://www.espn.com/nhl/statistics/player/_/stat/points/sort/points/year/2015/seasontype/2" #

1熱度

2回答

如何從嵌套的div標籤中刮取數據並從開發工具中導出爲CSV

我試圖從here中導出div標籤的prod-details我想知道是否有方法或腳本可以在chrome開發工具能夠導出CSV數據，並且抓取數據？

-1熱度

1回答

PHP刮掉一個html頁面

所以我只是試圖用PHP刮掉一個HTML頁面。我在Google上查看了如何操作，並且我使用了file_get_contents()方法。我寫的代碼一點點，但我已經收到，我想不通的錯誤： $page = file_get_contents('http://php.net/supported-versions.php'); $doc = new DOMDocument($page);

0熱度

1回答

用HtmlAgilityPack刮取確切的字符串

我試圖從YouTube視頻中刮取視頻標籤，即使卡住了它也應該很簡單。我無法找到關於我想要找到的許多文檔，所以現在我問你誰有HtmlAgilityPack的經驗。我試圖刮這個東西。 video:tag" content="Comedy"> 和所有其他video:tag 正如你所看到的標籤區分。但是，這是我有多遠&我不知道如何抓住這些標籤。如何抓住第一個視頻標籤並將其顯示在MessageB

1熱度

1回答

將網頁和相關資源下載到python中的WARC中

我有興趣下載以便稍後分析一堆網頁。有兩件事我想要做：將頁面和相關資源（圖像，與文章關聯的多個頁面等）下載到WARC文件。將所有鏈接更改爲指向現在的本地文件。我想用Python做到這一點。有沒有這樣做的好庫？ Scrapy似乎被設計爲刮取網站，而不是單個頁面，我不知道如何生成WARC文件。如果沒有更多的python native，調用wget是一個可行的解決方案。 Heritrix是完全矯枉