scrape

3熱度

2回答

我需要你的幫助。我試圖使用Python 2.7中的Selenium從tripadvisor中獲取一些數據。但是，我陷入了一個困境。瀏覽到正確的頁面後，我試圖過濾某些價格的酒店。要做到這一點，你可以做一個鼠標或點擊'價格'，然後選擇合適的價格，如（€3 - €13）。點擊價格然後點擊價值。我收到了元素不可見或無法找到的錯誤，但它清晰可見。代碼 from urllib import urlope

0熱度

2回答

awesomium web刮某些部分

我剛纔問過這個問題，但我想重新說明這個問題。我正在努力爲我的項目製作一個刮板。我想讓它顯示鏈接的某個部分。鏈接唯一改變的部分是數字。這個數字是我想要刮的。鏈接如下所示： <a href="/link/player.jsp?user=966354" target="_parent" "=""> 如上所述，我試圖僅報廢鏈接的966354部分。我嘗試了幾種方法來做到這一點，但無法弄清楚。當我添加 <

0熱度

2回答

如何使用beautifulsoup在亞馬遜網頁上颳去產品詳細信息

對於網頁：http://www.amazon.com/Harry-Potter-Prisoner-Azkaban-Rowling/dp/0439136369/ref=pd_sim_b_2?ie=UTF8&refRID=1MFBRAECGPMVZC5MJCWG 如何在python中刮取產品詳細信息並輸出dict。在上述情況下，字典輸出我想有會： Age Range: 9 - 12 years G

0熱度

2回答

BeautifulSoup webscrape，用隨機的html類隔離特定的標籤

新來網絡抓取在這裏。我成功地颳了一個網站，但我遇到了一個問題。在文章類中，通常只有一個'p'標籤，但有時在文章類中隨機出現兩個或三個帶有一些不相關文本的'p'標籤。我想總是標記會出現這樣的： <p onclick="window.location.href = 'https://www.blahblah.com/somenumbers'"> some blah blah text </p>

-1熱度

2回答

在給定時間自動啓動node.js腳本

我正在使用node.js/express.js腳本從網站中取消數據。我需要的數據是每天生成的，所以我需要我的腳本在給定的時間每天自動啓動。有沒有辦法做到這一點？

0熱度

1回答

如何使用R或Python刮取多個頁面的網頁

我想刮一個網頁來收集數據以便學習數據挖掘。這個網頁數據包含一個43頁的大表。而且它還會在展開式菜單的最右側隱藏一些股票。該網頁如下。 http://data.10jqka.com.cn/market/longhu/yyb/ import bs4 import requests url = r"http://data.10jqka.com.cn/market/longhu/yyb/"

0熱度

2回答

使用Ruby爲使用JavaScript加載的數據刮取一個URL

我想使用Ruby腳本來爲租借listings刮該頁面。我試過的一些不成功的方法是使用Nokogiri和Mechanize，但是瀏覽器只加載了14個列表，其餘的都是通過我認爲嵌入的JavaScript加載的。我簡單地看過rkelly，但沒有通過可用的課程閱讀。這是我到目前爲止有： ##First Solution only returned 14 Results require 'mechani

1熱度

2回答

嘗試從圖像url（使用python urllib）刮取圖像，但獲得html代替

我試圖從以下url中獲取圖像。 http://upic.me/i/fj/the_wonderful_mist_once_again_01.jpg 我可以做單擊鼠標右鍵，另存爲，但是當我試圖用urlretrieve像 import urllib img_url = 'http://upic.me/i/fj/the_wonderful_mist_once_again_01.jpg' urllib.

1熱度

1回答

爲CSV抓取網站數據

對此類編程工作不熟悉，對嵌入式系統更熟悉。我有很少的Web編程XP。我想什麼來實現：一個網站（danglefactory.com）有，我想下載到CSV處理統計的一大桌。在網站上，有一個按鈕調用內部腳本來製作CVS並準備下載。 Referer的http://www.danglefactory.com/projections/skaters/daily 腳本http://www.danglefac

2熱度

1回答

機械化返回robot.txt儘管被設置爲忽略

我遇到了一些網站，當我試圖提取代碼時會返回ROBOTS元標記，並且即使在嘗試使用機械化時也會繼續這樣做。舉個例子： import mechanize br = mechanize.Browser() br.set_handle_robots(False) br.open("http://myanimelist.net/anime.php?letter=B") response = br.r