scrape

1熱度

4回答

我無法解析這個網站上正確的HTML：https://nwis.waterdata.usgs.gov/usa/nwis/gwlevels/?site_no=332857117043301 我想提取行「北緯34°02'48.57」，東經117°02'09.16" 。雖然這在管路862頁面的源代碼（網頁開發工具）顯示出來，它不顯示，當我通過BeautifulSoup解析。使用lxml的分析器不產生任何所

0熱度

2回答

如何閱讀帶有數據塊的複雜txt文件並將其保存爲python中的csv文件？

如果我有一個文件，舉辦這樣的 ++++++++++++++ Country 1 **this sentence is not important. **date 25.09.2017, also not important ******* Address **Office Address A, 100 City. Country X **work time 09h00

0熱度

1回答

有沒有辦法在不成爲它的擁有者的情況下刮掉WordPress博客？

這聽起來似乎有些不道德，但事實並非如此 - 我被要求使用WordPress博客中的數據製作應用程序，但我現在無法通過管理面板討論添加JSON API插件。所以我想知道是否有一種簡單的方法可以通過博客的標題，標籤和內容獲取所有帖子。

0熱度

2回答

獲取兩個不同標籤之間的所有字符串

我正在嘗試將與人共享的對話的聊天記錄放在一起。我希望能夠通過名稱，時間和文本來分解它。由於我拉的對話不是一個漂亮而整齊的CSV文件，我需要從源代碼中刪除。我得到如下代碼。有什麼辦法可以將<div class='message'>和</p>之間的所有字符串都拉出來，這樣我就可以將每個聊天消息與相應的發件人和時間發送到一起了嗎？謝謝！ <div class="message"><div class="

-1熱度

3回答

Python - 之前的列表元素在while循環期間被新元素覆蓋

你好，我是Python新手，想弄清楚爲什麼我的列表每當新的頁面在while循環中被加載和刮取時都會覆蓋前面的元素。先謝謝你。 def scrapeurls(): domain = "https://domain234dd.com" count = 0 while count < 10: page = requests.get("{}{}".format

1熱度

1回答

在Python中用循環刮掉多個頁面

我成功地刮掉了網站的第一頁，但是當我試圖刮掉多頁面頁面時，它工作正常，但結果完全錯誤。代碼： import requests from bs4 import BeautifulSoup from urllib.parse import urljoin for num in range(1,15): res = requests.get('http://www.abcde.com/

-3熱度

2回答

python scrape links關鍵字

我是python的新手，我需要幫助才能抓取某個關鍵字的所有鏈接。問題是，我發現了以下錯誤： if "air-max" in link["href"]: ^ IndentationError: expected an indented block. 這裏是我的代碼 import requests import time from bs4 import BeautifulSoup header

-1熱度

1回答

是否有可能取消一個公開twitter帳號（頁面）的粉絲名單

我是學生，我是全新的抓取等，今天我的主管給了我任務，以獲得用戶或頁面的追隨者名單（名人等等）該列表應包含有關每個用戶的信息（即用戶名稱，屏幕名稱等）長時間搜索後，我發現我無法獲取任何用戶在Twitter上的年齡和性別。其次我得到了關於讓我的追隨者名單的幫助，但我無法找到關於「如何我能得到公衆賬號的用戶列表」好心建議我說的可能與否，如果有可能，有什麼幫助如何達到我的目標預先感謝您

0熱度

1回答

如何在Google Spreadsheet中導入xml

我很煩惱importxml中的Google Spreadsheet中。 A100： = IMPORTXML（URL，xpath_查詢） 1 /源URL，我通過多個網址，範圍A1需要輸入。 2 /我的公式是= IMPORTXML（URL，「// UL/@類=‘屬性附加傷害’]）它顯示了該結果在多個列，而不是行。我只是在新的行的每個新的數據。請幫幫我。非常感謝你！

0熱度

1回答

無法抓取特定的URL

我有一個Kodi插件，並使用PHP來抓取很多不同的內容來源。我最近偶然發現： http://m.ddizi1.com/izle/60108/dolunay-10-bolum-hd.htm 我勉強通過的iframe和得到： http://trdizi.tv/player/oynat/2b152084a9c67ee35fdf5cab208157c7 流通過這個嵌入的鏈接（上m.ddizi1.c