0
我必須粘貼3000網址一天是格式化能Python中的「字符添加到字符串
我可以設置密碼,以原始粘貼數據轉換爲字符串?
(例原始數據) - 13邁克爾路Cottees NSW 2017
(實施例的變化的數據) - 「13邁克爾路Cottees NSW 2017」
我試圖
RAW_URL = 13 Michael Way Cottees NSW 2017 + " "
RAW_URL = str(13 HOADLEY ST MAWSON ACT 2607)
RAW_DATA = ' " ' + (13 HOADLEY ST MAWSON ACT 2607) + ' " '
我不斷收到「無效的語法」錯誤,並沒有太多運氣與谷歌。
一旦完成,將摺疊成下面的代碼,就PASTED_CRM_DATA單個輸入替換到列表中僅低於
import requests
import csv
from lxml import html
import time
import sys
text2search = '''RECENTLY SOLD'''
PASTED_CRM_DATA = "13 HOADLEY ST MAWSON ACT 2607"
URL_LIST = 'https://www.realestate.com.au/property/' + str(PASTED_CRM_DATA.replace(' ', '-').lower()),
with open('REA.csv', 'wb') as csv_file:
writer = csv.writer(csv_file)
for index, url in enumerate(URL_LIST):
page = requests.get(url)
print '\r' 'Scraping URL ' + str(index+1) + ' of ' + str(len(URL_LIST))+ ' ' + url,
if text2search in page.text:
tree = html.fromstring(page.content)
(title,) = (x.text_content() for x in tree.xpath('//title'))
(price,) = (x.text_content() for x in tree.xpath('//div[@class="property-value__price"]'))
(sold,) = (x.text_content().strip() for x in tree.xpath('//p[@class="property-value__agent"]'))
writer.writerow([title, price, sold])
任何輸入讚賞
我每天都得到一個excel文件,這是一個街道地址。他們都是一模一樣的 13霍德利ST MAWSON ACT 2607 >>> 14薩弗裏ST加蘭ACT 2605 >>> 202 41 CHANDLER ST貝爾科ACT 2617 – James2086
你還在用手工複製數據? (如複製+粘貼鼠標)。你可以改進代碼來逐行讀取excel文件,並以這種方式執行網頁抓取。 –
數據是手工複製的,因爲數據來自Excel表格,這是一個基於Web的提取,並且不能在python中識別。 – James2086