如何從第1部分平滑過渡到第2部分並將結果保存在第3部分中?到目前爲止,除非我自己將其插入到第2部分中,否則我一直無法解析刮掉的url鏈接。此外,我無法保存輸出結果,因爲最後一個url鏈接覆蓋了所有其他鏈接。解析從已保存的html文件解析的URL鏈接列表中的標記的url鏈接。並將其全部保存在csv輸出中
import urllib
import mechanize
from bs4 import BeautifulSoup
import os, os.path
import urlparse
import re
import csv
第1部分:
path = '/Users/.../Desktop/parsing/1.html'
f = open(path,"r")
if f.mode == 'r':
contents = f.read()
soup = BeautifulSoup(content
search = soup.findAll('div',attrs={'class':'mf_oH mf_nobr mf_pRel'})
searchtext = str(search)
soup1 = BeautifulSoup(searchtext)
for tag in soup1.findAll('a', href = True):
raw_url = tag['href'][:-7]
url = urlparse.urlparse(raw_url)
p = "http"+str(url.path)
第2部分:
for i in url:
url = "A SCRAPED URL LINK FROM ABOVE"
homepage = urllib.urlopen(url)
soup = BeautifulSoup(homepage)
for tag in soup.findAll('a',attrs={'name':'g_my.main.right.gifts.link-send'}):
searchtext = str(tag['href'])
original = searchtext
removed = original.replace("gifts?send=", "")
print removed
第3部分
i = 0
for i in removed:
f = open("1.csv", "a+")
f.write(removed)
i += 1
f.close
更新1.After的建議,我還是得到這樣的: 回溯(最近呼叫最後): 文件「page.py」,第31行,在 homepage = urllib.urlopen(url) 文件「/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib.py」,第87行,在urlopen return opener.open(url) 文件「/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib.py」,行180,打開 fullurl =解包(toBytes(fullurl)) 文件「/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib.py」,第1057行,解包 url = url.strigget() AttributeError:'ParseResult'對象沒有屬性'strip'
你並不需要檢查順便說一句,當你剛剛打開文件時,它就是文件模式。 –