我正在使用BeautifulSoup使用以下代碼解析網站。我能夠解析網站和打印數據,當前輸出是@http://pastie.org/6448357,但是,我只想打印鏈接中只有一部分數據,期望的輸出是@http://pastie.org/6448362任何人都可以提供關於如何完成這些任務的輸入?僅解析HTML數據的一部分
from bs4 import BeautifulSoup as bs
import argparse
import urllib
import urllib2
import getpass
import re
import requests
def update (url):
print url
req = urllib2.Request(url=url)
try:
f = urllib2.urlopen(req)
txt = f.read()
soup = bs(txt)
print soup
f.close()
def main():
#For logging
print "test"
parser = argparse.ArgumentParser(description='This is the update.py script created by test')
parser.add_argument('-u','--url',action='store',dest='url',default=None,help='<Required> url link',required=True)
results = parser.parse_args()# collect cmd line args
url = results.url
#print url
update(url)
if __name__ == '__main__':
main()
不要使用外部資源像pastie提供產生額外的信息。一切都屬於這個問題。 – 2013-03-11 05:37:27