我正在編寫一個程序以從網站中提取文本並將其寫入文本文件。文本文件中的每個條目應具有3個由製表符分隔的值。第一個值是硬編碼爲XXXX,第二個值應該初始化爲網站上的第一個項目,第三個值是網站上的下一個項目,其中a。我試圖介紹的邏輯是查找第一個並將相關字符串寫入文本文件。然後找到下一個並將關聯的字符串寫入文本文件。 然後,找到下一個p類。如果是「style4」,則開始一個新行,如果是另一個「style5」,則將其寫入帶有第一個style5條目的文本文件中,但用逗號分隔(或者,程序可以跳過下一個style5)使用BeautifulSoup查找標籤並評估它是否符合一些條件
我以粗體顯示程序的一部分,也就是讓程序查找下一個p類,並用style4和style5來評估它,因爲我在查找和評估p類標記時遇到了問題,所以我選擇拉我的代碼圈外的,只是盡力去完成對於新手任務的第一次迭代這是我到目前爲止的代碼:
import urllib2
from bs4 import BeautifulSoup
soup = BeautifulSoup(urllib2.urlopen('http://www.kcda.org/KCDA_Awarded_Contracts.htm').read())
next_vendor = soup.find('p', {'class': 'style4'})
print next_vendor
next_commodity = next_vendor.find_next('p', {'class': 'style5'})
print next_commodity
next = next_commodity.find_next('p')
print next
我想感謝所有幫助任何人都可以提供預先感謝!
所以你的輸出應該是供應商和類別的選項卡分隔文件? – shaktimaan
是的。我只是沒有包含那部分代碼,因爲在我將任何東西寫入文件之前,我有太多的其他障礙要克服。 – CultureQuant