0
Python和BeautifulSoup的新手。任何幫助,高度讚賞我將如何去獲取鏈接列表中的信息,然後將它們轉儲到JSON對象中?
我有一個想法如何建立一個列表的公司信息,但這是在點擊一個鏈接後。
import requests
from bs4 import BeautifulSoup
url = "http://data-interview.enigmalabs.org/companies/"
r = requests.get(url)
soup = BeautifulSoup(r.content)
links = soup.find_all("a")
link_list = []
for link in links:
print link.get("href"), link.text
g_data = soup.find_all("div",{"class": "table-responsive"})
for link in links:
print link_list.append(link)
誰能給的如何去第1鏟的鏈接,然後建立所有站點的公司列表數據的JSON的想法?
我附加了示例圖像以獲得更好的可視化效果。
如何在不需要點擊每個單獨鏈接的情況下刮掉網站並構建如下示例的JSON?
例預期輸出:
all_listing = [ {"Dickens-Tillman":{'Company Detail':
{'Company Name': 'Dickens-Tillman',
'Address Line 1 ': '7147 Guilford Turnpike Suit816',
'Address Line 2 ': 'Suite 708',
'City': 'Connfurt',
'State': 'Iowa',
'Zipcode ': '22598',
'Phone': '00866539483',
'Company Website ': 'lockman.com',
'Company Description': 'enable robust paradigms'}}},
`{'"Klein-Powlowski" ':{'Company Detail':
{'Company Name': 'Klein-Powlowski',
'Address Line 1 ': '32746 Gaylord Harbors',
'Address Line 2 ': 'Suite 866',
'City': 'Lake Mario',
'State': 'Kentucky',
'Zipcode ': '45517',
'Phone': '1-299-479-5649',
'Company Website ': 'marquardt.biz',
'Company Description': 'monetize scalable paradigms'}}}]
print all_listing`
嗯...你會爲我們提供實際的網址嗎? –
@cᴏʟᴅsᴘᴇᴇᴅ是沒問題的實際的網址是[鏈接](http://data-interview.enigmalabs.org/companies/) – Vash
呃,這看起來像一個硒+ bs4的工作。 –