2011-08-10 192 views
2

我想在Python中製作一個真正的腳本,它從指定網頁的標題標籤獲取內容,然後將它們放入MySQL數據庫。使用Python腳本獲取標題標籤的內容

我非常(並且我的意思是)很少有Python的經驗,但是這需要爲我的項目完成。我怎樣才能以最簡單的方式做到這一點?

我希望你能明白我想問什麼。

回答

5
  1. 研究urllib2看看如何下載網頁。
  2. 研究BeautifulSoup解析HTML並拉出標題。
  3. 研究Python Database API Specification將行插入到 MySQL數據庫中。

下面是一些示例代碼,您開始:

import urllib2 
import BeautifulSoup 
import MySQLdb 

f = urllib2.urlopen('http://www.python.org/') 
soup=BeautifulSoup.BeautifulSoup(f.read()) 
title=soup.find('title') 
print(title.string) 

connection=MySQLdb.connect(
    host='HOST',user='USER', 
    passwd='PASS',db='MYDB') 
cursor=connection.cursor() 

sql='''CREATE TABLE IF NOT EXISTS foo (
      fooid int(11) NOT NULL AUTO_INCREMENT, 
      title varchar(100) NOT NULL, 
      PRIMARY KEY (fooid) 
     )''' 
cursor.execute(sql) 

sql='INSERT INTO foo (title) VALUES (%s)' 
args=[title.string] 
cursor.execute(sql,args) 
cursor.close() 
connection.close() 
+0

@ unbuntu的示例代碼將幫助您入門。 'urllib2'是Python的一部分,但您需要從http://pypi.python.org/pypi安裝其他兩個軟件包 – agf

1

使用urllib2打開網頁。然後使用正則表達式解析返回的文本以檢索標題。

+3

號切勿嘗試使用HTML的__regular__表達式,它不是__regular__。另外,由於海報說他們沒有Python經驗,即使它是正確的,這也是完全沒有幫助的。 – agf

相關問題