1
我正在寫一些腳本,它從網站上捕獲數據並將它們保存到數據庫中。一些數據被合併,我需要將它們分開。我有這樣在Python中分割文本
Endokrynologia (bez st.),Położnictwo i ginekologia (II st.)
......那麼我需要得到:
Endokrynologia (bez st.)
Położnictwo i ginekologia (II st.)
所以我在Python寫了一些代碼:
#!/usr/bin/env python
# -*- encoding: utf-8
import MySQLdb as mdb
from lxml import html, etree
import urllib
import sys
import re
Nr = 17268
Link = "http://rpwdl.csioz.gov.pl/rpz/druk/wyswietlKsiegaServletPub?idKsiega="
sock = urllib.urlopen(Link+str(Nr))
htmlSource = sock.read()
sock.close()
root = etree.HTML(htmlSource)
result = etree.tostring(root, pretty_print=True, method="html")
Spec = etree.XPath("string(//html/body/div/table[2]/tr[18]/td[2]/text())")
Specjalizacja = Spec(root)
if re.search(r'(,)\b', Specjalizacja):
text = Specjalizacja.split()
print text[0]
print text[1]
,我也得到:
Endokrynologia
(bez
我做錯了什麼?
爲什麼不只是BIF'split(',')'? – LarsVegas 2013-04-22 19:01:40