我需要幫助python編程: 我需要一個命令,可以搜索文本文件中標籤之間的所有單詞。例如 在文本文件中有<concept> food </concept>
。我需要搜索<concept>
和</concept>
之間的所有單詞並顯示它們。 任何人都可以幫忙.......蟒蛇搜索標籤
Q
蟒蛇搜索標籤
1
A
回答
3
- 將文本文件加載到一個字符串中。
- 使用
pos2 = s.find('</concept>', pos1)
你所尋求的話是那麼s[pos1+len('<concept>'):pos2]
1
看一看正則表達式搜索使用pos1 = s.find('<concept>')
<concept>
中第一次出現的字符串</concept>
。 http://docs.python.org/library/re.html 如果你想有例如標籤<i>
,嘗試
text = "text to search. <i>this</i> is the word and also <i>that</i> end"
import re
re.findall("<i>(.*?)</i>",text)
這裏有一個簡短的說明的findall是如何工作的:它看起來對於一個給定的正則表達式給出的字符串中。正則表達式是<i>(.*?)</i>
:
<i>
表示剛開始標記<i>
(.*?)
創建組和匹配儘可能直到它的第一</i>
,其總結了標籤
請注意,上述解決方案沒有類似於
<i> here's a line
break </i>
既然你只是想提取單詞。
但是,當然也可以這樣做:
re.findall("<i>(.*?)</i>",text,re.DOTALL)
3
沒有爲HTML/XML一個偉大的圖書館中橫過命名BeautifulSoup。有了它:
from BeautifulSoup import BeautifulStoneSoup
soup = BeautifulStoneSoup(open('myfile.xml', 'rt').read())
for t in soup.findAll('concept'):
print t.string
相關問題
- 1. 蟒蛇BeautifulSoup搜索標籤
- 2. 搜索蟒蛇
- 3. XML搜索蟒蛇
- 4. 蟒蛇imaplib搜索多個標準
- 5. 蟒蛇搜索字符串
- 6. 通過搜索蟒蛇
- 7. 蟒蛇LDAP3搜索LDAPOperationsErrorResult
- 8. 用數字搜索 - 蟒蛇 -
- 9. 蟒蛇二叉搜索樹
- 10. 蟒蛇矩陣搜索
- 11. 谷歌搜索 - 蟒蛇
- 12. 搜索前/後蟒蛇imaplib
- 13. 蟒蛇ID3標籤的Unicode
- 14. 蟒蛇HTML標籤提取
- 15. 標籤錯誤蟒蛇
- 16. 蟒蛇深度優先搜索遞歸
- 17. 斐波那契搜索蟒蛇:
- 18. 蟒蛇正則表達式搜索
- 19. 搜索通過嵌套列表蟒蛇
- 20. 蟒蛇搜索技術:單詞類似
- 21. 搜索清單列表 - 蟒蛇
- 22. 蟒蛇彈性搜索最近發出
- 23. 蟒蛇優化列表搜索
- 24. 蟒蛇搜索和寫入文件
- 25. 蟒蛇memcache的搜索字符串
- 26. 蟒蛇高效的字符串搜索
- 27. 搜索標籤
- 28. 搜索列表的匹配和指標蟒蛇
- 29. 分隔符標籤的蟒蛇
- 30. 蟒蛇發現標籤的指數串
這種方法沒有考慮註釋和標記與空格考慮如果問題的作者暗示XML – nkrkv 2010-06-25 07:21:53
+1爲了簡單 – jensgram 2010-06-25 07:22:42