Q

RSS解析器+ unicode的解碼（蟒蛇）

2012-09-11 178 views 0 likes

0

我有兩個問題:)RSS解析器+ unicode的解碼（蟒蛇）

我的IRC bot的，我在延長勞動。它應該檢查rss是否有新內容併發布到頻道。我正在使用feedparser。我發現的唯一方法是將每個新內容存儲到文件中，每隔幾分鐘下載rss內容並將其與文件中的內容進行匹配，這在我看來有點奇怪。有沒有簡單的方法來檢查rss中是否有新內容？ Thx
當我將內容保存到文件時，有時某些部分由unicode（捷克語中的特殊字符）編碼 - u「xxx」。但我想將它們保存爲utf8文件。我該怎麼做？

2012-09-11 user1505497

A

回答

2

RSS項目通常有一個GUID或與其相關聯的鏈接。使用GUID（如果存在），否則使用鏈接來唯一標識每個項目。由於RSS格式沒有告訴你上次更改的內容，因此您仍然需要跟蹤以前看過哪些內容。恐怕真的沒有別的辦法。
要UTF-8節省data（unicode的對象），寫入文件時，只需對其進行編碼：
```
output.write(data.encode('utf8')) 
```

請務必閱讀喬爾斯波斯基article on Unicode和Python Unicode HOWTO，充分了解什麼編碼和解碼手段。

2012-09-11 13:37:21

+0

2.嗯，這正是我正在做的，但結果是SecurityWorld.cz：AVGpÅedstavilsvábezpeÄnostnÃÅÅÅ¡enver vez 2013而不是SecurityWorld.cz：AVGpředstavilsvábezpečnostnířešeníve verzi 2013這是正確的版本我得到，當我例如打印它。 – user1505497

+0

@ user1505497：文件中的數據是UTF-8，您正在嘗試將其讀作latin1。編寫數據的python代碼工作，它是失敗的文件的*加載*。 –

+0

latin1？當我嘗試編碼到latin1我得到UnicodeEncodeError：'拉丁-1'編解碼器不能編碼字符u'\ u0159'在位置23：序號不在範圍（256）。那麼我真的很困惑所有這些編碼.. – user1505497

相關問題

11. 解析HTML頁面蟒蛇
12. 蟒蛇+ JSON：解析列出
13. 蟒蛇解析文件
14. 蟒蛇大文件解析
15. 解析XML文件蟒蛇
16. 如何讓在蟒蛇xml.sax解析器
17. 免費JSON解析器（蟒蛇）
18. 蟒蛇minidom命名XML解析器3
19. 蟒蛇ntlk donwload給解析器eror
20. 蟒蛇，編解碼器，file.writelines（）的UnicodeDecodeError
21. 蟒蛇 - 解析Unicode字符XML到ElementTree的
22. 蟒蛇URL解碼％E3
23. 蟒蛇urllib2解碼問題
24. 蟒蛇絞JSON解碼
25. GAE蟒蛇ASCII編碼解碼器傾斜解碼字節2
26. 得到的Unicode解碼錯誤而在蟒蛇
27. TBXML解析器解析一個RSS源
28. 用Ruby解析器解析rss描述
29. 的RSS解析
30. 帶SAX解析器的RSS