2010-10-13 56 views
0

我想LXML清潔用它來擺脫所有的HTML,但隨後一個正則表達式自動鏈接的東西:帶有自定義標籤的lxml清潔劑?

[ABC] -> <a href="bah bah bah">ABC</a> 

什麼是處理這種不XSS和這樣的路嗎?

+1

什麼叫「自動連接東西」是什麼意思?我不明白[ABC] - > ABC – 2010-10-13 21:52:47

+0

thx,sry,它被剝離了,現在應該清楚了 – Timmy 2010-10-13 22:12:58

回答

1

也許使用內聯HTML禁用markdown會適合? python markdown模塊相當成熟。

查看docs中的「安全模式」部分以獲取有關剝離嵌入式HTML的更多信息。

取決於你想要什麼,像py-wikimarkup可能更合適。

使用自定義的正則表達式可能不是一個好主意,因爲

  • 你必須解釋/規則的人誰可能已經熟悉了降價wikitext的
  • 你必須提供一種逃避文本的方式,例如人誰真正想寫的[ABC]
  • 你必須修復任何錯誤,包括安全問題