lxml刪除雙斜槓iframe

2016-11-18 159 views 1 likes

我使用lxml來清理html數據，但在某些情況下，lxml也刪除了有效標記。它刪除具有有效的主機的iframe標籤，但雙斜槓（//）lxml刪除雙斜槓iframe

代碼示例啓動：

>>> cleaner = Cleaner(host_whitelist=['www.youtube.com']) 
>>> iframe = '<iframe src="//www.youtube.com/embed/S2S5I5GHkDQ"></iframe>' 
>>> cleaner.clean_html(iframe) 
'<div></div>'

但是對於普通的URL（不含雙斜線），它工作正常

>>> cleaner = Cleaner(host_whitelist=['www.youtube.com']) 
>>> iframe = '<iframe src="https://www.youtube.com/embed/S2S5I5GHkDQ"></iframe>' 
>>> cleaner.clean_html(iframe) 
'<iframe src="https://www.youtube.com/embed/S2S5I5GHkDQ"></iframe>'

我需要做什麼，使lxml瞭解它是有效的URL？

感謝。

來源

2016-11-18 user3164429

回答

如果你看一下文檔的清潔（http://lxml.de/3.4/api/lxml.html.clean.Cleaner-class.html），它似乎在默認情況下，這些參數被設置爲True：

embedded: 
    Removes any embedded objects (flash, iframes) 
frames: 
    Removes any frame-related tags

所以，我的第一本能會嘗試cleaner = Cleaner(host_whitelist=['www.youtube.com'], embedded=False)

來源

2016-11-19 19:27:36 AutomaticStatic

你可以看到有「whitelist_tags： host_whitelist可以包含的一組標籤**默認是iframe並嵌入**您可能希望包含腳本等其他標籤，或者您可能想實現allow_embedded_url以獲得更多控制。包括所有標籤「。您也可以在我的示例中看到，當提供給主機（https）的模式正在工作時，它與「嵌入」參數無關 – user3164429

相關問題

11. RewriteRule刪除所有斜槓
12. 刪除尾部斜槓htaccess
13. 刪除反斜槓與tr
14. htaccess刪除尾部斜槓
15. 刪除str_replace反斜槓
16. PHP $ _ POST刪除反斜槓
17. C＃刪除反斜槓
18. 插入刪除反斜槓
19. 從sqlite中刪除斜槓
20. 子串刪除正斜槓？
21. URL斜槓被刪除
22. 刪除前後斜槓/
23. 用雙斜槓preg_replace
24. Javascript正則表達式刪除雙反斜槓
25. 使用HaProxy設置從網址中刪除雙斜槓
26. 如何從字節對象中刪除雙斜槓？
27. 刪除json_encode（）中的斜槓後的雙引號
28. 何我阻止Passenger Standalone/nginx刪除雙斜槓？
29. 替換雙槓到單斜槓
30. URL中的雙斜槓。