這個問題真的很具體。HTML to TXT庫模仿「lynx -dump」的輸出?
我需要一個java庫,它可以採用HTML內容並以與Linux lynx程序生成的相同格式生成文本。
我需要將第三方服務器提供的數據公開給Android上的最終用戶。數據格式很古老,格式不正確的HTML,我試過用java讀它,偶爾會失敗(不可接受)。它也在每個月都在增長(排除預安裝),我無法說服他們改變爲「現代」的東西(在XML等中生活會很棒)。
最短路徑:我寫了一個類來在線使用W3HTML2txt服務(谷歌搜索它)。它運行良好的應用程序,直到我有抱怨,並注意到W3服務偶爾失敗。這並不是什麼大不了的事情,但黑盒子邏輯預計輸出是以這種「類似lynx」的文本格式。
因此,我希望圖書館能夠在應用程序內部以「lynx風格」進行轉換(HTML-> TXT),並避免W3服務中斷。此外,l output輸出可能是我見過的最好的,最有組織和最整齊的。
你們知道嗎?
謝謝你的回答。是的,我不需要檢查。實際上,我需要處理有缺陷的HTML文件,因此檢查HTML的有效性並不重要。 – davidcesarino 2010-11-12 03:05:09
我討厭按下輸入在這裏stackoverflow ...無論如何...因爲我的應用程序每次需要轉換它從服務器獲得的數據時聯繫W3服務,我想知道如果我可以做這個工作「內部」 ,以便不依賴於W3服務。 l format格式只是一個要求。再次感謝你。 – davidcesarino 2010-11-12 03:08:54