2010-11-12 21 views
0

這個問題真的很具體。HTML to TXT庫模仿「lynx -dump」的輸出?

我需要一個java庫,它可以採用HTML內容並以與Linux lynx程序生成的相同格式生成文本。


我需要將第三方服務器提供的數據公開給Android上的最終用戶。數據格式很古老,格式不正確的HTML,我試過用java讀它,偶爾會失敗(不可接受)。它也在每個月都在增長(排除預安裝),我無法說服他們改變爲「現代」的東西(在XML等中生活會很棒)。

最短路徑:我寫了一個類來在線使用W3HTML2txt服務(谷歌搜索它)。它運行良好的應用程序,直到我有抱怨,並注意到W3服務偶爾失敗。這並不是什麼大不了的事情,但黑盒子邏輯預計輸出是以這種「類似lynx」的文本格式。

因此,我希望圖書館能夠在應用程序內部以「lynx風格」進行轉換(HTML-> TXT),並避免W3服務中斷。此外,l output輸出可能是我見過的最好的,最有組織和最整齊的。

你們知道嗎?

回答

0

了一年後,我放棄了。答案是:沒辦法處理,Java中沒有庫。至少現在。

我正在關閉它。感謝您的關注。

0

不知道你是什麼意思的l style風格,所以我可能會完全關閉提交這個(如果是這樣,請原諒我)。

我使用了一些一段代碼而回檢查HTML/XML文件(當時我只是priting出來在日誌

的InputStream在= context.getResources()openRawResource(ID)。 StringBuffer的直列=新的StringBuffer(); InputStreamReader的ISR =新的InputStreamReader(中); 的BufferedReader inRd =新的BufferedReader(ISR);

字符串文本;! 而((文= inRd.readLine())= null){ inLine.append(text); inLine.append(「\ n」); } in.close(); return inLine.toString();

我希望它能幫助,但我得到你需要的東西更復雜的感覺:P

+0

謝謝你的回答。是的,我不需要檢查。實際上,我需要處理有缺陷的HTML文件,因此檢查HTML的有效性並不重要。 – davidcesarino 2010-11-12 03:05:09

+0

我討厭按下輸入在這裏stackoverflow ...無論如何...因爲我的應用程序每次需要轉換它從服務器獲得的數據時聯繫W3服務,我想知道如果我可以做這個工作「內部」 ,以便不依賴於W3服務。 l format格式只是一個要求。再次感謝你。 – davidcesarino 2010-11-12 03:08:54