2012-01-05 126 views
0

在輸入上,我有一個純文本(在我的情況下通常是HTML)和一個「語法規範」(用於從純文本到結構化數據提取數據的某種方式),然後在輸出I需要有一些結構化數據(JSON很好,但也許存在更好的東西?)從純文本中提取結構化數據

這個任務是否有任何庫?指定「語法規範」的好方法是什麼? 解決此類問題的最佳方法是什麼?

+0

既然HTML與純文本一樣? – 2012-01-05 16:29:21

+0

從你的問題來看,你是否確實有語法規範還不清楚。如果是,哪種格式? – fge 2012-01-05 16:29:51

+0

@DaDaDom因爲它是純文本...它的結構是另一個故事 – fge 2012-01-05 16:30:27

回答

2

一些工具用於基於語法的轉換:

增加:

+0

這些Java基於? – MozenRath 2012-01-05 16:36:58

+0

不幸的是沒有。每個人都有自己的定義轉換規則的聲明性語言。 – Raihan 2012-01-05 16:38:33

+0

我想你只是失去了他 – MozenRath 2012-01-05 16:39:58

0

看看jsoup爲HTML解析和和gson用於Java到JSON。

+0

我喜歡jsoup。然而,按照我的要求,它不夠普及,但在我看來這將是最實際的解決方案。 – Solvek 2012-01-06 11:35:20

0

要解析HTML,您將需要一個DOM解析器,該解析器根據html代碼的質量稍微寬鬆一些,以使用您的語法規範解析它,然後您將需要提供一種您需要的數據結構類型是庫來爲你做這些東西

-1

那麼,如果純文本文件的結構是格式良好的,那麼爲什麼不使用Java DOM API(或JDOM)與DOCTYPE結合來創建一個DOM對象呢?從那裏,你可以遍歷該對象,並使用類似google-gson庫的方式輕鬆地將其轉換爲JSON。

0

看一看jilapi

這需要在非結構化純文本格式,並給出了結構化JSON。