在輸入上,我有一個純文本(在我的情況下通常是HTML)和一個「語法規範」(用於從純文本到結構化數據提取數據的某種方式),然後在輸出I需要有一些結構化數據(JSON很好,但也許存在更好的東西?)從純文本中提取結構化數據
這個任務是否有任何庫?指定「語法規範」的好方法是什麼? 解決此類問題的最佳方法是什麼?
在輸入上,我有一個純文本(在我的情況下通常是HTML)和一個「語法規範」(用於從純文本到結構化數據提取數據的某種方式),然後在輸出I需要有一些結構化數據(JSON很好,但也許存在更好的東西?)從純文本中提取結構化數據
這個任務是否有任何庫?指定「語法規範」的好方法是什麼? 解決此類問題的最佳方法是什麼?
一些工具用於基於語法的轉換:
增加:
要解析HTML,您將需要一個DOM解析器,該解析器根據html代碼的質量稍微寬鬆一些,以使用您的語法規範解析它,然後您將需要提供一種您需要的數據結構類型是庫來爲你做這些東西
那麼,如果純文本文件的結構是格式良好的,那麼爲什麼不使用Java DOM API(或JDOM)與DOCTYPE結合來創建一個DOM對象呢?從那裏,你可以遍歷該對象,並使用類似google-gson庫的方式輕鬆地將其轉換爲JSON。
看一看jilapi
這需要在非結構化純文本格式,並給出了結構化JSON。
既然HTML與純文本一樣? – 2012-01-05 16:29:21
從你的問題來看,你是否確實有語法規範還不清楚。如果是,哪種格式? – fge 2012-01-05 16:29:51
@DaDaDom因爲它是純文本...它的結構是另一個故事 – fge 2012-01-05 16:30:27