我期待從大量非結構化文檔中提取特定項目。這些文件可能是1-5頁用戶各種方式格式化文本,但在大多數情況下,將至少包含:從非結構化文本文件中提取人口統計信息和聯繫人信息
- 名稱
- 地址(物理)
- 郵箱地址
- 電話數
- 網站URL
我正在尋找一個語義解析,可以嘗試提取的文件這些元素,這樣我可以加載ŧ將帽子信息放入關係數據庫中,並將這些記錄作爲聯繫人使用。
我查找過的其他服務雖然對其他目的有價值,但並未解決此特定需求。
任何想法,建議或線索?
我期待從大量非結構化文檔中提取特定項目。這些文件可能是1-5頁用戶各種方式格式化文本,但在大多數情況下,將至少包含:從非結構化文本文件中提取人口統計信息和聯繫人信息
我正在尋找一個語義解析,可以嘗試提取的文件這些元素,這樣我可以加載ŧ將帽子信息放入關係數據庫中,並將這些記錄作爲聯繫人使用。
我查找過的其他服務雖然對其他目的有價值,但並未解決此特定需求。
任何想法,建議或線索?
您是否找到了導致您的問題?我發現了一些研究文章:
www.cis.upenn.edu/~pereira/papers/crf.pdf
citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.84.9192 &代表= REP1 &類型= PDF
www2.selu.edu/Academics/Faculty/aculotta/pubs/culotta04extracting.pdf
但代碼上實現任何的這些想法沒有具體實例。
看看這太: stackoverflow.com/questions/953150/general-address-parser-for-freeform-text
(抱歉,我排除了HTTP,這個系統是不是讓我發佈多個網址/鏈接)