2016-05-13 117 views
5

我擁有數十萬份法律文件(主要來自歐盟)的法律文件 - 法律,評論,法庭文件等。我試圖通過算法對其進行一些理解。法律文本的NLP?

我已經建模了已知的關係(時間,this-changes-that等)。但是在單文檔層面上,我希望我有更好的工具來允許快速理解。我很樂意提供想法,但是這裏有一個更具體的問題:

例如:是否有NLP方法來確定與樣板文件相關/有爭議的部分?最近泄露的TTIP論文有成千上萬張帶有數據表的頁面,但在某處某處可能會摧毀一個行業。

我在過去使用谷歌的新Parsey McParface和其他NLP解決方案,但雖然它們的工作非常出色,但我不確定它們在隔離意義方面表現如何。

回答

1

我看到你有一個有趣的用例。你還提到了一個語料庫(這非常好)。讓我來談一下我爲了從研究論文中提取癥結而草擬的解決方案。

爲了理解文檔,您需要觸發器來告訴(或訓練)計算機以查找這些「觸發器」。您可以使用監督學習算法來處理此問題,並在最基本的層面上實現文本分類問題的簡單實現。但是這需要以前的工作,最初的領域專家幫助從文本數據中辨別出「觸發器」。有一些工具可以提取句子的要點 - 例如,在句子中使用名詞短語,根據共同作用分配權重並將它們表示爲向量。這是你的訓練數據。 這可能是將NLP併入您的域名的一個非常好的開始。

-4

請勿使用觸發器。你需要的是一個詞義消歧和領域適應。你想要理解文檔中的意思,即理解意義的語義。您可以使用skos或json-ld格式構建術語的法律本體,並將其表示爲知識圖的本體論,並將其用於像tensorflow/parseymcparseface這樣的依賴關係解析。或者,您可以使用基於kappa的體系結構來流式處理文檔 - 例如使用CoreNLP/Tensorflow/UIMA添加中間NLP圖層的kafka-flink-elasticsearch,使用redis緩存flink和elasticsearch之間的索引設置以加快處理速度。要了解相關性,您可以應用特定情況來增強搜索。此外,應用情緒分析來制定意圖和真實性。您的使用案例是信息提取,彙總和語義Web /關聯數據之一。由於歐盟有不同的法律制度,因此您需要首先概括真正的法律文件,然後將其縮小到與主題或地區相關的特定法律概念。您也可以在這裏使用來自LDA或Word2Vec/Sense2Vec的主題建模技術。另外,Lemon也可以幫助將詞法轉換爲語義和語義,從而將其轉化爲詞彙,即NLP->本體 - >本體 - > NLP。從本質上講,將聚類提供給您對命名實體識別的分類。您還可以使用聚類來幫助您構建本體或使用餘弦相似性查看文檔或文檔集中的單詞向量。但是,爲了儘可能最好地將文檔的稀疏性可視化。像常識推理+深度學習可能會有助於您的情況。

3

爲了理解文檔,您需要執行某種語義分析。你必須與他們的exemples兩個主要的可能性:

使用框架語義學: http://www.cs.cmu.edu/~ark/SEMAFOR/

使用語義角色標註(SRL): http://cogcomp.org/page/demo_view/srl

一旦你能夠從文件中提取信息,那麼你可能應用一些後處理來確定哪些信息是相關的。發現哪些信息是相關的與任務有關,我認爲你不能找到提取「相關」信息的通用工具。