2017-09-29 149 views
0

我有約500個文檔(1頁)已被映射到約3000個短段落(1-2個句子)。這些段落描述了文件如何被審查。每個文檔可以並通常映射到幾個段落。如何將文檔映射到控件

例如,如果文檔是關於某個生產流程要遵循的程序,則這些段落是關於誰需要審閱文檔,需要審覈哪些內容,審覈的目標是什麼,審覈的頻率應該這樣做

我想開發一個模型,可以建議從給定的文件可能的段落。我選擇按照以下的方法:

準備數據(記號化,刪除停用詞,lemmatize等) 考慮所有段落作爲一個單一的輸出,也就是將它們連接起來 使用序列序列模型(tensorflow編碼器/解碼器RNN模型)將文檔映射到連接段落 使用輸出的序列找到最接近的段落作爲建議 由於樣本量較小,因此步驟3中的模型不會收斂。

我在嘗試改進建模方法(例如,可以將文檔中的每個句子映射到每個段落以增加樣本大小)或查找替代方法。什麼是這種問題的典型模型?

回答

0

聽起來像處理這個問題最簡單的方法是爲每個段落創建一個二進制分類器,以說明它是否適用於輸入文檔。

如果您想要查找有關此類問題的更多詳細信息,您所處理的內容稱爲多標籤分類問題。一個常見的例子就是根據文本猜測Stack Overflow問題的標籤。除非段落和文檔之間存在一些密切的文本關係(如重疊的文字使用),否則最好將您的段落視爲標籤,而不是在模型中使用它們的內容。另外,考慮到您擁有的數據量,我會從比樸素貝葉斯或SVM等神經網絡更基本的東西開始,驗證該方法是否可行。既然你已經在Python工作了,Gensim有一個variety of multi-label classifiers

+0

你的建議很有用。我相信可以從「推薦系統」的角度來解決這個問題。我想知道如何衡量大型文件本身和小段落之間的相似性。原則上,我可以使用文本相似性度量而不是依賴現有的映射。但我不完全確定。 – teucer