我有約500個文檔(1頁)已被映射到約3000個短段落(1-2個句子)。這些段落描述了文件如何被審查。每個文檔可以並通常映射到幾個段落。如何將文檔映射到控件
例如,如果文檔是關於某個生產流程要遵循的程序,則這些段落是關於誰需要審閱文檔,需要審覈哪些內容,審覈的目標是什麼,審覈的頻率應該這樣做
我想開發一個模型,可以建議從給定的文件可能的段落。我選擇按照以下的方法:
準備數據(記號化,刪除停用詞,lemmatize等) 考慮所有段落作爲一個單一的輸出,也就是將它們連接起來 使用序列序列模型(tensorflow編碼器/解碼器RNN模型)將文檔映射到連接段落 使用輸出的序列找到最接近的段落作爲建議 由於樣本量較小,因此步驟3中的模型不會收斂。
我在嘗試改進建模方法(例如,可以將文檔中的每個句子映射到每個段落以增加樣本大小)或查找替代方法。什麼是這種問題的典型模型?
你的建議很有用。我相信可以從「推薦系統」的角度來解決這個問題。我想知道如何衡量大型文件本身和小段落之間的相似性。原則上,我可以使用文本相似性度量而不是依賴現有的映射。但我不完全確定。 – teucer