文件相似度的網絡模型

在此先感謝您的幫助。簡而言之，我被要求幫助我的組織每5年重複一次認證流程。我們需要編譯的文檔大約有50頁（總共150個左右的問題），所以我們希望儘可能重複我們在上一輪中製作的內容。文件相似度的網絡模型

問題：在這最後一輪的改變問題的順序和措辭，但不完全（例如，「請描述你的組織的承諾，多樣性」與「什麼樣的政策到位，以保證組織的多樣性？「）。因此，我們需要一種方法來找出舊輪圖上哪些問題到新一輪，或者至少大部分（他們不需要是完美匹配，只是相似）。

我的想法是建立一個雙邊網絡，舊的問題和新的問題作爲網絡的頂點集。在他們的問題或答案中，邊緣將通過一些詞重疊度量來加權。

有誰知道如何開始解決這個問題？

再一次，謝謝你，你提供的任何幫助可能會節省數小時的時間。

PS - 我完全接受替代解決方案。如果有幫助，下面是關於如何對問題進行建模的初步想法。

an example solution

來源

2016-08-24 Ian Cero

位的輪廓，但對於一個快速解決方案的總體步驟是：1。轉換你的話來與像http://www.nltk.org/api/nltk.stem.html 2.工具的格式更適合於機器處理按照列出的步驟這裏計算tf-idf的相似度：Similarity between two text documents 3.使用np.argsort（）提取最相似的項目。

來源

2016-08-25 00:45:55

首先想到的是：對於50頁的工作，您可以通過只用人工來節省更多的時間。但是，如果你的團隊中有一位優秀的數據科學家，那麼你可以試試gensim。比較兩種不同短語的最新技術是詞嵌入。您可以將其視爲通過對數百萬個文檔進行培訓將單詞轉換爲高維矢量（從200到1000維）。

例如，如果你的字符串是「人機交互」，你會尋找類似的東西。

[(2, 0.99844527), # The EPS user interface management system 
(0, 0.99809301), # Human machine interface for lab abc computer applications 
(3, 0.9865886), # System and human system engineering testing of EPS 
(1, 0.93748635), # A survey of user opinion of computer system response time 
(4, 0.90755945), # Relation of user perceived response time to error measurement 
(8, 0.050041795), # Graph minors A survey 
(7, -0.098794639), # Graph minors IV Widths of trees and well quasi ordering 
(6, -0.1063926), # The intersection graph of paths in trees 
(5, -0.12416792)] # The generation of random binary unordered trees

來自：https://radimrehurek.com/gensim/tut3.html

來源

2016-08-25 21:54:58 Aaron

文件相似度的網絡模型

回答

相關問題