2016-10-11 17 views
0

我的目標是能夠檢測計算機生成的旋轉內容。下面是一些紡成文字的例子:如何檢查句子是否有意義?

「作爲一個廣告組織的流行時尚藝術,您將努力協助通過您原有的技能和技術爲拍賣客戶的作物和/或武裝力量投放其目標市場能力。」

「真正的蘋果iphone應用程序商店絕對是一個非常有用的應用程序的珍惜住所。」

基本上,計算機已經用各種同義詞替換單詞,試圖使內容獨一無二地繞過抄襲檢測。我的目標是建立一個可以檢測這個亂碼文本的系統。有什麼辦法可以做到這一點?

回答

1

你想要做的是做一個ngram language model。 ngram語言模型是語言中詞對出現的統計表示,用於機器翻譯,情感分析和分類任務,例如預測電影評論是正面還是負面。您的分類任務是每個句子是否旋轉內容。

像天真貝葉斯分類模型(implemented in NLTK)可以幫助你解決問題。在訓練中,它會創建一個語言模型,然後使用該模型進行預測。爲了訓練這個模型,你將需要你的內容示例和一些常規的英文文本。你擁有的越多越好!所有文件(您可以將每個句子作爲文件對待)應該貼上標籤,以表明他們是否旋轉了內容。

以下是英文corpora的列表,用於非旋轉文本。

更復雜的模型可能會更好地工作,您可以非常容易地將它們並排比較。我喜歡用scikit學習這種東西。