0
我想從文本中構建獨特的隨機短語來檢測抄襲。我們的想法是筆者將提交文章,然後PHP將修建從文字用語將被用於剽竊檢測PHP從文本生成隨機短語
考慮下面的句子:
這是一個非常漫長而枯燥的文章,這篇文章是抄襲。
根據上述文字,系統將確定將產生多少短語,即20個單詞長的文章將具有3個短語。最大生成的短語可以是最少兩個字,最長3個字。返回的輸出會是這樣
- 很長
- 文章涉嫌抄襲
我寫下面的代碼
$words = str_word_count($text, 1);
$total_phrases_required = count($words) /2;
//build phrases
我需要提示如何完成零件的其餘部分。
如果您想自動創建可以搜索的短語,您需要一個包含常用詞語(如「a」,「is」,「和」...)的數據庫並過濾文本中的詞組。剩下的單詞將成爲搜索的流行語。當然,這可以被優化,以獲得小句子,但是這將需要更多的邏輯。 – Frank