用於測試數據的相似文本塊

出於測試目的，我需要創建具有相似但不相同文本的文本文件組。每一組都需要與其他組不同，但也有一些共同點。用於測試數據的相似文本塊

例如，我可能需要爲總共200個文檔創建10組20個文檔。每份文件需要250字左右。

如果其中一套文件是關於狗的話，那麼其他套的文件就是關於動物是適當的，例如，使得每套文件（在這種情況下是動物）和一套一組內的文件（例如一組中的狗和另一組中的貓）之間的強連接。

文件中的單詞不需要按照任何特定的順序，也不需要在句子中或有意義。

有沒有人知道我可以爲我的單元測試生成或獲取這種類型的數據？

2009-01-06 Guy

如何從Project Gutenberg中抓取一些文字？

2009-01-06 05:03:55

好主意Doug - 謝謝 - 我剛剛在網上看，現在正在努力研究如何找到關於相同主題的書籍集合。 – Guy 2009-01-06 05:15:00

我需要用於文本索引的測試數據集來測試索引索引速度。我從github下載了源代碼作爲zip文件。例如這個是巨大的 - https://github.com/spring-projects/spring-framework

「下載爲zip」按鈕。

2015-11-05 19:48:37

回答