2012-02-07 150 views
13

可能重複:
Looking for dataset to test FULLTEXT style searches on我在哪裏可以找到大量的文本文件?

我最近在對數據挖掘的項目,爲此我需要100 GB用於測試純文本的......我累了的搜索整天的淨。有人請通過提供我可以下載這些文本文件的鏈接幫助我。謝謝。

+1

你想下載100GB的文本文件。 .... – vikky 2012-02-07 07:31:33

+0

是的..!實際上超過100 GB .. 1TB是我們的目標..! – Sri 2012-02-07 07:39:31

+0

在一個7zip文件中獲取整個gutenberg:http://www.gutenberg-tar.com/ – JoeRocc 2016-05-12 20:41:58

回答

8

您要搜索哪種類型的文本?會話,文章,書籍 - 還是一切的好傳播?

古登堡計劃可能是一個良好的開端: http://www.gutenberg.org/

維基百科還允許您下載的文章歸檔: http://en.wikipedia.org/wiki/Wikipedia:Database_download

+0

是...任何文本文件都可以...是的..會話,文章,紀錄片,小說等等......! – Sri 2012-02-07 07:36:53

+0

古騰堡計劃可能是你最好的選擇,那裏有超過38,000本免費書籍。它們中的大多數可以作爲純文本文件下載。 – Jordan 2012-02-07 07:41:32

+0

有沒有更好的方法...而不是一個接一個地下載每個文本文件..我可以得到一個大小爲1GB的壓縮文件? – Sri 2012-02-07 07:52:12

3
+1

可以請你給我一個具體的鏈接..!我看到一個xml格式的壓縮文件,大約230 GB。繼承人的鏈接.. http://en.wikipedia.org/wiki/Wikipedia:Database_download ..在下載之前,我想知道它裏面究竟是什麼.. PS:我們正在尋找文本文件,有一些有意義的文字......就像對話,紀錄片等。 – Sri 2012-02-07 08:07:42

+0

它實際上是維基媒體轉儲文件的轉儲文件,通常它包含維基百科的文章,以XML格式。所以你可以檢查它。我認爲它應該對你有幫助。 – vikky 2012-02-07 08:44:32

相關問題