使用google_ngram_downloader閱讀google ngrams

我正在使用google_ngram_downloader來閱讀Google數據集。使用google_ngram_downloader閱讀google ngrams

代碼：

from google_ngram_downloader import readline_google_store 
fname, url, records = next(readline_google_store(ngram_len=1)) 
for x in range(0,5): 
    print next(records)

在這裏，我讀的數據集逐個從0.1開始，... A，B，C ...ž。 下一個（readline_google_store（ngram_len = 1））給出了ngrams一個一個。我想直接讀取將不會一個接一個的任何東西的數據集'a'，'b'。

必需：只讀從信具有1克數據集 'A'開始數據集。

來源

2014-10-29 iNikkz

我很困惑。什麼是問題？ – Daniel 2014-11-04 07:11:10

'@ Daniel'：由於http://storage.googleapis.com/books/ngrams/books/datasetsv2.html和以上代碼用於按順序讀取這些n元組，因此Google將以此格式存儲它的n元組。我想要的是，假設我想只讀取包含**字母'a'5-gram **的數據集並跳過剩餘的數據集。 – iNikkz 2014-11-04 11:16:20

一種方法是明確添加indices。使用這一行可以得到僅以a開頭的長度爲1的ngram。

fname, url, records = next(readline_google_store(ngram_len=1,indices='a'))

來源

2015-01-26 21:18:12 philshem

使用google_ngram_downloader閱讀google ngrams

回答

相關問題