2014-10-29 63 views
4

我正在使用google_ngram_downloader來閱讀Google數據集。使用google_ngram_downloader閱讀google ngrams

代碼:

from google_ngram_downloader import readline_google_store 
fname, url, records = next(readline_google_store(ngram_len=1)) 
for x in range(0,5): 
    print next(records) 

在這裏,我讀的數據集逐個從0.1開始,... A,B,C ...ž下一個(readline_google_store(ngram_len = 1))給出了ngrams一個一個。我想直接讀取將不會一個接一個的任何東西的數據集'a','b'

必需:只讀從信具有1克數據集 'A'開始數據集。

+0

我很困惑。什麼是問題? – Daniel 2014-11-04 07:11:10

+0

'@ Daniel':由於http://storage.googleapis.com/books/ngrams/books/datasetsv2.html和以上代碼用於按順序讀取這些n元組,因此Google將以此格式存儲它的n元組。我想要的是,假設我想只讀取包含**字母'a'5-gram **的數據集並跳過剩餘的數據集。 – iNikkz 2014-11-04 11:16:20

回答

1

一種方法是明確添加indices。使用這一行可以得到僅以a開頭的長度爲1的ngram。

fname, url, records = next(readline_google_store(ngram_len=1,indices='a'))