4
我正在使用google_ngram_downloader來閱讀Google數據集。使用google_ngram_downloader閱讀google ngrams
代碼:
from google_ngram_downloader import readline_google_store
fname, url, records = next(readline_google_store(ngram_len=1))
for x in range(0,5):
print next(records)
在這裏,我讀的數據集逐個從0.1開始,... A,B,C ...ž。 下一個(readline_google_store(ngram_len = 1))給出了ngrams一個一個。我想直接讀取將不會一個接一個的任何東西的數據集'a','b'。
必需:只讀從信具有1克數據集 'A'開始數據集。
我很困惑。什麼是問題? – Daniel 2014-11-04 07:11:10
'@ Daniel':由於http://storage.googleapis.com/books/ngrams/books/datasetsv2.html和以上代碼用於按順序讀取這些n元組,因此Google將以此格式存儲它的n元組。我想要的是,假設我想只讀取包含**字母'a'5-gram **的數據集並跳過剩餘的數據集。 – iNikkz 2014-11-04 11:16:20