0
我學習從gensim
庫Doc2Vec
模型和如下使用它:Gensim Doc2Vec異常AttributeError的:「STR」對象沒有屬性「單詞」
class MyTaggedDocument(object):
def __init__(self, dirname):
self.dirname = dirname
def __iter__(self):
for fname in os.listdir(self.dirname):
with open(os.path.join(self.dirname, fname),encoding='utf-8') as fin:
print(fname)
for item_no, sentence in enumerate(fin):
yield LabeledSentence([w for w in sentence.lower().split() if w in stopwords.words('english')], [fname.split('.')[0].strip() + '_%s' % item_no])
sentences = MyTaggedDocument(dirname)
model = Doc2Vec(sentences,min_count=2, window=10, size=300, sample=1e-4, negative=5, workers=7)
輸入dirname
是具有目錄路徑,用於爲了簡單起見,每個文件僅包含兩個文件,其中包含超過100行。我得到以下異常。
而且,與print
發言中,我可以看到迭代器遍歷目錄的6倍。這是爲什麼?
任何形式的幫助,將不勝感激。
有一件事,你不想要不停用字?現在你的句子只包含停用詞 – datawrestler
是的,這是一個錯誤,我糾正它,但仍然存在相同的問題。 –