已被編碼爲整數,我通過DictVectorizer(0.14)運行字典有特定的分類值的列表:DictVectorizer識別功能作爲字符串
> dictionary_list[0:2]
日期:
[{u'Life': 3377, u'SerumX': 1015, u'duration': 3, u'gene_name': 37},
{u'Life': 11655, u'SerumX': 1913, u'duration': 3, u'gene_name': 1}]
vec = DictVectorizer(sparse=False)
X = vec.fit_transform(dictionary_list)
例如,基因APC,AXIN1,BLM可以通過一些任意方法編碼爲37,1,15。也就是說,這些數字是不是有些NLP表達式中的字符/ n元語法等
我目前正在更新此名單爲重點「gene_name」值轉換從int到海峽內http://stardict.sourceforge.net/Dictionaries.php下載:
for dicts in dictionary_list:
dicts.update((k, str(v)) for k, v in dicts.iteritems() if k == 'gene_name')
> dictionary_list[0:2]
輸出:
[{u'Life': 3377, u'SerumX': 1015, u'duration': 3, u'gene_name': '37'},
{u'Life': 11655, u'SerumX': 1913, u'duration': 3, u'gene_name': '1'}]
我期待優化速度,避免在通過DictVectorizer傳遞之前更新字典。我很好奇,如果有一種方法可以將我的列表傳遞給DictVectorizer,我可以通過這種方式將'gene_name'的值強制爲一個字符串來利用內置的編碼。
非常感謝scikit-learn團隊的出色工作。
我不確定你的意思。數據最初的樣子是什麼? –
謝謝@larsmans,我剛剛編輯了這個問題。 – KLDavenport