的Python /正則表達式 - 解析文本描述的最佳方式

說我有文本字符串是這樣的：的Python /正則表達式 - 解析文本描述的最佳方式

富士通LifeBook E734 13.3" 2.5GHz的酷睿i5/4GB內存/ 500GB SSHD像新的一樣
的Mac Pro，早2009年4核2.66GHz的英特爾至強/ 16GB RAM/1Tb的HD

我想解析成品牌，型號，處理器，屏幕尺寸，高清大小，RAM，條件

我想知道，什麼是最pythonic方式來分析這些字符串？

目前，我做了以下內容：

遍歷計算機的靜態列表的品牌和型號
- 如果匹配的話，那些拉出來的字符串
分割字符串按「」和「/」。
使用is x in y至：
- 找'「和」「。找到大小
- 尋找」GHz的「找處理器速度
- 查找 'MB'，」千兆」， 'T'

下面是一些示例代碼：

import re 
data={} 
complist = {'make':['Apple','Toshiba','HP', 'Fujitsu'...], 
      'model':['Air','Surface','Zenbook','Lifebook','Mac Pro',...], 
      'condition':['New','Used','Refurbished'...]} 

string = 'Fujitsu LifeBook E734 13.3" i5 2.5GHz/4Gb RAM/500Gb SSHD Like NEW' 
for comparison in complist : 
    for compare in complist[comparison]: 
     if compare in string: 
      data[comparison]=compare 
      string = string.replace(compare, '') 

stringsplit=re.findall(r"[\w']+", string) 

for i,s in enumerate(stringsplit): 
    if any(key in s for key in ['Mb','Gb','Tb']): 
     ... 
     data['Ram']=... 
    if any(...

我可以蠻力，但「...」是我在尋找一些指導。此外，第一部分可能也可以更有效地完成。

任何幫助，非常感謝。

來源

2017-02-28 user3279773

通常情況下，你會想在string分成列表，然後遍歷它，看它是否出現在complist字典（而不是周圍的其他方法）：

stringList = string.split() 
for s in stringList: 
    #loop through the complist to find matches

這樣做，你將能夠減少迴路的數量

關於列表： 使用排序列表！因爲你將能夠使用二進制搜索，這是非常快

關於集： 因爲它看起來像你只需要找到如果字是在列表中。您可以將複雜表存儲爲集而不是列表。 成員測試成組的速度爲O（n）（「大O-記法」），並且比列表

來源

2017-02-28 19:36:49

的Python /正則表達式 - 解析文本描述的最佳方式

回答

相關問題