我有一大組字符串,並且希望提取每個字符串的某個部分。每個字符串包含一個子字符串是這樣的:在Python中提取部分長字符串的最快方法
my_token:[
"key_of_interest"
],
這是它說my_token
每個字符串的一部分。我正在考慮獲取'my_token:['''的結尾索引位置,然後獲取'']的開始索引位置,並獲取這兩個索引位置之間的所有文本。
有沒有更好或更有效的方法來做到這一點?我會這樣做的字符串的長度〜10,000和大小100,000的集。
編輯:該文件是一個.ion文件。根據我的理解,它可以被視爲一個平面文件 - 因爲它是基於文本的,用於描述元數據。
如果字符串是JSON,請使用'json.loads'並在分析的對象上訪問它,不要嘗試將它作爲字符串進行分片。 – Amadan
假設這是唯一一次在每個字符串中出現my_token的情況下,沒有額外的約束(比如'它可能在字符串的後半部分'),那麼您尋找哪種效率提升?我認爲使用正則表達式可以通過爲周圍字符制定正則表達式來簡單地捕獲「key_of_interest」,而不是在算法上有重要意義的程度,可以獲得邊際效率提升。 –
@Amadan爲什麼會更有效率?如果字符串已經在內存中,並且他不需要字符串的任何其他部分,是不是隻是增加了將字符串加載到單獨對象中的開銷? –