我正在研究熊貓中5000萬行的數據框。我需要遍歷一列並提取文本的特定部分。該列具有以4或5個模式定義的字符串值。我需要提取文本並替換原始字符串。我正在使用apply函數和正則表達式。這需要我接近一天才能執行。我覺得這是低效的。或者這是正常的?有沒有一種方法我錯過了讓它更快?在熊貓上工作5000萬行(python)
0
A
回答
0
這裏的文檔:
http://pandas.pydata.org/pandas-docs/stable/indexing.html
http://pandas.pydata.org/pandas-docs/stable/text.html#extracting-substrings
替換文本很容易。沒有一天是不正常的。擺脫您在本文早期版本中的所有列表。你不需要它們。如果需要更多空間用於數據,請在數據框上添加列。瞭解數據類型以使數據變小。
import pandas as pd
df = pd.DataFrame() #import your data at this step
df['column'].str.extract(regex_thingy_here)
我會寫更多,但你把代碼放下。
+0
非常感謝您的意見。它工作得很好,現在我可以在5分鐘內完成工作。我使用str.extract函數作爲最後一步,但對於輕鬆完成工作很重要。再次感謝!對不起,我的迴應延遲。 – Vatsan28
+0
很高興工作。感謝您的反饋。 – Back2Basics
相關問題
- 1. 熊貓groupby + 5000萬行轉換需要3小時
- 2. 5000萬+行 - CSV或MySQL
- 3. 熊貓在Openshift上工作嗎?
- 4. Python熊貓替換()不工作
- 5. Python Networkx和熊貓庫不工作
- 6. Python與熊貓一起工作
- 7. 在熊貓羣的多行上操作
- 8. 列上的python熊貓操作
- 9. 在熊貓組上運行
- 10. 熊貓流行已停止工作
- 11. Python的熊貓表操作
- 12. 大熊貓在Python
- 13. 的Python:在熊貓
- 14. 熊貓並行處理python
- 15. 修改dataframe行 - 熊貓Python
- 16. 熊貓Python移動行
- 17. 的Python:熊貓據幀行
- 18. Python和熊貓
- 19. 在Python熊貓中,布爾操作
- 20. Python熊貓在to_datetime上調試
- 21. skiprows = [list]在熊貓中不工作read_csv
- 22. 用大熊貓加上行
- 23. 比較Python的熊貓DataFrames用於匹配行的熊貓
- 24. 分層索引不能在python熊貓中工作
- 25. python熊貓read_table不存在
- 26. 箱形圖在python熊貓
- 27. 移調列在python /熊貓
- 28. Python的大熊貓.isnull()在對象上的D型NAT不工作
- 29. numpy熊貓不能在IDLE中工作/在Anaconda工作
- 30. 高效處理3百萬熊貓數據幀行
它通常不贊成粘貼一堆代碼並說「幫幫我」!更好的是,請閱讀*** [MCVE](http://stackoverflow.com/help/mcve)***並編輯您的問題,並提供可幫助他人幫助您的其他信息。 – piRSquared