我目前正在分析一些Apache網絡日誌。一些行包含重複項(不完整的重複項,因爲日期時間可能相差幾秒),如下圖所示。我主要在Spark中使用SQL。我只想保留一個。如何從這些網絡日誌中刪除重複行
-1
A
回答
-1
您可以在SQL查詢中使用group by
命令,例如:
select * from table where x = y group by x_column
0
可以使用「dropDuplicates」方法通過查詢內,以便移除重複的代替的基團。
'weblogs_filter_bekijk = sqlContext.sql("select endpoint from basetable5 where ip_address = '91.74.184.68'").dropDuplicates'
這應該對您有所幫助。您可以參考下面的鏈接以獲取此方法的詳細說明。
https://spark.apache.org/docs/1.5.1/api/java/org/apache/spark/sql/DataFrame.html
相關問題
- 1. 如何從表中刪除重複添加日誌?
- 2. 如何刪除一些重複的行
- 3. 如何刪除這些行
- 4. 如何刪除ie網絡驅動程序的日誌?
- 5. 如何從ELMAH日誌中刪除「Auth_Password」
- 6. Extjs4如何從網格中刪除重複的行?
- 7. 排序並刪除sql日誌中的重複行
- 8. 從網頁頂部刪除PHP日誌
- 9. 如何刪除重複行
- 10. 如何從日期數組中刪除重複日期?
- 11. 刪除NGINX日誌後如何重新開始日誌記錄?
- 12. 如何從Hibernate本身刪除日誌?
- 13. 如何刪除日誌(NLog)?
- 14. 如何從jboss日誌中刪除不需要的行?
- 15. 如何刪除這些C宏之間的重複?
- 16. 如何刪除CockroachDB中的重複行
- 17. 如何刪除CSV中的重複行?
- 18. 如何刪除SQL中的重複行?
- 19. 如何刪除MySQL中的重複行?
- 20. 如何刪除emacs中的重複行
- 21. Android:如何從CallLog中刪除重複?
- 22. 如何從中刪除重複項?
- 23. 如何從ArrayList中刪除重複項?
- 24. 如何從列表中刪除重複
- 25. 如何從元組中刪除重複
- 26. 如何刪除重複項,並更新引用這些重複的SQL
- 27. 如何刪除這行代碼中的重複?
- 28. 這段代碼如何從數組中刪除重複項
- 29. 騾 - 排除日誌中的某些行
- 30. 如何清除的SharePoint使用日誌和/或網絡分析日誌
是否解決了我的問題? – dheee