我有一個包含商品類別和商品名稱的2列csv文檔。哪個R功能用於文本自動校正?
例:
Sl.No. Commodity Category Commodity Name
1 Stationary Pencil
2 Stationary Pen
3 Stationary Marker
4 Office Utensils Chair
5 Office Utensils Drawer
6 Hardware Monitor
7 Hardware CPU
,我有一個包含各種商品名稱的另一個csv文件。
例:
Sl.No. Commodity Name
1 Pancil
2 Pencil-HB 02
3 Pencil-Apsara
4 Pancil-Nataraj
5 Pen-Parker
6 Pen-Reynolds
7 Monitor-X001RL
我想輸出是標準化和分類的商品名稱,並將其分類成相應的商品分類等如下所示:
Sl.No. Commodity Name Commodity Category
1 Pencil Stationary
2 Pencil Stationary
3 Pencil Stationary
4 Pancil Stationary
5 Pen Stationary
6 Pen Stationary
7 Monitor Hardware
步驟1)I第一有使用NLTK(文本挖掘方法)並清理數據,以便將「鉛筆」從「鉛筆-HB 02」中分離出來。
步驟2)清潔後,我必須使用近似字符串匹配技術,即agrep()匹配模式「鉛筆*」或更正「鉛筆」到「鉛筆」。
步驟3)一旦糾正模式,我必須分類。不知道如何。
這是我想過的。我從第2步開始,僅在第2步停留。 我沒有找到確切的方法來編碼。 有沒有辦法根據需要獲得輸出? 如果是,請給我建議我可以繼續的方法。
感謝您的回覆蘭迪。你能建議我一種處理不匹配情況的方法嗎?例如:如果我在文件2中有「汽油」或「柴油」或「卡車」作爲商品名稱,它應該歸入其他類別。所以爲此,我無法在文件1中添加一長串商品名稱。如果您能爲我提供一種處理此案例的方法,那將非常有用。同樣在agrep中,我們有max.distance,它會告訴我匹配的百分比。在StringDist中有這樣的東西嗎?.. – Viamia
查看更新後的結果。 –
感謝蘭迪。由於我沒有最新版本的R,我在安裝stringDist軟件包時遇到了問題。我會嘗試使用你建議的方法執行並返回。再次感謝。 – Viamia