2016-09-23 60 views
0

我想用列表中定義的單詞/短語之一自動標記單詞/短語。我的列表包含在列B中標記的大約230個字的列。大約有16個獨特的標籤,並且這230個單詞中的每一個都標有這16個標籤中的一個。單詞或短語的自動標記

看一看我的名單:

The words/phrases in column A are tagged as words/phrases in column B. enter image description here

不時,增加新的字,其標籤必須手動給出。 我想建立一個預測算法/模型來自動標記新單詞(或建議)。所以如果我寫一個新詞,比如說'MIP Reserve'(A36),那麼它應該將該標籤預測爲'託管存款'(B36),而不是'營業儲備'(B33)。我應該如何精確預測新單詞的標籤,即使這些單詞與其實際標籤中的單詞不匹配? 如果有人願意看到完整的列表,我可以愉快地分享。

回答

1

簡短版本

我認爲你的問題有點不明確,沒有簡短的編碼或宏答案。考慮到每個項目都包含這麼少的信息,我認爲從源數據中建立一個良好的預測模型是不可能的。相反,做一次標記練習,看看你如何控制標記在未來。

龍版

這裏是爲什麼我不認爲你可以做到這一點,我將採取建立預測模型和步驟。

  1. 明白你爲什麼要在所有

有一個預測方案爲什麼你需要一個預測方案?您是否通過數百或數千條記錄進行排序,所有這些記錄都在變化,需要標記?如果是這樣,我同意,你不會想手動這樣做。

如果這是一次性練習,因爲隨着時間的流逝,標籤已經被破壞了原來的含義,你的問題是你的標籤已經被破壞,而不是你需要以某種方式預測每個項目應該被標記的位置。您應該考慮控制標籤的使用,而不是預測未來人們會怎樣誤認或誤稱某些東西。

不要忘記,Excel中有很多工具可以使問題更容易。假設您確定所有具有「現金」的項目都確切地歸入「營業現金」。將一個AutoFilter放在列表中並過濾掉'現金'一詞 - 現在只需複製並粘貼所有這些旁邊的'經營現金'。通過這種方式,您可以快速擺脫列表中的明顯內容,並專注於棘手的問題。

  1. 瞭解您要使用的標籤的特徵。

花點時間看看你正在使用的標籤 - 它們每個都是什麼意思?這個標籤代表什麼獨特的功能或功能的組合?

例如,您的標籤「運營現金」具有現金特徵(即不會被捆綁起來以便相當快速地使用)以及專用於操作。從這些角度來看,我們可能會進一步推斷出它在某個地方的特徵,或者某個人對此負有責任。

如果您有更多的源數據可以繼續使用,您可以使用'year created'或'customer'等字段來幫助您進一步分類。

  1. 瞭解它是什麼關於您想標記的項目,可以讓您知道他們應該去的地方。

這是你最大的問題。一個簡單的例子 - 字符串「MIP Reserve」中的內容提供了與「託管存款」鏈接的任何線索?你沒有簡單的方法來匹配列表中的許多項目 - 許多詞彙在多個標籤中出現在多個項目中。

但是,請嘗試尋找能夠爲您提供線索的唯一標識符,例如,所有帶有「developer」字樣的項目似乎都被標記爲「開發者費用註釋& Interest」。你還有更多嗎?使用這些來減少你的問題,因爲它們應該是一個簡單的映射。

任何唯一的標識符將允許您爲這些字符串設置規則。你甚至不需要堅持一個詞 - 也許當你看到幾個詞時,你可以縮小它的最終位置,例如,當我看到'雞蛋'時,這可能會變成'鳥'或'爬行動物',但如果'雞蛋'與'翅膀'搭配,我可以相當自信它是'鳥'。

您需要匹配要與標籤的唯一標識符標記的物品的特性,你在步驟1發達

  • 寫一個程序或宏在步驟2中查找標識符並返回步驟1中的相關標籤。
  • 這是直截了當的一點。尋找您想要的標識符(例如,使用「現金」,包含「真正重要的客戶」標籤),並尋找您之前標籤中的最佳匹配。

    確保您抓住任何錯誤 - 如果未找到標籤會發生什麼情況?它是否創建一個新的?它建議與您聯繫以尋求幫助嗎?如果不止一個標籤相關會發生什麼?你的決勝標準是什麼?

    但要注意的......

  • 瞭解你將如何控制使用這些唯一標識符。
  • 想象一下,你設法想出一個唯一標識符列表。你將如何控制他們的使用?如果您決定將任何帶有「現金」一詞的物品發送到「經營現金」標籤,然後在一年內有人出現並製作「資金現金」項目,因爲他們希望在某個地方放置即將到期的現金花在資本項目上,你怎麼阻止呢?你將如何控制這些詞的使用?

    您將有效地需要控制項目命名系統並設置一個識別單詞的商定列表。每當有人制作一件物品時,他們需要在某個地方包含您的標識符。我可以告訴你,這是行不通的。要麼他們會使用錯誤的話,最終你會手動完成它,否則他們會讓你感到困惑,最終你會手動完成它。

    如果你是唯一一個這樣做的人,只需做一次運動,達到你自己的標準(你記錄的)並堅持那個標準。當你需要把它交給時,它顯然是有序的,是有道理的。如果不止一個人這樣做,請在您和團隊之間進行一次練習,然後同意一種控制方法。

    編寫一個預測程序聽起來不錯,並可能爲您節省一些時間。但請考慮你爲什麼要寫它。您是否可能需要在將來不斷標記帳戶?如果是的話,集中控制他們的命名,並使它成爲一個標籤是強制性的。如果不是,你爲什麼要編寫一個程序來做到這一點?只需手動完成一次。

    相關問題