我想執行的文件(txt文件,.PDF,.JPEG,.IMG等)的二元分類分爲兩類:可打印和非打印。本質上,我們學校爲俱樂部提供免費打印服務,但現實情況是,許多俱樂部濫用免費打印並最終打印他們的作業,論文等,這些打印成本高達數千美元的墨水和紙張。因此,我們希望採取一些無監督的方法,通過確定文件是否具有與俱樂部相關的高概率(例如生物物理論文,沒有生物物理學俱樂部!)來幫助限制這一點。查找功能,可打印或不打印
所以這是一個非常簡單的二元分類問題。我不是在尋找低層次的實現細節或者我應該使用哪種ML算法,而是我應該如何發現相關的功能,然後才能進行培訓等。
我的第一個想法是收集所有學生在圖書館打印的文件。這個想法是,如果你有真正的俱樂部印刷,你會在俱樂部印刷中心免費做,而不是在圖書館付錢。這將是一個龐大的數據集,假設在庫上打印的每個文檔都被分配了不可打印/俱樂部材料類別。不幸的是,由於隱私問題,學校非常自由並且反對允許這樣做,因此如果沒有法律風險,這不是一種真正的選擇。
類似想法的辦法是收集到綁定的課程/學校的工作,例如,文檔課程大綱,在線可用課程文件(家庭作業,論文等),並對其進行特徵提取/選擇。假設是學生會濫用印刷來普遍印刷與其學習相關的材料。
雖然.PDF和.txt基於文檔這種方式應該有合理的表現,我在研究如何基於圖像文件進行分類,除了可能使用文檔和其他元數據的標題損失。一個聰明的違規者可以簡單地將他們所有的文本文件轉換爲圖像格式來繞過這個系統。然而,這超出了這個問題的範圍,應該保存以備將來的問題/研究。目前範圍僅僅是基於文本的文檔。
注意,有做類似的題目前面的問題,但我是非常具體的,我認爲它可能帶來的東西像電影審查分級可能沒有面臨挑戰。