Makine öğrenmesi ile SCO kasa sistemlerinin temassız alışverişlerinde çalıntı tahmini
Küçük Resim Yok
Tarih
2021
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
İstanbul Beykent Üniversitesi
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Günümüzde çok farklı alanlarda tahmin, sınıflandırma ve kümeleme gibi incelemelerin yapılması için makine öğrenmesi algoritmalarına başvurulmaktadır. Makine öğrenmesi algoritmaları birçok alanda fayda sağladığı gibi yüksek performans sergilemesinden ötürü de tercih edilmektedir. Bu çalışma kapsamında perakende sektöründe Kendi Kendine Ödeme (SCO) kasa sistemlerindeki temassız alışverişlerde çalıntı tespitinin sınıflandırma ve tahmini için yararlanılmıştır. Perakende sektöründe bazı firmalarda hem kasiyerli olarak gerçekleşen hem de kasiyersiz olarak alışverişin tamamlanabileceği SCO kasa sistemleri bulunmaktadır. SCO kasa sistemlerinde müşteri, ödemesini ve alışveriş adımlarını kendi başına tamamlayabilmektedir. Bu çalışmada, SCO kasa sistemlerinde gerçekleşen temassız alışveriş deneyimlerindeki satış ve iptal verileri kullanılmıştır. İptal verileri çalıntıya sebebiyet verdiğinden makine öğrenmesi algoritmaları kullanılarak verilerin iptal ya da satış olup olmadığı tespit edilerek sınıflandırılmıştır. Sınıflandırmada, literatür araştırmasında da çok sık karşılaşılan Lojistik Regresyon, Karar ağacı (C4.5), K – En Yakın Komşu (KNN), Gradyan Arttırılmış Ağaçlar (GBT) ve Rastgele Orman (RF) algoritmaları uygulanarak sonuçları karşılaştırılmıştır. Karşılaştırmalar modellerin doğruluk, f1-skor (f1-score), kesinlik (precision), geri çağırma (recall) ve Eğrinin Altında Kalan Alan (AUC) değerleri üzerinden sağlanmıştır. Ayrıca iptal edilen fişlere Apriori algoritması ile sepet analizi çalışılmış ve birlikte alınan ürünlerin değerlendirmeleri yapılmıştır. Çalışma sonucunda algoritmalar karşılaştırıldığında en iyi performansı %96.49 doğruluk oranı ve 0.98'lik ile AUC değeri ile Karar Ağacı algoritması vermektedir. Burada, bölünme kriteri olarak Gini indeksi, maximum derinlik 40 ve maximum özellik sayısı 8 olarak belirlenen en iyi hiper parametre değerleri esas alınmıştır. En düşük performans ise %65.62 doğruluk oranı ve 0.72 AUC değeri ile Lojistik Regresyon modeline aittir. Çalışma neticesinde en iyi performansı sergileyen Karar Ağacı modeli ile sınıflandırma yapılmasının uygun olduğu görülmektedir. Aynı zamanda iptal edilen fişlerdeki ürün birliktelikleri dikkate alınarak ürün kaybını ve çalıntıyı önleyen tedbirlerin alınması sağlanabilecektir.
Nowadays, machine learning algorithms are used to make examinations such as prediction, classification and clustering in many different areas. Machine learning algorithms provide benefits in many areas and are preferred because of their high performance. Within the scope of this study, it is used for the classification and estimation of stolen detection in contactless purchases in Self Checkout (SCO) cash registers in the retail sector. In some companies in the retail sector, there are SCO cash registers that can be used with or without a cashier. In SCO cash register systems, the customer can complete the payment and shopping steps on his own. In this study, sales and cancellation data from contactless shopping experiences in SCO cash registers are used. Since the cancellation data caused theft, it was classified by detecting whether the data was canceled or sold using machine learning algorithms. In classification, Logistic Regression, Decision tree (C4.5), K - Nearest Neighbor (KNN), Gradient Augmented Trees (GBT) and Random Forest (RF) algorithms, which are very common in literature research, were applied and the results were compared. Comparisons were made on models' accuracy, f1-score (f1-score), precision, recall and Area Under The Curve (AUC) values. In addition, basket analysis was performed on the canceled receipts with the Apriori algorithm, and the products purchased together were evaluated. As a result of the study, when the algorithms are compared, the Decision Tree algorithm gives the best performance with an accuracy rate of 96.49% and an AUC value of 0.98%. Here, the best hyper parameter values determined as Gini index, maximum depth 40 and maximum feature 8 were taken as the division criteria. The lowest performance belongs to Logistic Regression model with 65.62% accuracy rate and 0.72 AUC value. As a result of the study, it is seen that it is appropriate to classify with the Decision Tree model, which exhibits the best performance. At the same time, taking into account the product associations in the canceled receipts, it will be possible to take measures to prevent product loss and theft.
Nowadays, machine learning algorithms are used to make examinations such as prediction, classification and clustering in many different areas. Machine learning algorithms provide benefits in many areas and are preferred because of their high performance. Within the scope of this study, it is used for the classification and estimation of stolen detection in contactless purchases in Self Checkout (SCO) cash registers in the retail sector. In some companies in the retail sector, there are SCO cash registers that can be used with or without a cashier. In SCO cash register systems, the customer can complete the payment and shopping steps on his own. In this study, sales and cancellation data from contactless shopping experiences in SCO cash registers are used. Since the cancellation data caused theft, it was classified by detecting whether the data was canceled or sold using machine learning algorithms. In classification, Logistic Regression, Decision tree (C4.5), K - Nearest Neighbor (KNN), Gradient Augmented Trees (GBT) and Random Forest (RF) algorithms, which are very common in literature research, were applied and the results were compared. Comparisons were made on models' accuracy, f1-score (f1-score), precision, recall and Area Under The Curve (AUC) values. In addition, basket analysis was performed on the canceled receipts with the Apriori algorithm, and the products purchased together were evaluated. As a result of the study, when the algorithms are compared, the Decision Tree algorithm gives the best performance with an accuracy rate of 96.49% and an AUC value of 0.98%. Here, the best hyper parameter values determined as Gini index, maximum depth 40 and maximum feature 8 were taken as the division criteria. The lowest performance belongs to Logistic Regression model with 65.62% accuracy rate and 0.72 AUC value. As a result of the study, it is seen that it is appropriate to classify with the Decision Tree model, which exhibits the best performance. At the same time, taking into account the product associations in the canceled receipts, it will be possible to take measures to prevent product loss and theft.
Açıklama
Anahtar Kelimeler
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control