Makine öğrenmesi ile SCO kasa sistemlerinin temassız alışverişlerinde çalıntı tahmini

Küçük Resim Yok

Tarih

2021

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

İstanbul Beykent Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Günümüzde çok farklı alanlarda tahmin, sınıflandırma ve kümeleme gibi incelemelerin yapılması için makine öğrenmesi algoritmalarına başvurulmaktadır. Makine öğrenmesi algoritmaları birçok alanda fayda sağladığı gibi yüksek performans sergilemesinden ötürü de tercih edilmektedir. Bu çalışma kapsamında perakende sektöründe Kendi Kendine Ödeme (SCO) kasa sistemlerindeki temassız alışverişlerde çalıntı tespitinin sınıflandırma ve tahmini için yararlanılmıştır. Perakende sektöründe bazı firmalarda hem kasiyerli olarak gerçekleşen hem de kasiyersiz olarak alışverişin tamamlanabileceği SCO kasa sistemleri bulunmaktadır. SCO kasa sistemlerinde müşteri, ödemesini ve alışveriş adımlarını kendi başına tamamlayabilmektedir. Bu çalışmada, SCO kasa sistemlerinde gerçekleşen temassız alışveriş deneyimlerindeki satış ve iptal verileri kullanılmıştır. İptal verileri çalıntıya sebebiyet verdiğinden makine öğrenmesi algoritmaları kullanılarak verilerin iptal ya da satış olup olmadığı tespit edilerek sınıflandırılmıştır. Sınıflandırmada, literatür araştırmasında da çok sık karşılaşılan Lojistik Regresyon, Karar ağacı (C4.5), K – En Yakın Komşu (KNN), Gradyan Arttırılmış Ağaçlar (GBT) ve Rastgele Orman (RF) algoritmaları uygulanarak sonuçları karşılaştırılmıştır. Karşılaştırmalar modellerin doğruluk, f1-skor (f1-score), kesinlik (precision), geri çağırma (recall) ve Eğrinin Altında Kalan Alan (AUC) değerleri üzerinden sağlanmıştır. Ayrıca iptal edilen fişlere Apriori algoritması ile sepet analizi çalışılmış ve birlikte alınan ürünlerin değerlendirmeleri yapılmıştır. Çalışma sonucunda algoritmalar karşılaştırıldığında en iyi performansı %96.49 doğruluk oranı ve 0.98'lik ile AUC değeri ile Karar Ağacı algoritması vermektedir. Burada, bölünme kriteri olarak Gini indeksi, maximum derinlik 40 ve maximum özellik sayısı 8 olarak belirlenen en iyi hiper parametre değerleri esas alınmıştır. En düşük performans ise %65.62 doğruluk oranı ve 0.72 AUC değeri ile Lojistik Regresyon modeline aittir. Çalışma neticesinde en iyi performansı sergileyen Karar Ağacı modeli ile sınıflandırma yapılmasının uygun olduğu görülmektedir. Aynı zamanda iptal edilen fişlerdeki ürün birliktelikleri dikkate alınarak ürün kaybını ve çalıntıyı önleyen tedbirlerin alınması sağlanabilecektir.
Nowadays, machine learning algorithms are used to make examinations such as prediction, classification and clustering in many different areas. Machine learning algorithms provide benefits in many areas and are preferred because of their high performance. Within the scope of this study, it is used for the classification and estimation of stolen detection in contactless purchases in Self Checkout (SCO) cash registers in the retail sector. In some companies in the retail sector, there are SCO cash registers that can be used with or without a cashier. In SCO cash register systems, the customer can complete the payment and shopping steps on his own. In this study, sales and cancellation data from contactless shopping experiences in SCO cash registers are used. Since the cancellation data caused theft, it was classified by detecting whether the data was canceled or sold using machine learning algorithms. In classification, Logistic Regression, Decision tree (C4.5), K - Nearest Neighbor (KNN), Gradient Augmented Trees (GBT) and Random Forest (RF) algorithms, which are very common in literature research, were applied and the results were compared. Comparisons were made on models' accuracy, f1-score (f1-score), precision, recall and Area Under The Curve (AUC) values. In addition, basket analysis was performed on the canceled receipts with the Apriori algorithm, and the products purchased together were evaluated. As a result of the study, when the algorithms are compared, the Decision Tree algorithm gives the best performance with an accuracy rate of 96.49% and an AUC value of 0.98%. Here, the best hyper parameter values determined as Gini index, maximum depth 40 and maximum feature 8 were taken as the division criteria. The lowest performance belongs to Logistic Regression model with 65.62% accuracy rate and 0.72 AUC value. As a result of the study, it is seen that it is appropriate to classify with the Decision Tree model, which exhibits the best performance. At the same time, taking into account the product associations in the canceled receipts, it will be possible to take measures to prevent product loss and theft.

Açıklama

Anahtar Kelimeler

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Koleksiyon