Comprehensive evaluation of data preprocessing and visualization techniques for enhanced classification and sampling

Dagal, Idriss; Harrison, Ambe; Ibrahim, AL-Wesabi; Mbasso, Wulfran Fendzi

Comprehensive evaluation of data preprocessing and visualization techniques for enhanced classification and sampling

dc.authorid	0000-0002-4353-1261
dc.authorid	0000-0002-4049-0716
dc.authorid	0000-0002-2073-8956
dc.authorid	0000-0003-1848-427X
dc.contributor.author	Dagal, Idriss
dc.contributor.author	Harrison, Ambe
dc.contributor.author	Ibrahim, AL-Wesabi
dc.contributor.author	Mbasso, Wulfran Fendzi
dc.date.accessioned	2026-01-31T15:08:11Z
dc.date.available	2026-01-31T15:08:11Z
dc.date.issued	2025
dc.department	İstanbul Beykent Üniversitesi
dc.description.abstract	Effective representation and visualization of data are critical components of data analysis, particularly in classification tasks. This paper presents a comprehensive evaluation of various functions employed in data preprocessing and visualization, emphasizing their roles in enhancing data representation, facilitating classification, and optimizing sampling techniques. We explore the Jitter function, which mitigates overplotting in visualizations by introducing small random variations to data points, thereby improving clarity in the depiction of class distributions. The hexagonal binning function aggregates data into hexagonal grids, enabling the identification of density patterns and enhancing the understanding of class separability in two-dimensional space. The center function is examined for its utility in computing centroids of data clusters, aiding in visualizing class distributions and enhancing clustering algorithms. Additionally, we investigate the swarm function, which serves dual purposes as an optimization technique in particle swarm optimization for feature selection and as a visualization tool to illustrate data point distributions without overlap. The random function is discussed for its role in generating synthetic datasets and initializing parameters, crucial for achieving balanced and representative training samples. Lastly, the square function is evaluated for its application in distance calculations and error metrics, essential for assessing model performance in classification tasks. The experimental results reveal that the random function consistently shows the highest means and variability across most distributions, while the center function, despite exhibiting lower means, demonstrates higher variability (CV) and entropy, indicating greater uncertainty. Conversely, the Jitter function displays lower means and variances, typically exhibiting more predictability and less uncertainty. This comprehensive evaluation highlights the importance of these functions in preprocessing and visualizing data, ultimately contributing to improved classification outcomes and enhanced interpretability of data-driven insights.
dc.description.sponsorship	Beykent University
dc.description.sponsorship	The author declared that this work does not receive any funding.
dc.identifier.doi	10.1007/s10586-025-05512-9
dc.identifier.issn	1386-7857
dc.identifier.issn	1573-7543
dc.identifier.issue	7
dc.identifier.scopus	2-s2.0-105013185247
dc.identifier.scopusquality	Q1
dc.identifier.uri	https://doi.org./10.1007/s10586-025-05512-9
dc.identifier.uri	https://hdl.handle.net/20.500.12662/10614
dc.identifier.volume	28
dc.identifier.wos	WOS:001548407400002
dc.identifier.wosquality	Q1
dc.indekslendigikaynak	Web of Science
dc.indekslendigikaynak	Scopus
dc.language.iso	en
dc.publisher	Springer
dc.relation.ispartof	Cluster Computing-The Journal of Networks Software Tools And Applications
dc.relation.publicationcategory	Makale - Uluslararası Hakemli Dergi - Kurum Öğretim Elemanı
dc.rights	info:eu-repo/semantics/openAccess
dc.snmz	KA_WoS_20260128
dc.subject	Data representation
dc.subject	Data visualization
dc.subject	Classification
dc.subject	Error metrics
dc.subject	Overplotting
dc.title	Comprehensive evaluation of data preprocessing and visualization techniques for enhanced classification and sampling
dc.type	Article

Koleksiyon

WoS İndeksli Yayınlar Koleksiyonu
Scopus İndeksli Yayınlar Koleksiyonu

Comprehensive evaluation of data preprocessing and visualization techniques for enhanced classification and sampling

Dosyalar

Koleksiyon