Makine öğrenmesi yöntemleri ile twıtter verileri üzerinde duygu analizi ve tahminlemesi

Küçük Resim Yok

Tarih

2025

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

İstanbul Beykent Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Bu çalışmada, metin tabanlı veriler üzerinde duygu analizi gerçekleştirerek makine öğrenmesi algoritmaları ile tahminleme yapabilen bir uygulama geliştirilmiştir. Uygulama Phyton programlama diliyle geliştirilmiştir. Çalışmada Kaggle platformundan elde edilen ve İngilizce tweetlerden oluşan büyük bir veri setinden rastgele fakat homojen seçilen 10.000 veri kullanılmıştır. Bu verilerin %70'i eğitim, %30'u test amacıyla ayrılmış ve sadece pozitif ve negatif duygu etiketine sahip örnekler modele dahil edilmiştir. Veri ön işleme sürecinde URL, özel karakter, emoji ve gereksiz kelimeler temizlenmiş, ardından kelimeler köklerine indirgenmiştir. Temizlenen veriler TF-IDF yöntemiyle sayısal vektörlere dönüştürülmüş ve n-gram teknikleriyle yapılandırılmıştır. SVM, Random Forest ve Naive Bayes algoritmaları tekil olarak uygulanmış, ayrıca PCA, Kmeans ve Ki-Kare gibi yöntemlerle hibrit modeller geliştirilmiştir. GridSearchCV yöntemi ile en uygun parametreler belirlenerek toplamda 9 farklı model oluşturulmuştur. Model performansları karşılaştırıldığında, hibrit modellerin tekil modellere kıyasla daha yüksek doğruluk oranları sağladığı görülmüştür. Elde edilen sonuçlar, metin madenciliği ve duygu analizi çalışmalarında makine öğrenmesi algoritmalarının etkinliğini göstermiştir. Bu çalışma, farklı modelleme stratejileri sunarak gelecekte yapılacak çalışmalara katkı sağlamayı amaçlamıştır.

In this study, an application capable of performing sentiment analysis on text-based data and making predictions using machine learning algorithms was developed. The application was implemented using the Python programming language. A randomly but homogeneously selected subset of 10,000 data points was used from a large dataset of English tweets obtained from the Kaggle platform. Of these data, 70% were allocated for training and 30% for testing, including only examples labeled with positive and negative sentiments. During the data preprocessing stage, URLs, special characters, emojis, and unnecessary words were removed, and words were reduced to their root forms. The cleaned data were converted into numerical vectors using the TF-IDF method and structured with n-gram techniques. The algorithms SVM, Random Forest, and Naive Bayes were applied individually, and hybrid models were also developed using methods such as PCA, Kmeans, and Chi-Squared. By utilizing the GridSearchCV method, the optimal parameters were determined, resulting in the creation of a total of nine different models. When the model performances were compared, it was observed that the hybrid models achieved higher accuracy rates compared to the individual models. The results demonstrated the effectiveness of machine learning algorithms in text mining and sentiment analysis. This study aims to contribute to future research by presenting various modeling strategies.

Açıklama

Anahtar Kelimeler

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Koleksiyon