İnsan veya makine tarafından yazılan metinlerin doğal dil işleme yöntemleri ile tespiti
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
Bu çalışma, insan ve yapay zekâ tarafından yazılmış metinlerin ayrımını yapmayı amaçlayan, doğal dil işleme (NLP) teknikleri ve makine öğrenmesi modellerine dayalı bir yöntem geliştirmeyi hedeflemiştir. Araştırmada, farklı kaynaklardan elde edilen insan ve yapay zekâ üretimi metinler kullanılmış, bu metinler üzerinde kapsamlı veri işleme adımları gerçekleştirilmiştir. İlk olarak, metinler ön işleme sürecine tabi tutulmuş, gereksiz kelimeler ve semboller temizlenmiş, ardından metinler tokenize edilerek Word2Vec algoritması ile kelime vektörlerine dönüştürülmüştür. Bu süreçte, elde edilen vektörler, insan ve makine yazımı metinler arasındaki farkları sınıflandırmak amacıyla SVM ve LSTM modelleriyle işlenmiştir. Model performansını artırmak için genetik algoritmalar gibi sezgisel yöntemlerle en etkili özellikler seçilmiş, bu sayede işlem maliyeti azaltılarak sınıflandırma doğruluğu optimize edilmiştir. Geliştirilen hibrit model, başlangıçta kullanılan tüm özellikleri daha etkili bir alt kümeye indirgemiş ve yeniden eğitilmiştir. Sonuç olarak, çalışma doğruluk oranı, ROC eğrisi ve precision-recall analizleri gibi performans ölçümleri üzerinden yüksek başarı elde etmiş ve geliştirilen yöntemlerin etkinliğini ortaya koymuştur. Bu araştırma, insan ve yapay zekâ yazımı metinlerin tespiti için ileri düzey doğal dil işleme tekniklerinin ve makine öğrenmesi modellerinin etkili bir şekilde uygulanabileceğini göstermiştir. Elde edilen bulgular, bu alandaki gelecekteki çalışmalar için değerli bir kaynak ve referans oluşturmaktadır.
This study aims to develop a method based on natural language processing (NLP) techniques and machine learning models to distinguish between human-written and AI-generated texts. The research utilized datasets consisting of human and AI-generated texts obtained from various sources and implemented comprehensive data processing steps. Initially, the texts underwent preprocessing, where irrelevant words and symbols were removed, and the texts were tokenized and converted into word vectors using the Word2Vec algorithm. The resulting vectors were analyzed using SVM and LSTM models to classify the differences between human-written and machine-generated texts. To enhance model performance, heuristic methods such as genetic algorithms were employed for feature selection, allowing for the reduction of computational costs while optimizing classification accuracy. The developed hybrid model reduced the initial feature set to a more effective subset and was retrained accordingly. As a result, the study achieved high performance in terms of accuracy, ROC curves, and precision-recall analyses, demonstrating the effectiveness of the proposed methods. This research highlights the potential of advanced natural language processing techniques and machine learning models in detecting human and AI-generated texts. The findings provide valuable insights and a solid foundation for future studies in this domain.












