İnsan veya makine tarafından yazılan metinlerin doğal dil işleme yöntemleri ile tespiti

Küçük Resim Yok

Tarih

2025

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

İstanbul Beykent Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Bu çalışma, insan ve yapay zekâ tarafından yazılmış metinlerin ayrımını yapmayı amaçlayan, doğal dil işleme (NLP) teknikleri ve makine öğrenmesi modellerine dayalı bir yöntem geliştirmeyi hedeflemiştir. Araştırmada, farklı kaynaklardan elde edilen insan ve yapay zekâ üretimi metinler kullanılmış, bu metinler üzerinde kapsamlı veri işleme adımları gerçekleştirilmiştir. İlk olarak, metinler ön işleme sürecine tabi tutulmuş, gereksiz kelimeler ve semboller temizlenmiş, ardından metinler tokenize edilerek Word2Vec algoritması ile kelime vektörlerine dönüştürülmüştür. Bu süreçte, elde edilen vektörler, insan ve makine yazımı metinler arasındaki farkları sınıflandırmak amacıyla SVM ve LSTM modelleriyle işlenmiştir. Model performansını artırmak için genetik algoritmalar gibi sezgisel yöntemlerle en etkili özellikler seçilmiş, bu sayede işlem maliyeti azaltılarak sınıflandırma doğruluğu optimize edilmiştir. Geliştirilen hibrit model, başlangıçta kullanılan tüm özellikleri daha etkili bir alt kümeye indirgemiş ve yeniden eğitilmiştir. Sonuç olarak, çalışma doğruluk oranı, ROC eğrisi ve precision-recall analizleri gibi performans ölçümleri üzerinden yüksek başarı elde etmiş ve geliştirilen yöntemlerin etkinliğini ortaya koymuştur. Bu araştırma, insan ve yapay zekâ yazımı metinlerin tespiti için ileri düzey doğal dil işleme tekniklerinin ve makine öğrenmesi modellerinin etkili bir şekilde uygulanabileceğini göstermiştir. Elde edilen bulgular, bu alandaki gelecekteki çalışmalar için değerli bir kaynak ve referans oluşturmaktadır.

This study aims to develop a method based on natural language processing (NLP) techniques and machine learning models to distinguish between human-written and AI-generated texts. The research utilized datasets consisting of human and AI-generated texts obtained from various sources and implemented comprehensive data processing steps. Initially, the texts underwent preprocessing, where irrelevant words and symbols were removed, and the texts were tokenized and converted into word vectors using the Word2Vec algorithm. The resulting vectors were analyzed using SVM and LSTM models to classify the differences between human-written and machine-generated texts. To enhance model performance, heuristic methods such as genetic algorithms were employed for feature selection, allowing for the reduction of computational costs while optimizing classification accuracy. The developed hybrid model reduced the initial feature set to a more effective subset and was retrained accordingly. As a result, the study achieved high performance in terms of accuracy, ROC curves, and precision-recall analyses, demonstrating the effectiveness of the proposed methods. This research highlights the potential of advanced natural language processing techniques and machine learning models in detecting human and AI-generated texts. The findings provide valuable insights and a solid foundation for future studies in this domain.

Açıklama

Anahtar Kelimeler

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Koleksiyon