Loading…

Döküman dili tanıma için içerik bağımsız yeni bir yaklaşım: Açı Örüntüler

Metin madenciliğinde dil tanıma (DT), bir belgenin veya bir kısmının yazıldığı doğal dili algılama çalışmasıdır. Bu çalışmada, karakterlerin UTF-8 değerleri arasında kalan açı bilgisini kullanan metinden yeni bir dil tanıma yaklaşımı önerilmiştir. Önerilen açı yöntemi metinlerden öznitelik çıkarımı...

Full description

Saved in:
Bibliographic Details
Published in:Gazi Üniversitesi Mühendislik Mimarlık Fakültesi dergisi 2022-02, Vol.37 (3), p.1277-1292
Main Authors: NOYAN, Tuba, KUNCAN, Fatma, TEKİN, Ramazan, KAYA, Yılmaz
Format: Article
Language:English
Citations: Items that this one cites
Items that cite this one
Online Access:Get full text
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:Metin madenciliğinde dil tanıma (DT), bir belgenin veya bir kısmının yazıldığı doğal dili algılama çalışmasıdır. Bu çalışmada, karakterlerin UTF-8 değerleri arasında kalan açı bilgisini kullanan metinden yeni bir dil tanıma yaklaşımı önerilmiştir. Önerilen açı yöntemi metinlerden öznitelik çıkarımı için kullanılmıştır. Açı örüntüler yöntemi istatistiksel bir yaklaşımdır. Önerilen yaklaşımı test etmek amacıyla çeşitli şekillerde oluşturulan dört veri setinin kullanılması kararlaştırılmıştır. Elde edilen öznitelikler Rastsal Orman (RO, RF, Random Forest), Destek Vektör Makinesi (DVM, SVM, Support Vector Machine), Liner Diskriminant Analiz (LDA, Linear Discriminant Analysis), Naive Bayes (NB) ve k-en yakın komşu (Knn, k-nearest neighbors) olmak üzere farklı sınıflandırma yöntemleri kullanılmıştır. Dört farklı veri seti kümesinden belirlenen DT başarım sonuçları sırası ile %96,81, %99,39, %93,31 ve %98,60 olarak gözlenmiştir. Yapılan çalışma sonucunda ulaşılan başarım sonuçlarına göre önerilen açı örüntüler yönteminin DT uygulamasında önemli ayırt edici bilgiler verdiği belirlenmiştir. Language identification (LI) in text mining is the study of natural language perception in which a document or a part of it is written. In this study, a new language identification approach from text using the angle information between the UTF-8 values of the characters is proposed. The proposed angle method is used for feature extraction from texts. Angle patterns method is a statistical approach. It was decided to use four data sets created in various ways to test the proposed approach. The obtained features are used with different classification methods such as RF( Random Forest), SVM (Support Vector Machine), LDA (Linear Discriminant Analysis), NB (Naive Bayes) and Knn (k-nearest neighbor). LI performance results determined from four different data set sets were observed as 96.81%, 99.39%, 93.31% and 98.60%, respectively. According to the success results obtained as a result of the study, it was determined that the proposed angle patterns method gave important distinctive information in LI application.
ISSN:1300-1884
DOI:10.17341/gazimmfd.844700