News ınformatıon retrıeval over albanıan language documents
Özet
Bu araştırmada Arnavutça Dilini ve toplumun gelişmesi için belirli bir dilde bilgi edinme ve sistem uyarlamalarına erişme ilkeleri incelenmiştir. Serbest metin aramalarının dil kullanımına bağlı olduğu bilinmektedir. Sonuç olarak, Standart Analizör’ün içine Arnavutça Dilinin bağlaçları eklenmiş ve standart analizörde değişiklik yapılmıştır. Bu bağlaçlar eklendikten sonra, tam metin indeksleme imkanı sunan Lucene adlı açık kaynak kodlu bir metin kütüphanesi kullanılarak veriler indekslenmiştir. Lucene kullanılarak değişiklik yapılmış standart analizörün üç farklı analizörle karşılaştırılması yapılmıştır. Verileri indekslemek için Arnavutça konuşulan üç farklı ülkedeki çok okunan beş farklı gazeteden elli farklı konuyu içeren ve belirli bir zaman aralığında toplanan verilerle test edilmiştir. Toplanmış verilerden edilen sonuçlara göre her bir analizör doğruluk düzeyine göre sıralanmış ve değerlendirilmiştir. Arnavutça dökümanlardan elde edilen verilere dayanarak çıkarılan sonuclara göre, bu dildeki bağlaçlar eklendiğinde sistemin daha iyi sonuç verdiği ve Arnavutça verilerini diğer dillerle karşılaştırarak elde ettiğimiz verilere göre İtalyan analizörün en iyi performansı gösterdiği sonucuna varılmıştır. Bu araştırmayla ilgili veri kümesi, başlıklar ve diğer tüm ilgili konulara https://github.com/berruqazimi/InformationRetrivealInAlbanian adresinden erişilebilir.
Bağlantı
https://hdl.handle.net/11421/4404
Koleksiyonlar
- Tez Koleksiyonu [102]