Effects of Binary Similarity Measures on Top-N Recommendations
Özet
Shopping over the Internet through several e-commerce sites is receiving increasing attention. Customers want to purchase those products that they might like without wasting time and/or money. To help their customers, many online companies provide top-N recommendations by means of recommender systems. Similarity measures used to find out the most similar entities might affect the overall performance of top-N predictions. Although there are various binary ratings-based similarity metrics, their effects on accuracy and online efficiency of top-N recommendations have not been deeply studied.
In this study, we investigate seven well-known binary ratings-based similarity metrics in terms of both preciseness and efficiency while providing top-N recommendations. To compare them with respect to accuracy and competence, we perform several experiments based on two well-known real data sets. We modify top-N recommendation algorithm in such a way so that the most similar users’ data are involved in recommendation process. We also study how varying controlling parameters affect overall performance with different similarity metrics. We analyze our empirical results and provide some suggestions. İnternet üzerinden sanal firmalar aracılığıyla alışveriş yapmak artan ilgi görmektedir. Müşteriler beğenebilecekleri ürünleri zaman ve/veya paralarını boşa harcamadan satın almak isterler. Müşterilerine bu süreçte yardımcı olmak için birçok sanal şirket öneri sistemlerinden yararlanıp müşterilerine en-iyi-N önerileri sunmaktadır. En benzer varlıkları belirlemede kullanılan benzerlik ölçütleri en-iyi-N önerileri hizmetinin genel performansını etkileyebilir. İkili değerler üzerinde işlem yapan birçok benzerlik ölçütü bulunmasına rağmen bunların en-iyi-N önerilerinin doğruluğu ve çevrimiçi performansı üzerindeki etkisi detaylı biçimde çalışılmamıştır.
Bu çalışmada iyi bilinen yedi adet ikili oy-tabanlı benzerlik ölçütü en-iyi-N önerileri için hem doğruluk hem de çevrimiçi performans kriterleri bakımından irdelendi. Bu ölçütleri doğruluk ve verimlilik açısından karşılaştırabilmek için iyi bilinen iki gerçek veri seti üzerinde birçok deneyler yapıldı. Ayrıca en-iyi-N öneri algoritması en benzer kullanıcıların verisi öneri üretilirken kullanılacak şekilde değiştirildi. Değişen kontrol parametrelerinin performansa olan etkisi araştırıldı. Deneysel sonuçlar doğruluk ve performans açısından analiz edilerek bazı öneriler sunuldu.