Yapay Zekâ modellerinin en büyük veri kaynağı Reddit

Büyük dil modelleri (LLM) en fazla veriyi Reddit’ten alırken, onu sırasıyla Wikipedia, YouTube ve Google takip ediyor. Yapay zekâ eğitimi amacıyla Reddit platformu ile Google ve OpenAI arasında veri paylaşımı anlaşmaları da bulunuyor.

Aralarında ChatGPT’nin de yer aldığı büyük dil modelleri, sorgulara verdikleri yanıtlarda en çok alıntıyı %40 oranıyla Reddit sosyal medya platformundan yapıyor. ChatGPT’nin ortaya çıkışıyla gündeme gelen büyük dil modelleri, daha sonra Gemini, DeepSeek, Llama ve Grok gibi farklı versiyonların piyasaya sürülmesiyle birlikte günlük yaşamın ayrılmaz bir parçası haline geldi.

Büyük dil modellerinin yetenekleri dünya çapında ses getirirken, bu modellerin beslendikleri kaynaklar da uzun süredir tartışmaların odağında yer alıyor. AA muhabirinin derlediği bilgilere göre, aralarında ChatGPT’nin de bulunduğu birçok dil modeli, cevaplarını üretirken kamuya açık internet sitelerinden yararlanıyor.

Reddit yüzde 40 ile zirvede

Online istatistik portalı Statista, yapay zekâ dil modellerinin hangi kaynaklardan ne oranda yararlandığını araştırdı. Statista’nın haziran ayında yayımladığı verilere göre, 2025’in ilk çeyreğinde büyük dil modelleri tarafından en çok alıntılanan web sitesi %40,11 ile reddit.com oldu.

Uzmanlar, yapay zekânın belirli konulara ilişkin gerçek kullanıcı tartışmalarının bulunduğu Reddit platformundan sıkça alıntı yapmasının, geliştiricilerin resmî bilgilerden çok doğal insan diyaloglarını önceliklendirdiğini gösterdiğini belirtiyor.

Reddit’in ardından %26,3 ile “internet ansiklopedisi” Wikipedia ikinci sırada yer aldı. Düzenlenmiş içerikleriyle öne çıkan Wikipedia, herhangi bir editoryal süzgeçten geçmeyen Reddit verilerine göre oldukça geride kalmış görünüyor.

Aynı araştırmada, dil modellerinin en çok atıfta bulunduğu diğer kaynaklar arasında %23,5 ile YouTube, %23,2 ile Google, %21 ile Yelp, %19,9 ile Facebook, %18,7 ile Amazon, %12,4 ile Tripadvisor ve %11,2 ile hem Mapbox hem OpenStreetMap yer aldı.

Google ve OpenAI, Reddit verileriyle yapay zekâyı eğitiyor

Yapay zekâ modellerinin eğitimi için teknoloji şirketleri ile sosyal medya platformları arasında çeşitli iş birlikleri yapılıyor. 2024 yılında Google ile Reddit arasında imzalanan anlaşma kapsamında, Google’ın yapay zekâ sistemleri artık Reddit verileriyle de besleniyor.

Reuters’ın haberine göre, anlaşma kapsamında Google, Reddit’e yıllık 60 milyon dolar ödeme yapacak. Aynı haber ajansının aktardığına göre, Reddit ile OpenAI arasında da ChatGPT’nin eğitimi için veri paylaşımı anlaşmasıbulunuyor.

Bu anlaşmalarla birlikte, günümüz yapay zekâ modellerinin yanıtlarında görülen Reddit etkisi daha da güçlenmiş durumda.

Önceki
Önceki

Gazimağusa II. Kitap ve Üretim Festivali 7-9 Kasım tarihleri arasında yapılacak

Sonraki
Sonraki

DAÜ’de “Bağışınız umut, iziniz yaşam olsun” temasıyla organ bağışı paneli düzenleniyor