Neden her dilde yapay zeka destekli çeviri yapılamıyor?

featured
service
Paylaş

Bu Yazıyı Paylaş

veya linki kopyala

ChatGPT üzere yapay zeka takviyeli araçlar, destekledikleri lisanı biliyorsanız şahane fırsatlar sunuyor.

Ancak Etiyopya’nın başşehri Addis Ababa’da bulunan Ashagari danışmanlık şirketinin kurucusu Mekdes Gebrewold, Amharca lisanında makine çevirisinin imkansız olduğunu söylüyor. DW’ye konuşan Gebrewold, “Google Çeviri üzere araçlar Amharca için düzgün yapılandırılmamış. Bunun yerine profesyonellere para ödüyoruz” diyor.

Mekdes Gebrewold üzere milyarlarca insan, yapay zeka dayanaklı araçlardan anadillerinde yararlanamıyor.

Bu durum sadece ChatGPT üzere üretken yapay zeka dayanaklı araçlar veya Google Çeviri (Translate) üzere çeviri hizmetlerine has değil. Otomatik tamamlama, metin çözümleme, sesli asistanlar ve toplumsal medyadaki içerik kontrolü üzere birçok yapay zeka takviyeli araç, farklı lisanlarda hizmet verme konusunda yetersiz.

Ancak kimi şirketler bunu değiştirmeye çalışıyor.

Yapay zeka dayanaklı araçlar nasıl çalışıyor?

Aslında çağdaş yapay zeka araçları, aldıkları girdiye nazaran en muhtemel karşılığı kestirim ediyor. Gelişmiş otomatik tamamlama araçlarının yaptığı bu kestirimler, yapay zeka mühendislerinin modellerini oluşturmak için kullandıkları “eğitim verilerine” dayanıyor. Dijital içerik koleksiyonlarından oluşan bu eğitim bilgileri çok büyük yer kaplıyor.

Common Crawl, bu eğitim dataları için değerli bir kaynak. Common Crawl, internetteki milyarlarca web sayfasından oluşan bir data kümesi ve açık kaynak olarak erişilebiliyor. Yapay zeka dayanaklı ChatGPT- 3.5 sürümünü eğitmek için kullanılan dataların yaklaşık yüzde 60’ı bu koleksiyondan alınmıştı.

Yapay zeka araçları, kimi lisanlardaki eğitim bilgileri kısıtlı olduğu için farklı lisanlarda tıpkı performansla çalışmıyor. İnternetteki içerikler ağır olarak birkaç lisanda oluşturulduğu için, birçok lisanda yapay zeka eğitim verisi bulmak bir sorun.

Örneğin İngilizce, Common Crawl’daki tüm içeriklerin neredeyse yarısını oluşturuyor.

Öte yandan öbür tüm Afrika, Amerika ve Okyanusya lisanlarıyla birlikte Amharca, Common Crawl bilgilerinin yüzde 0,1’inden azını oluşturuyor. Amharca çok az dijital bilgi üretilen, düşük kaynaklı bir lisan olarak biliniyor. Dünyada milyarlarca insan düşük kaynaklı lisanları konuşuyor. Çok sayıda kişinin konuştuğu Hintçe, Arapça ve Bengalce üzere lisanlar bile düşük kaynaklı lisan olarak görülüyor.

Avrupa lisanları ise Asya ve Afrika lisanlarının birçoklarına kıyasla eğitim datalarında daha fazla içerik sahibi. Örneğin Flemenkçe, Amharca’ya misal biçimde 20 milyondan fazla kişi tarafından anadil olarak konuşuluyor. Lakin Flemenkçe, Common Crawl bilgi setinde Amharca’ya kıyasla neredeyse 700 kat daha fazla yer alıyor. Flemenkçe, Common Crawl bilgi setinde 300 milyondan fazla kişinin anadili Hintçe’den bile yüzlerce kat daha fazla içeriğe sahip.

Ancak bu data eksikliğini gidermenin yolları var.

Silikon Vadisi’ndeki teknoloji devlerinin dışında, dünyanın her yerindeki makine tahsili araştırmacıları, kendi lisanları için yapay zeka takviyeli araçlar geliştiriyor.

Yapay zeka takviyeli araçlarda lisan açığı nasıl kapatılır?

Asmelash Teka Hadgu, Etiyopya’daki Amharca ve Tigrinya lisanlarında makine çevirisi ve konuşma teknolojisi sağlayan bir startup olan Lesan’ın kurucu ortağı. Bu lisanlarda çok büyük ölçüde online kaynak bulunmadığından, Hadgu’nun takımı direkt bu lisanları konuşan topluluklarla çalışıyor ve bilgi toplamanın yaratıcı yollarını buluyor.

DW’ye konuşan Hadgu, “Genellikle kendi lisanlarını seven öğrencilerle çalışıyoruz” diyor. Öğrenciler için Hadgu, “Onlara bu türlü bir şey ürettiğimizi söylediğimizde etkileniyorlar ve katkıda bulunmak istiyorlar. Bu yüzden kendi lisanımızda içerik toplamak için vazifeler belirledik. Onlara yardımcı oluyoruz ve finansal olarak çalışmalarının karşılığını veriyoruz” sözlerini kullanıyor.

Böylesi bir bilgi toplama süreci çok fazla el emeği gerektiriyor. Katkıda bulunan şahıslar, öncelikle sağlam kitaplar yahut gazeteler üzere yüksek kaliteli data kümelerini belirliyor ve akabinde bunları dijitalleştirerek gaye lisanlara çeviriyorlar. Son olarak bu şahıslar, makine tahsili sürecine rehberlik etmek için orjinal ve çevrilmiş versiyonları cümle cümle sıralıyorlar.

Bu formül, Lesan üzere şirketleri, milyarlarca sayfa İngilizce içeriğe sahip araçlara rakip hale getirmez. Lakin diğer avantajlar sağiayabilir. Örneğin Lesan, hem Amharca hem de Tigrinya’da Google Çeviri’den daha yeterli performans gösteriyor.

Asmelash Teka Hadgu, bu durumu “Küçük, dikkatle seçilmiş bilgi kümelerini kullanarak kullanışlı modeller oluşturulabileceğini gösterdik” diye açıklıyor. Hadgu, bu modeller için “Sınırlamalarını ve yeteneklerini anlıyoruz. Bu esnada Microsoft yahut Google çoklukla tüm lisanlar için tek, devasa bir model oluşturuyor, münasebetiyle bu modelin denetlenmesi neredeyse imkansız” diye ekliyor.

Daha fazla lisanın dijital dayanağa gereksinimi var

Lesan bu çalışma yoluna sahip tek şirket değil. Benzeri projeler, dijital ayak izi daha küçük olan lisanlar için bile tüm dünyada muvaffakiyetle uygulanıyor.

Hristiyan bir sivil toplum kuruluşu olan SIL International’ın yürüttüğü global bir lisan veritabanı olan Ethnologue, Amharca’yı “önemli” lisan dayanağına sahip lisanlar ortasında listeliyor. Bu, en azından Amharca’da birtakım makine çeviri araçlarının, yazım kontrolünün ve konuşma işlemenin mevcut olduğu manasına geliyor.

Birçoğunun bir milyonun üzerinde kullanıcısı olan lisanların de ortalarında yer aldığı binlerce lisanda, çok daha az içerik ve daha az dijital araç sunuluyor.

Asmelash Teka Hadgu, yapay zeka konusunda Afrikalı önde gelen isimlerden oluşan bir ağın modülü. Hadgu, Afrika, Avrupa ve Kuzey Amerika’dan bir küme araştırmacının yer aldığı Dağıtılmış Yapay Zeka Araştırma Enstitüsü’nde (DAIR) araştırma vazifelisi. Tıpkı vakitte Hadgu, GanaNLP ve Afrikalı halk kolektifi Masakhane üzere kümelerle da tertipli temas halinde.

Hadgu DW’ye “Afrikalı kurucuların bu teknolojileri sahiplenmesine imkan sağlıyoruz” diyor. Hadgu, “Bu araçlar, bu topluluklardan beşerler tarafından üretiliyor ve hizmet veriyor. Yani mali karşılığı da direkt onlara geri dönecek” sözlerini kullanıyor.

Afrika dışında da dünyanın dört bir yanındaki araştırmacılar Jamaika Patois lisanı, Katalanca, Sudan lisanı ve Maori lisanı üzere öbür lisanları yapay zekaya eklemenin yolları üzerine çalışıyor.

ChatGPT’nin OpenAI’si üzere teknoloji devleri modellerini bâtın ve anlaşılmaz tutarken, global yapay zeka kolektifi Hugging Face üzere teşebbüsler bilgilerini ve yapay zeka modellerini özgürce paylaşıyor. Böylelikle, rastgele bir araştırmacının kendi lisanları için tahlil üretmesini kolaylaştırıyorlar.

Asmelash Teka Hadgu, “Yetenek her yerdedir, fırsat yoktur” diyor. Hadgu, “Diyelim ki Gana’daki bir lisan için en güzel çeşitte makine çevirisi teknolojisini yaratmak istiyorsanız, bunu tutkuyla isteyen ve bunu düzgün yapabilecek bir Ganalı kesinlikle vardır. Buna fırsat sağlamak lazım” diye ekliyor.

Hanna Demissie bu habere Etiyopya’dan katkıda bulundu.

– Bu haber İngilizce’den Türkçe’ye adapte edilmiştir.

0
be_endim
Beğendim
0
_zg_n
Üzgün
0
be_enmedim
Beğenmedim
0
_a_rm_
Şaşırmış
0
vir_sl_
Virüslü
Neden her dilde yapay zeka destekli çeviri yapılamıyor?

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Giriş Yap

Giriş Yap

Hendekwebhaber ayrıcalıklarından yararlanmak için hemen giriş yapın veya hesap oluşturun, üstelik tamamen ücretsiz!