Teknoloji
Moderator
Meta'nın Temel Yapay Zeka Araştırmaları (FAIR) ekibi, Omnilingual ASR'ı tanıttı. Omnilingual ASR, 1600'den fazla konuşulan dili yazıya dönüştürebilen otomatik konuşma tanıma sistemi olarak karşımıza çıkıyor. Omnilingual ASR ailesi, 300 milyon parametreli hafif bir sürümden 7 milyar parametreli bir sürüme kadar çeşitli modeller içeriyor. Tüm modeller FAIR'ın PyTorch tabanlı fairseq2 framework'üne dayalı. Konuşulan dili yazılı metne dönüştürmek için eğitilen modeller, sesli asistanlar, transkripsiyon araçları, altyazılar, sözlü arşiv dijitalleştirme ve kaynakları kısıtlı diller için erişilebilirlik özellikleri gibi uygulamaları destekliyor.
Aslında şimdiye kadar, pek çok konuşma tanıma aracının, bol miktarda transkripsiyonlu ses kaydı bulunan yüzlerce dile odaklandığını gördük. Örneğin, bu alanda popülerliğiyle öne çıkan ve ASR yeteneklerine sahip olan Whisper 99 dili desteklemekte. Kısacası dünya çapında konuşulan 7 binden fazla dilin yaklaşık olarak binlercesi yapay zeka desteğinden mahrum kalıyor. Omnilingual ASR ise tam olarak bu boşluğu doldurmak için geliştirildi.
Meta'nın belirttiğine göre Omnilingual ASR ile desteklenen 1600 dilden 500'ü, daha önce hiçbir yapay zeka sistemi tarafından desteklenmedi. FAIR'in aktardıklarına göre; bu sürüm ile Omnilingual ASR, küresel dil engellerini aşmaya yardımcı olabilecek evrensel bir transkripsiyon sistemine doğru atılmış bir adım.
Şirketin paylaştığı bilgilere göre; Omnilingual ASR, test edilen 1600 dilin yüzde 78'inde 10'un altında karakter hata oranı sunuyor. En az on saatlik eğitim sesine sahip dillerin yüzde 95'i bu hedefi tuttururken, on saatten az ses kaydına sahip düşük kaynaklı” dillerin bile yüzde 36'sı 10 karakter hata oranı eşiğinin altında kaldı.
Omnilingual ASR'nin bağlam içi öğrenmeyi kullanan “Kendi Dilinizi Getirin” seçeneği sayesinde kullanıcılar birkaç eşleştirilmiş ses ve metin örneği sağlayarak yeni diller ekleyebiliyor. Sistem bu örneklerden doğrudan öğreniyor. Böylece yeniden eğitim sürecine veya ağır bilgi işlem kaynaklarına gerek kalmıyor. Meta'nın belirttiğine göre bu yaklaşım, teorik olarak Omnilingual ASR'ı 5 bin 400'den fazla dile genişletebilir.
Açık kaynak sürümü ve model seçenekleri Meta, Omnilingual ASR'ı açık kaynak olarak Apache 2.0 lisansı altında yayınladı. Araştırmacılar ve geliştiriciler modeller serbestçe kullanabilir, değiştirebilir ve geliştirebilir. Üstelik buna ticari kullanım da dahil. Dileyenler ürünün demosunu deneyimleyebilir.
Buna ek olarak Meta, 350 az temsil edilen dilde transkripsiyonlanmış konuşmalardan oluşan büyük bir veri seti olan Omnilingual ASR Corpus'u da yayınladı. Bu veriler, Creative Commons (CC-BY) lisansı altında sunuluyor. Böylece geliştiricilerin ve araştırmacıların belirli yerel ihtiyaçlara yönelik konuşma tanıma modelleri oluşturmasına veya uyarlamasına yardımcı oluyor.
Aslında şimdiye kadar, pek çok konuşma tanıma aracının, bol miktarda transkripsiyonlu ses kaydı bulunan yüzlerce dile odaklandığını gördük. Örneğin, bu alanda popülerliğiyle öne çıkan ve ASR yeteneklerine sahip olan Whisper 99 dili desteklemekte. Kısacası dünya çapında konuşulan 7 binden fazla dilin yaklaşık olarak binlercesi yapay zeka desteğinden mahrum kalıyor. Omnilingual ASR ise tam olarak bu boşluğu doldurmak için geliştirildi.
Meta'nın belirttiğine göre Omnilingual ASR ile desteklenen 1600 dilden 500'ü, daha önce hiçbir yapay zeka sistemi tarafından desteklenmedi. FAIR'in aktardıklarına göre; bu sürüm ile Omnilingual ASR, küresel dil engellerini aşmaya yardımcı olabilecek evrensel bir transkripsiyon sistemine doğru atılmış bir adım.
Şirketin paylaştığı bilgilere göre; Omnilingual ASR, test edilen 1600 dilin yüzde 78'inde 10'un altında karakter hata oranı sunuyor. En az on saatlik eğitim sesine sahip dillerin yüzde 95'i bu hedefi tuttururken, on saatten az ses kaydına sahip düşük kaynaklı” dillerin bile yüzde 36'sı 10 karakter hata oranı eşiğinin altında kaldı.
Omnilingual ASR'nin bağlam içi öğrenmeyi kullanan “Kendi Dilinizi Getirin” seçeneği sayesinde kullanıcılar birkaç eşleştirilmiş ses ve metin örneği sağlayarak yeni diller ekleyebiliyor. Sistem bu örneklerden doğrudan öğreniyor. Böylece yeniden eğitim sürecine veya ağır bilgi işlem kaynaklarına gerek kalmıyor. Meta'nın belirttiğine göre bu yaklaşım, teorik olarak Omnilingual ASR'ı 5 bin 400'den fazla dile genişletebilir.
Açık kaynak sürümü ve model seçenekleri Meta, Omnilingual ASR'ı açık kaynak olarak Apache 2.0 lisansı altında yayınladı. Araştırmacılar ve geliştiriciler modeller serbestçe kullanabilir, değiştirebilir ve geliştirebilir. Üstelik buna ticari kullanım da dahil. Dileyenler ürünün demosunu deneyimleyebilir.
Buna ek olarak Meta, 350 az temsil edilen dilde transkripsiyonlanmış konuşmalardan oluşan büyük bir veri seti olan Omnilingual ASR Corpus'u da yayınladı. Bu veriler, Creative Commons (CC-BY) lisansı altında sunuluyor. Böylece geliştiricilerin ve araştırmacıların belirli yerel ihtiyaçlara yönelik konuşma tanıma modelleri oluşturmasına veya uyarlamasına yardımcı oluyor.