Türkiye ve Avrupa Birliği bayrakları

Bu proje Avrupa Birliği tarafından finanse edilmiştir.

Veriye dayalı dil teknolojileri

Dijital devrim kapımızda ve Yapay Zeka (AI) konuda önemli bir teknolojik kolaylaştırıcı. İnsanlığını gelişimi ve toplumsal kapsayıcılığın önündeki mevcut engelleri yıkmak için bir dizi yeni fırsat sunuyor. Yapay Zeka tarafından beslenen alanlardan biri de dil teknolojileri. Dijital asistanlar aracılığıyla telefonlarımızla iletişim kurmayı, web sitelerini ve belgeleri birkaç tıkla tercüme etmeyi, otomatik altyazı yerleştirme ile videoların erişilebilirliğini artırmayı mümkün kılan da yine dil teknolojileri.

Tüm bunların arkasındaki ana motor, Doğal Dil İşleme (NLP) alanındaki ilerlemeler. Peki NLP ne içeriyor? İşte bu alanın kapsamına giren temel teknolojilerin bir listesi:

Metin tabanlı:

  • Makine çevirisi (machine translation)

  • Bilgi çekme (information retrieval)

  • Bilgi çıkarma (information extraction)

  • Duygu analizi (sentiment analysis)

  • Soru cevaplama (question answering)

  • Otomatik Metin özetleme (automatic summarization)

  • İsim verilmiş varlık tanıma (named-entity recognition)

Konuşma tabanlı:

  • Otomatik konuşma tanıma (automatic speech recognition)

  • Metin-konuşma sentezi (text-to-speech synthesis)

Bu teknolojilerin devrim niteliğindeki yönü, veriye dayalı olmalarıdır. Veriye dayalı olma, bu araçlarla oluşturulan zekanın büyük hacimli bilgilerden veya daha basit ifadeyle verilerden toplandığı anlamına gelir. Örneğin, makine çevirisinde, motor, insan tarafından çevrilmiş belgeler ve cümleler toplamına bakarak bir dilden diğerine çeviriyi “modeller”. Benzer şekilde bir duygu analizcisi, insanlar tarafından iyi veya kötü bir duygu olarak etiketlenen binlerce tweet’ten yola çıkarak, bir tweet’in bir şirket hakkında iyi veya kötü bir şey söyleyip söylemediğini nasıl etiketleyeceğini öğrenir.

Bu teknolojileri bazı diller için erişilebilir kılarken diğerleri için erişilmez kılan, işte verilere olan bu bağımlılıktır. Bir dil için mevcut kaynaklar, o dil için uygulama geliştirme olasılığını doğrudan etkiler. Metinsel verilerin en büyük kaynağı internet olduğundan ve internet birkaç dilin hakimiyetinde olduğundan, bu teknolojiler İngilizce, İspanyolca, Çince, Arapça gibi bir avuç baskın dile odaklanma eğilimindedir.

Microsoft Research Labs India tarafından hazırlanan aşağıdaki diyagram, diller arasındaki bu “güç yasası” tarafından yaratılan hiyerarşiyi göstermektedir.

Dil teknolojisilerinin, araçlarının ve kaynaklarının mevcudiyetine göre dillerin sınıflandırılması

Dil teknolojisilerinin, araçlarının ve kaynaklarının mevcudiyetine göre dillerin sınıflandırılması

Makine çevirisi (machine translation)

Makine Çevirisi (MT), bir dildeki bir sembol dizisinin başka bir dilde bir sembol dizisine otomatik olarak dönüştürülmesi olarak tanımlanır. Yıllar içinde, kural bazlı yaklaşımlardan istatistiksel yaklaşımlara doğru evrilmiştir. Bu yaklaşım çeviriler arasındaki alt ifadeler arasındaki eşleme olasılıklarını modeller. Bu olasılıklar, ilgili dillerde (kaynak ve hedef diller olarak adlandırılır) cümle hizalı çevirilerin bulunduğu paralel metinlerden istatistiksel bir şekilde öğrenilir. Aşağıdaki şema, BM Parlamentosu’nda yapılan çevirileri kullanarak İngilizce’deki “sure” kelimesinin İspanyolca’ya çevrilmesinin modellenmesini göstermektedir.

Paralel verilerden çeviri istatistiklerinin çıkarılması

Paralel verilerden çeviri istatistiklerinin çıkarılması

Google Translate ve DeepL gibi makine çevirisi hizmetleri, son yıllarda çevirmenler ve çevirmen olmayan insanlar için başvurulan araçlar haline geldi. Bu büyük ölçüde yapay zeka alanında devrim yaratan derin öğrenme tekniklerinin gelişmesinden kaynaklanmaktadır. 2014 yılında tanıtılan bu yeni modelleme yöntemi, önceki modellere göre %50 daha az kelime sırası hatası, %17 daha az sözcük hatası, %19 daha az dil bilgisi hatası yaptı.

Makine çevirisinin kullanım alanları şunlardır:

  1. Benzeşme, belirli bir belgeyi başka bir dilde taklit etme. Bu kullanım, örneğin anlamadığımız bir dilde bir haber sitesini veya teknik makaleyi okumayı sağlar. Bunun %100 doğru bir çeviri olmadığını biliriz, ancak daha fazlası için anafikri verir.

  2. İletişim, örneğin sohbette, turizmde, e-ticarette geçer dil lingua franca ihtiyacını azaltarak bireyler ve kuruluşlar arasındaki iletişimi sağlar.

  3. İzleme, büyük ölçekli çok dilli belgelerdeki bilgilerin izlenmesini sağlar, örn. Twitter’daki uluslararası trendleri keşfetmek.

  4. Yardım, çeviri iş akışlarını iyileştirme, ör. bilgisayar destekli çeviri, post-edit.

MT ayrıca dil öğreniminde önemli bir araç haline geldi. Duke Üniversitesi’nin yakın tarihli bir çalışması üniversite düzeyinde dil öğrenenler arasında, sözlükler ve eş anlamlılar sözlüğü gibi diğer klasik araçların yanı sıra MT’nin kullanımını araştırıyor. İspanyolca kursunda kaydolan öğrencilerin %76’sının, çalışırken Google Translate gibi web tabanlı MT araçlarını kullandığını bildiriyorlar.

Son olarak, MT ayrıca Bird ve Chiang tarafından Machine translation for language preservation (Dil koruma için makine çevirisi) adlı makalelerinde, yok olma tehlikesindeki diller için bir belgeleme ve koruma aracı olarak önerilmiştir. Makalelerinden direk alıntı yaparsak: “… kaynak metinler büyük bir dünya diline çevrildiğinde, dil kullanım dışı kaldıktan sonra bile dil belgelerinin yorumlanabilir olacağını garanti altına almış oluruz. İkincisi, bir dilin hala hayatta olan bir konuşanı makine çevirisi çıktılarındaki hataları tespit ettiğinde, daha fazla kapsama ihtiyaç duyan dilbilgisi ve sözlük alanlarına dair zamanında, daha fazla veri toplamak için hala fırsat varken, bilgi sahibi olmuş oluruz. Çeviri yapma veya düzeltme gibi bu işler, dışarıdan bir dilbilimcinin müdahalesine ihtiyaç duymadan o dili konuşanlar tarafından gerçekleştirilebilir. Ayrıca, oluşturulması pahalı olan ve dilin morfolojik, sözdizimsel ve semantik analizlerinin varlığına bağlı olan ağaç kümeleri (treebank) ve kelime ağları (wordnet) gibi dilsel kaynaklara duyulan ihtiyacın da önüne geçeriz.”

Makine çevirisi geliştirme bu tür verilere dayandığından, bu yenilikçi dil belgeleme yöntemi, çevrilmiş cümle toplama çabasını azaltır. (Bir sonraki bölümde paralel veri hakkında daha fazla bilgi edineceğiz)

Otomatik konuşma tanıma (automatic speech recognition)

Otomatik konuşma tanıma (ASR), konuşmanın, akustik biçimden sözcükler veya harfler gibi bir sembolik biçime dönüştürülmesidir. “Verilen akustik girdi için, tüm olası kelime dizileri arasında en olası kelime dizisi nedir?” sorusunun olasılıksal modellemesidir. Aşağıdaki diyagram bu işlemi göstermektedir. Bir mikrofon tarafından yakalanan konuşma sinyali önce bir dizi akustik özellik vektörüne kodlanır. Ardından, bu vektörlerin kodu, konuşma sinyalinde bulunan dilsel bilgiyi temsil eden kelimelere çözülür.

Otomatik konuşma tanıma, “Verilen akustik girdi için, tüm olası kelime dizileri arasında en olası kelime dizisi nedir?” sorusunu modeller.

Otomatik konuşma tanımanın basit bir diyagramı

Bir dil için ASR sistemi geliştirmek, aşağıdaki veri türlerine bağlıdır:

  1. Birçok konuşmacıdan kısa konuşma ses kayıtlarının toplanması ve bunların yazılı transkripsiyonları

  2. Büyük bir metin derlemi

  3. Fonetik telaffuz sözlüğü (Bu, daha modern teknolojilerde isteğe bağlıdır)

ASR, yine derin öğrenmenin ortaya çıkması sayesinde, son on yılda önemli ölçüde ilerlemiştir. Eylül 2017’de Microsoft, bir konuşmanın deşifresinde insandan daha iyi performans elde edebilecek bir İngilizce konuşma tanıma sistemine dair sonuçlarını açıkladı. Microsoft’un sistemi, günlük konuşmalardan deşifre edilmiş 200 milyon kelimeden oluşan bir veri kümesine dayanıyordu. Bu gelişmeler, sanal asistanların her gün kullanılan bir uygulama, sesli arama ve sesin otomatik transkripsiyonu haline gelmesiyle şimdiden büyük etki yarattı.

Metin-konuşma sentezi

Konuşma sentezi (TTS), bir bilgisayarla, verilen metin girişi için insan benzeri bir konuşmanın üretilmesini içerir. Derin öğrenmenin ortaya çıkmasından önce, TTS’e yönelik iki ana yaklaşım vardı: birleştirici TTS ve parametrik TTS. Birim seçimi olarak da adlandırılan birleştirici TTS, istenen metni sentezlemek için birimler adı verilen önceden kaydedilmiş kısa ses kliplerini birleştirir. Birleştirici TTS, konuşma kalitesi açısından iyi bir performans sağlayabilir ancak kes-birleştir işlemi, doğallıktan yoksun olduğu anlamına gelir. Parametrik TTS, insan konuşma oluşumunu modelleyerek F0 (temel frekans) ve enerji gibi parametrelerin bir kombinasyonu ile konuşma üreten istatistiksel yöntemlere dayanır.

Şu anda, çoğu modern TTS sistemi, derin öğrenme yöntemlerine dayanır. Derin sinir ağları, büyük miktarlarda kaydedilmiş konuşma ve karşılık gelen metin deşifreleri kullanılarak eğitilir. Bu konuşmalar, ASR eğitim verilerinin aksine, genellikle tek bir konuşmacıdan toplanır. Ortaya çıkan TTS sistemi, bu belirli konuşmacının sesini kopyalama becerisine sahiptir.

TTS, ekrandan “okuma”yı mümkün kıldığı için görme engelli veya kısmen gören kişiler için bilgisayarları erişilebilir hale getirmede önemlidir. TTS teknolojisi, çeşitli dillerde herhangi bir yazılı girdiye bağlanabilir, örn. bir çevrimiçi sözlükte kelimelerin otomatik telaffuzu, bir metnin sesli okunması, sesli asistan için arayüz vb.

Tehlike altındaki diller ve azınlık dilleri söz konusu olduğunda, TTS dil öğrenimine ve dil dokümantasyonuna yardımcı olabilir. Söz konusu dili konuşan kişilere erişimi olmayan öğrenciler, bir öğretmenin yardımı olmadan bir cümlenin nasıl telaffuz edildiğini öğrenebilirler. Dilin kalıcı bir kaydıdır, zira o dil için hiç konuşmacı kalmadığı andan sonra bile varlığını sürdürecektir.


_images/logos.png

Bu yayın Avrupa Birliğinin maddi desteği ile hazırlanmıştır. İçerik tamamıyla Col·lectivaT ve SKAD’ın sorumluluğundadır ve Avrupa Birliği’nin görüşlerini yansıtmak zorunda değildir.