Makine çevirisi

bullvar_katip · 28 Mayıs 2024

küçükresim|İspanyolca metni İngilizceye çeviren bir cep telefonu uygulaması MT kısaltmasıyla da anılan makine çevirisi, metin veya konuşmayı bir dilden diğerine çevirmek için yazılım kullanımını araştıran bilgisayarlı dilbilimin bir alt alanıdır. MT bir dildeki sözcüklerin başka bir dildeki sözcüklerle mekanik olarak yer değiştirmesini gerçekleştirir, ancak bu tek başına nadiren iyi bir çeviri üretir; çünkü hedef dildeki tümceler ve bunların (en yakın) karşılıklarının tanınması gerekir. Bir dildeki tüm kelimelerin başka bir dilde karşılığı yok ve birçok kelimenin birden fazla anlamı vardır. Bu problemi istatistiksel ve nöral tekniklerle çözmek, daha iyi çevirilerle, dilsel tipolojideki farklılıkları ele almaya, deyimlerin çevirisine ve anomalilerin izolasyonuna yol açan hızla büyüyen bir alandır. Mevcut makine çevirisi yazılımı genellikle etki alanına veya mesleğe göre özelleştirmeye izin verir (hava durumu raporları gibi), izin verilen değiştirmelerin kapsamını sınırlayarak çıktıyı iyileştirir. Bu teknik, özellikle resmi veya kalıplaşmış dilin kullanıldığı alanlarda etkilidir. Buradan hükümet belgeleri ve yasal belgelerin makine çevirisinde, konuşma veya daha az standartlaşmış metin çevirisine göre daha kullanılabilir çıktı ürettiği sonucu çıkar. İyi bir çıktı kalitesi, insan müdahalesiyle de elde edilebilir: örneğin, bazı sistemler, eğer kullanıcı metindeki hangi kelimelerin özel adlar olduğunu açık bir şekilde belirlediyse, daha doğru çeviri yapabilir. Bu tekniklerin yardımıyla MT'nin insan çevirmenlere yardımcı olacak bir araç olarak sınırlı durumlarda kullanılabilecek çıktılar üretebilir (örneğin, hava durumu raporları). Makine çevirisinin ilerleme ve potansiyeli tarihi boyunca tartışıldı. 1950'lerden bu yana, başta Yehoshua Bar-Hillel olmak üzere birçok akademisyen yüksek kalitede tam otomatik makine çevirisi elde etme olasılığını sorguladı. Tarih Kökenler Makine çevirisinin kökenleri, olasılık ve istatistik dahil olmak üzere sistemik dil çevirisi için teknikler geliştiren dokuzuncu yüzyılda Arap bir kriptograf olan Al-Kindi'nin çalışmasına kadar izlenebilir. Makine çevirisi fikri daha sonra 17. yüzyılda ortaya çıktı. 1629'da René Descartes, farklı dillerdeki eşdeğer fikirlerin aynı sembolü paylaştığı evrensel bir dil önerdi. Doğal dillerin çevirisinde bilgisayarların kullanılması fikri, 1947 gibi erken bir tarihte İngiltere'deki AD Booth ve aynı yıl Rockefeller Foundation'dan Warren Weaver tarafından önerildi. " Warren Weaver tarafından 1949'da yazılan memorandum, makine çevirisinin ilk günlerinde belki de en etkili tek yayındı." Bunu diğerleri izledi. 1954'te Birkbeck College'da APEXC makinesinde İngilizcenin Fransızcaya ilkel bir çevirisinin bir gösterimi yapıldı. O zamanlar konuyla ilgili popüler dergilerde makaleler yayınlandı (örneğin, Wireless World'ün Eylül 1955 sayısında Cleave ve Zacharov tarafından yazılan bir makale). O dönemde Birkbeck Koleji'nde de öncülük edilen benzer bir uygulama, Braille metinlerini bilgisayarda okuyor ve oluşturuyordu. 1950'ler Yehoshua Bar-Hillel, araştırmalarına MIT'de başladı (1951). Profesör Michael Zarechnak liderliğindeki bir Georgetown Üniversitesi MT araştırma ekibi (1951), 1954'te Georgetown-IBM deney sisteminin halka açık bir gösterimini yaptı. Japonya ve Rusya'da (1955) MT araştırma programları ortaya çıktı ve ilk MT konferansı Londra'da yapıldı (1956). David G. Hays "1957'de bilgisayar destekli dil işleme hakkında yazdı" ve "1955'ten 1968'e kadar Rand'da hesaplamalı dilbilim proje lideriydi." 1960–1975 ABD'de Makine Çevirisi ve bilgisayarlı Dilbilim Derneği (1962) ve Ulusal Bilimler Akademisince Otomatik Dil İşleme Danışma Komitesi'nin (ALPAC) kurulmasıyla (1964) araştırmacılar bu alana katılmaya devam ettiler. Ancak ilerleme gerçekte çok daha yavaştı ve araştırmaların beklentileri karşılamadığını gösteren ALPAC raporundan (1966) sonra, fon büyük ölçüde azaldı. Savunma Araştırma ve Mühendislik Direktörü'nün (DDR&E) 1972 tarihli bir raporuna göre, MT'nin büyük ölçekli uygulanabilirliği, Logos MT sisteminin bu çatışma sırasında askeri kılavuzları Vietnamca'ya çevirmedeki başarısıyla yeniden tesis edildi. Fransız Tekstil Enstitüsü özetleri Fransızca yanında İngilizce, Almanca ve İspanyolca'ya çevirmek için MT'yi kullandı (1970); Brigham Young Üniversitesi, Mormonik metinleri otomatik yolla çevirmek için bir proje başlattı (1971). 1975 ve sonrası 1960'larda "ABD hükümetinin sözleşmeleri kapsamında alana öncülük eden" SYSTRAN, Xerox tarafından teknik kılavuzları çevirmek için kullanıldı (1978). Hesaplama gücü arttıkça ve daha ucuz hale geldikçe, makine çevirisi için istatistiksel modellere 1980'lerin sonlarından başlayarak daha fazla ilgi gösterildi. SYSTRAN'ın ilk uygulama sistemi, 1988 yılında Fransız Posta Servisi'nin Minitel adlı çevrimiçi hizmeti tarafından uygulandı. MT ile aynı olmasa da, Çeviri Belleği teknolojisini ilk geliştiren ve pazarlayan Trados (1984) dahil olmak üzere çeşitli bilgisayar tabanlı çeviri şirketleri de piyasaya sürüldü. Rusça / İngilizce / Almanca-Ukraynaca için ilk ticari MT sistemi Kharkov Devlet Üniversitesi'nde geliştirildi (1991). 1998'de, "29.95 $ gibi bir fiyata" bilgisayarda çalıştırmak üzere "İngilizce ile seçtiğiniz büyük bir Avrupa dili arasında tek yönde çeviri yapmak için program satın alınabilirdi". Web üzerinde MT, SYSTRAN'ın küçük metinlerin ücretsiz çevirisini sunmasıyla başladı (1996) ve ardından bunu günde 500.000 istek toplayan AltaVista Babelfish aracılığıyla sağladı (1997). Web'deki ikinci ücretsiz çeviri hizmeti, Lernout & Hauspie'nin GlobaLink'iydi. Atlantic Magazine 1998'de "Systran'dan Babelfish ve GlobaLink'ten Comprende"nin "Yetkin bir performansla" "Buna güvenme"yi ele aldığını yazdı. Google'da Çeviri Geliştirme bölümünün gelecekte başkanı olan Franz Josef Och, 2003 te DARPA'nın hızlı MT yarışmasını kazandı. Bu süre zarfındaki diğer yenilikler arasında açık kaynaklı istatistiksel MT motoru MOSES (2007), Japonya'da cep telefonları için bir metin/SMS çeviri hizmeti (2008) ve İngilizce, Japonca ve Çince için konuşmadan konuşmaya çeviri işlevine sahip bir cep telefonu yer aldı (2009). 2012'de Google, Google Çeviri'nin kabaca bir günde 1 milyon kitabı dolduracak kadar metin çevirdiğini duyurdu. Çeviri süreci İnsan çevirisi süreci şu şekilde tanımlanabilir: Kaynak metnin anlamının çözülmesi; Ve Bu anlamı hedef dilde yeniden kodlamak. Basit görünen prosedürün arkasında karmaşık bir bilişsel operasyon yatmaktadır. Kaynak metnin tam anlamını çözmek için, onun grameri, semantiği, sözdizimi, deyimleri vb. yanı sıra konuşmacının kültürü hakkında da derinlemesine bilgi gerektirir. Çevirmen, hedef dildeki kodlama için de aynı derinlikte bilgiye ihtiyaç duyar. Makine çevirisindeki zorluk burada yatmaktadır: Bir metni bir kişinin anladığı gibi "anlayacak" ve hedef dilde sanki bir kişi tarafından yazılmış izlenimi veren yeni bir metin nasıl programlanır. Bir 'bilgi tabanı' tarafından desteklenmediği sürece MT, orijinal metnin kusurlu da olsa yalnızca genel bir "özünü" ("ana fikir") alabilir. Bu, toplam doğruluğun vazgeçilmez olduğu durumlar dışında birçok amaç için yeterlidir. Yaklaşımlar sağ|küçükresim|300x300pik| Bernard Vauquois'nın aracı temsilin karşılaştırmalı derinliklerini gösteren piramidi, zirvede diller arası makine çevirisi, ardından aktarım tabanlı ve ardından doğrudan çeviri Makine çevirisinde dil bilgisi kurallarına dayalı bir yöntem kullanıldığında hedef dilin en uygun kelimeleri kaynak dildeki kelimelerin yerini alacaktır. Makine çevirisinin başarısı için öncelikle doğal dili anlama sorununun çözülmesi gerektiği sıklıkla tartışılır. Genel olarak, "kural tabanlı yöntemler" bir metni ayrıştırır; genellikle hedef dildeki metnin üretildiği aracı, sembolik bir temsil oluşturur. Aracı temsilin doğasına göre, diller arası makine çevirisi veya aktarıma dayalı makine çevirisi olarak bir yaklaşım tanımlanmaktadır. Bu yöntemler, morfolojik, sözdizimsel ve semantik bilgileri ve büyük kural kümelerini içeren kapsamlı sözlükler gerektirir. Yeterince veri yüklendiğinde, makine çevirisi programları genellikle yeterince iyi çalışır. Zorluk, belirli bir yöntemi desteklemek için doğru türden yeterli veriyi elde etmektir. Örneğin, istatistiksel yöntemlerin çalışması için gereken çok dilli büyük veri külliyatı, dilbilgisine dayalı yöntemler için gerekli değil, ancak yöntemin dikkatli bir şekilde tasarlaması için yetenekli bir dilbilimciye ihtiyaç vardır. Yakından ilişkili diller arasında çeviri yapmak için kural tabanlı makine çevirisi kullanılabilir. Kural tabanlı Kural tabanlı makine çevirisi (RBMT) aktarım tabanlı, diller arası ve sözlük tabanlı makine çevirisi paradigmalarını içerir. Bu tür çoğunlukla sözlük ve gramer programlarının oluşturulmasında kullanılır. Diğer yöntemlerden farklı olarak RBMT, her iki dilin morfolojik ve sözdizim kuralları ve anlamsal analizi hakkında daha fazla bilgi içerir. Temel yaklaşım, giriş cümlesinin yapısını, kaynak dil için bir ayrıştırıcı ve bir çözümleyici, hedef dil için bir üreteç ve gerçek çeviri için bir aktarım sözlüğü kullanarak çıktı cümlesinin yapısıyla ilişkilendirmeyi içerir. RBMT'nin en büyük dezavantajı, her şeyin açık hale getirilmesi gerektiğidir: RBMT'nin en büyük çöküşü, her şeyin açık hale getirilmesi gerektiğidir: imla varyasyonu ve hatalı girdi, bununla başa çıkmak için kaynak dil analizörünün bir parçası haline getirilmeli ve tüm belirsizlik örnekleri için sözcüksel seçim kuralları yazılmalıdır. Kendi içinde yeni alanlara uyum sağlamak o kadar da zor değildir, çünkü çekirdek dilbilgisi alanlar arasında aynıdır ve etki alanına özgü ayarlama sözcüksel seçim ayarlamasıyla sınırlıdır.Çekirdek dilbilgisi tüm alanlarda aynı olduğundan ve alana özgü ayarlama sözcüksel seçim ayarlamasıyla sınırlı olduğundan, yeni alanlara uyum sağlamak kendi başına o kadar da zor değildir. Aktarım tabanlı makine çevirisi Aktarım tabanlı makine çevirisi orijinal cümlenin anlamını simüle eden bir ara temsilden çeviri oluşturur. Diller arası makine çevirisin'den farklı olarak çeviride yer alan dil çiftine kısmen bağlıdır. Diller arası Diller arası makine çevirisi, kural tabanlı makine çevirisi yaklaşımlarının bir örneğidir. Bu yaklaşımda tercüme edilecek metin, diller arası dil, yani "dilden bağımsız bir temsile" dönüştürülür. Hedef metin daha sonra interlingua'dan üretilir. Sistemin en büyük avantajlarından biri, çevrilebileceği hedef dil sayısının yüksek olmasıdır. Ancak, ticari düzeyde işlevsel hale getirilen tek diller arası makine çevirisi sistemi, Caterpillar Teknik İngilizcesini (CTE) diğer dillere çevirmek için tasarlanmış KANT sistemidir (Nyberg ve Mitamura, 1992). Sözlük tabanlı Bu tip çeviri, sözlük girişlerine dayalı, sözcüklerin bir sözlük tarafından olduğu gibi çevrileceği anlamına gelir. İstatistiksel İstatistiksel makine çevirisi, Kanada Hansard külliyatı, Kanada parlamentosu İngilizce-Fransızca kaydı ve Avrupa Parlamentosu EUROPARL kaydı gibi iki dilli metin külliyatlarına dayalı istatistiksel yöntemler kullanır. Ancak bu tür derlemler birçok dil çifti için nadirdir. İlk istatistiksel makine çevirisi yazılımı, IBM'den CANDIDE idi. Google, SYSTRAN'ı birkaç yıl kullandıktan sonra Ekim 2007'de istatistiksel bir çeviri yöntemine geçti. 2005 yılında Google, sistemlerini eğitmek için Birleşmiş Milletler materyallerinden yaklaşık 200 milyar kelime kullanarak dahili çeviri yeteneklerini geliştirdi; çeviri doğruluğu iyileştirildi. Google Translate ve benzeri istatistiksel çeviri programları, daha önce insanlar tarafından çevrilmiş yüz milyonlarca belgedeki kalıpları tespit ederek ve bulgulara dayalı olarak akıllı tahminler yaparak çalışır. Genel olarak, belirli bir dilde ne kadar çok insan tarafından tercüme edilmiş belge varsa, çevirinin kaliteli olma olasılığı o kadar yüksektir. METIS II ve PRESEMT gibi İstatistiksel Makine çevirisine yönelik daha yeni yaklaşımlar, minimum korpus boyutu kullanır ve bunun yerine örüntü tanıma yoluyla sözdizimsel yapının türetilmesine odaklanır. Daha fazla geliştirme ile bu, istatistiksel makine çevirisinin tek dilli bir metin külliyatından çalışmasına izin verebilir. SMT'nin en büyük zorluğu, çok miktarda paralel metne bağımlı olması, morfoloji bakımından zengin dillerle (özellikle bu tür dillere çeviri yaparken) sorunları ve tekil hataları düzeltememesidir. Örnek tabanlı Örnek tabanlı makine çevirisi (EBMT) yaklaşımı, 1984 yılında Makoto Nagao tarafından önerildi. Örnek tabanlı makine çevirisi, analoji fikrine dayanır. Bu yaklaşımda, kullanılan derlem zaten çevrilmiş metinleri içeren bir derlemdir. Çevrilecek bir cümle verildiğinde, bu külliyattan benzer alt cümle bileşenleri içeren cümleler seçilir. Benzer cümleler daha sonra orijinal cümlenin alt cümle bileşenlerini hedef dile çevirmek için bir araya getirilir. Hibrit MT Hibrit makine çevirisi (HMT), istatistiksel ve kural tabanlı çevirilerin güçlü yönlerinden yararlanır. Yaklaşımlar farklılıklar gösterebilir: İstatistikler tarafından sonradan işlenmiş kurallar : Çeviriler, kurallara dayalı bir motor kullanılarak gerçekleştirilir, daha sonra çıktıyı ayarlamak/düzeltmek için istatistikler kullanılır. Kurallarla yönlendirilen istatistikler : Kurallar istatistik motorunu yönlendirmek amacıyla önceden kullanıldığı gibi çıktıyı işlemek için de kullanılır. Bu yaklaşım çeviri yaparken çok daha fazla güce, esnekliğe ve kontrole sahiptir. Daha yakın zamanlarda, Nöral MT'nin gelişiyle birlikte, kurallara dayalı, istatistiksel ve sinirsel makine çevirisini birleştiren yeni bir hibrit çeviri sürümü ortaya çıkıyor. Yaklaşım, NMT ve SMT'den yararlanmanın yanı sıra kural kılavuzlu bir iş akışında ön ve son işlemeden yararlanmaya olanak tanır. Dezavantajı, yaklaşımı yalnızca belirli kullanım durumları için uygun kılan karmaşıklıktır. Nöral MT MT'ye derin öğrenme tabanlı bir yaklaşım olan nöral makine çevirisi son yıllarda hızlı bir ilerleme kaydetti ve Google, çeviri hizmetlerinin artık önceki istatistiksel yöntemlerine göre bu teknolojiyi tercih ettiğini duyurdu. Bir Microsoft ekibi, 2018'de WMT-2017'de ("EMNLP 2017 İkinci Makine Çevirisi Konferansı") insan eşitliğine ulaştığını iddia etti. Ancak ulaşılan fikir birliği, iddia edilen insan denkliğinin gerçek olmadığı, tamamen sınırlı alanlara, dil çiftlerine ve belirli test paketlerine dayalı olduğu, yani istatistiksel anlamlılık gücünden yoksun olduğu yönündedir. NMT'nin gerçek insan parite performanslarına ulaşması için hala uzun bir yolculuk var. Deyimsel ifade çevirisini, çok kelimeli ifadeleri ve düşük frekanslı kelimeleri (OOV veya kelime dağarcığı dışı kelime çevirisi olarak da adlandırılır) ele almak için, dil odaklı dilsel özellikler son teknoloji ürünü nöral makine çevirisi (NMT) modellerinde araştırılmıştır. Örneğin, Çince karakter ayrıştırmalarının kök ve vuruşlara NMT'de çok kelimeli ifadeleri çevirmede yardımcı olduğu kanıtlanmıştır. 2022'den itibaren genellikle en iyi makine çevirisi sonuçlarını sağladığı düşünülen DeepL Translator gibi nöral MT araçlarıyla yapılan çeviriler için genellikle yine de bir insan tarafından son düzenleme yapılması gerekiyor. Çevirileri iyileştirmek için potansiyel AI tabanlı teknikler Makine çevirileri için geliştirilmekte olan teknikler şunları içerir: Doğal dil işleme – kaynak metnin semantik olarak anlaşılmasını (ör. anlam, duygu, adlandırma ve bağlamlar) ve ayrıca çeviri sonuçlarını iyileştirmek için gerçek dünyayla ilgili bir veri tabanı aracılığıyla ayarlamalar sağlar. Bir çalışmada, "hedef dildeki cümlelerle birlikte çeviriyi" tamamlamak için bir "anlamsal birim kitaplığı" kullanılmıştır. GPT-3 kullanılarak son düzenleme Büyük sorunlar sağ|küçükresim|250x250pik| Makine çevirisi, " gibi bazı anlaşılmaz ifadeler üretebilir." ( Macrolepiota albuminosa ) "Wikipedia" olarak işleniyor. sağ|küçükresim|333x333pik| Kırık Çince "" Bali, Endonezya'daki makine çevirisinden. Kırık Çince cümle "bir giriş yok" veya "henüz girmedim" gibi bir anlama geliyor. Profesyonel edebi çevirmenler veya insan okuyucular tarafından en son gelişmiş MT çıktılarıyla ilgili çeşitli sorunlar sistematik olarak tanımlamıştır. Yaygın sorunlar doğru çevirisi "sağduyu-benzeri semantik dil işleme veya bağlam üzerinden" ancak yapılabilen bölümlerin çevirilerinde yer alıyor. Ayrıca kaynak metinlerde de hatalar olabilir, yüksek kaliteli eğitim (çeviricilerin) verileri eksik olabilir. Notlar Konuyla ilgili yayınlar Dış bağlantılar Makine Çevirisinin Avantajları ve Dezavantajları International Association for Machine Translation (IAMT) Archived</link> Makine Çevirisi Arşivi Archived</link> John Hutchins tarafından. Makine çevirisi ve bilgisayar tabanlı çeviri teknolojisi alanındaki makalelerin, kitapların ve makalelerin elektronik deposu (ve bibliyografyası) Makine çevirisi (bilgisayar tabanlı çeviri) - John Hutchins'in yayınları (makine çevirisiyle ilgili birkaç kitabın PDF'lerini içerir) Makine Çevirisi ve Azınlık Dilleri John Hutchins 1999 Archived</link> Slator Haberleri ve makine çevirisindeki son gelişmelerin analizi Sınıftan Gerçek Dünyaya: Makine Çevirisi Yabancı Dil Öğreniminin Manzarasını Nasıl Değiştiriyor? Kategori:Yapay zekâ uygulamaları Kategori:Bilişimsel dilbilim Kategori:Makine çevirisi Kategori:Bilgisayar destekli çeviri Kategori

oğal dil işleme görevleri

Ara

Ara

Foruma hoş geldin 👋, Ziyaretçi

Makine çevirisi

bullvar_katip

Administrator

Benzer konular

Tema özelleştirme sistemi

Tam ekran yada dar ekran

Izgara yada normal mod

Forum arkaplan resimleri

Sidebar blogunu kapat/aç

Yapışkan sidebar kapat/aç

Radius aç/kapat

Foruma hoş geldin 👋, Ziyaretçi