Morfolojik Tabanlı Braille -2 Düzeyinde Metin Çevirisi -1

Merhaba,

Günümüzde, dünya genelinde çeşitli nedenlerden ötürü görme yeteneğini kaybeden insanların sayısı azımsanmayacak çokluktadır. Bu çokluk beraberinde görme yeteneğini kaybedenlerle normal insanlar arasında iletişim sorununun artmasına sebep olmaktadır. Bu sorunu çözmeye yönelik bugüne kadar yapılmış çeşitli çalışmalar mevcuttur. Bu çalışmada iletişim sorununu metinsel tabanlı bilgisayarla çözmeye yönelik bir sistem tasarlanmış ve kodlanmıştır.

 

Tasarlanan sistem, Braille-2 düzeyinde Türkçe metnin Braille metne çevirisi ve Braille metnin Türkçe metne çevirisi olmak üzere iki aşamadan oluşmaktadır. Tasarlanan sistemde, Türkçe metinden Braille-2 metne çeviri, yapılan deneylerde %100 başarı sağlanmıştır. Braille-2 metin çevirisinde ise ortalama %90 başarı elde edilmiştir.

 

TÜRKÇE İÇİN MORFOLOJİK TABANLI BRAİLLE-2 DÜZEYİNDE METİN ÇEVİRİSİ

1. Giriş

Dünya genelindeki görme engelli insanlar ile normal insanlar arasında metinsel olarak iletişim sağlamak, kullanılan farklı alfabelerden ötürü zor olmaktadır. Bu zorluktan dolayı görme engelli insanlar ile normal insanlar arasında bilgisayar tabanlı metinsel olarak bir çeviri sisteminin olması büyük önem taşımaktadır.

Çalışmada, görme engelli insanlarla yazı iletişimini sağlayan otomatik sistem tasarımı üzerinde durulmuştur. Görme engelli insanlar yazı iletişimlerini Braille kodlamadan yararlanarak gerçekleştirirler. Braille kodlama altı nokta esasına dayalı bir yazı sistemidir[1]. Şekil 1’de Braille alfabesine örnek verilmiştir.

 

Şekil 1: Braille kodlanan “ABCD‟ harfleri.

Görme engelli ile normal insanlar arasında iletişimi sağlamak amacıyla bugüne kadar yapılmış çeşitli çalışmalar mevcuttur. A. Sterr, L. Green ve T. Elbert, görme engelli insanlarla normal insanlar arasında Braille kodlamayı algılamaya yönelik bir çalışma gerçekleştirmişlerdir[2]. M. Jiang, Braille karakterlerin Çince karakterlere dönüşümünü Viterbi algoritmasıyla gerçekleştirmeye yönelik bir çalışma yapmıştır[5]. V. Nabiyev, Braille kodları Türkçe metne çevirmeye yönelik doğal dil işlemeye dayalı çalışmalarda bulunmuştur[6]. H. C. Flickschuh, M. Busboom ve W. L. Zagler, görme engellilere yönelik bilgisayar yardımıyla Braille kodları üretimine yönelik bir dizi çalışma yapmışlardır. M. Habib, görme engelli kişiler için geometrik şekillere dayanan bir okuma sistemi geliştirmiştir. F. P. Seiler ve W. Oberleitner, Almanca metinlerin Braille-2’ye dönümünü gerçekleştirmeye yönelik bir sistem geliştirmişlerdir. Wolf D. Seufert ve Gérard Lachiver, görme engelli insanlarla ve normal insanlar arasında iletişimi kolaylaştırmaya yönelik, Braille kodlama üzerinde çeşitli basit değişiklikler yapmak suretiyle, çalışmada bulunmuşlardır[10]. P.B. Stanley ve A.I. Karshmer, matematiksel ifadelerin Baraille yazıya dönüşümüne yönelik çalışmalarda bulunmuşlardır[11].

 

Bu çalışmada Türkçe metinin Braille metne çevirisi aynı şekilde Braille metni Türkçe metne çevirisi doğal dil işlemeye dayalı bir şekilde gerçekleştirilmiştir. Yapılan çeviri işlemleri Braille-2 düzeyinde olmaktadır. Konunun daha kolay anlaşılırlığı için bir sonraki bölümde kısaca bu kodlamalara ve dönüşümlere değinilmektedir.

 

2. BRAİLLE-2 DÜZEYİNDE TÜRKÇE METNİN BRAİLLLE METİN KARŞILIĞI

Altı noktadan oluşan Braille alfabesi, düşey bir biçimde yan yana dizilmiş üçer noktalı iki sıradan meydana gelmektedir. Bu iki sıra içerisinde yer alan noktalar, sol tarafta yer alan sıranın üst tarafındaki noktasından başlayarak aşağı doğru bir, iki, üçüncü nokta; sağ tarafta yer alan sıra ise yine üstteki noktadan aşağıya doğru dört, beş, altıncı nokta şeklinde numaralandırılmıştır. Bu altı nokta kümesinde yer alan noktaların aralıkları sabit bir eşitliğe sahip bulunmaktadır. Bu sebeple de nokta numaraları ile yukarda açıklanan numaralama sırası değişmemektedir. Alfabede yer alan işaretlerin tamamı bu numaralama esasına göre elde edilmektedir[1]. Şekil 2’de, altı nokta numaralarıyla gösterilmiştir.

Şekil 2:Braille noktalarının numaralandırılması.

 

Braille harflerin, mürekkep baskılı harflere oranla daha fazla yer kaplaması ve okunması zor olduğundan, yazının boyutunu küçültmek ve okumayı hızlandırmak için çeşitli kısaltmalara gidilip Braille-2 kodlaması oluşturulmuştur. Braille-2, mürekkep baskılı harflerin birebir karşılığı kodlanarak oluşturulan Braille-1’e göre daha az yer kaplamakta ve okumayı daha da kolaylaştırmaktadır.

 

 

 

Şekil 3: Türkçe metin- Braille-2 dönüşümünün akış şeması.

Türkçe metnin Braille-2 metin karşılığının oluşması için önerilen sistemin genel yapısı Şekil 3’te verilmiştir. Türkçe metnin Braille-2 metnine geçişi esnasında, metnin kelimeleri üzerinde morfolojik analiz işlemi gerçekleştirilmektedir. Bu işlemin gerçekleştirilmesinin sebebi, Türkçede kelime köklerinin ek almak suretiyle kökte meydana gelen yumuşama, düşme vb. dil olaylarının Braille kodlamada göz ardı edilmesidir.

Morfolojik analizden gecen Türkçe metin Braille-2 kısaltmaları kullanılarak çeviri işlemi gerçekleştirilmektedir. Bu dönüşümden sonra Braille-2 metni oluşturulur. Şekil 4’te “Büyüklerimiz” kelimesinin Braille-2 karşılığı verilmiştir.

 

Büyüklerimiz 

Şekil4:”Büyüklerimiz” kelimesinin,“b-leri-m-i-z”,Braille-2 karşılığı.

Türkçe metnin Braille-2 metne çeviri aşamalarının ayrıntılarını alt başlıklarda incelenmektedir.

2.1. Kelime Üzerinde Morfolojik Analiz

Herhangi bir dilde morfolojik analizin yapılması dilin yapısıyla ilişkili olmaktadır. Türkçe kelimeler yapı olarak incelendiğinde kelimelerin kök ve eklerden meydana geldiği görülmektedir. Aynı şekilde kök ve eklerde kendi içlerinde türlere ayrılmaktadır. Türkçe sondan eklemeli bir yapıya sahiptir. Dolayısıyla kelimenin saf hali kök, kökten sonra gelenlerse ek olarak ifade edilmektedir. Köke eklenen her bir ek bir önceki yapıdan ve kökten kısmen farklı bir anlam türetmektedir.

Örnek: Akıllardakilerin: (Akıl ) [kök] +( lar+da+ki+ler+in)[ek ler]

Yukarıdaki örnekte de görüldüğü üzere Türkçe kelimelerin parçalanması iki aşamada gerçekleştirilmektedir.

1.Köklerin belirlenmesi

2.Ekler gurubunun çıkarılması

2.1.1. Türkçe Kelimelerde Kök Belirleme

Kelimede kökün bulunması için çeşitli yöntemler uygulanabilmektedir. Bunun için ilk olarak Türkçedeki kökleri ve bu köklere ait özel durumları içeren kök veritabanına ihtiyaç duyulmaktadır. Özel durumlar olarak, kelimelerdeki harf yumuşaması ve ünlü düşmesi gösterilebilir.

Örnek: burnum: bur[u]n+um

 

Bu durumlar çalışmada kökün özel biçimleri veri tabanına eklenerek çözülmeye çalışılmıştır. Kelimenin kökü nün bulunması maksimum eşleme algoritması ile gerçekleşir. İlk olarak kelime tümüyle kök veritabanında aranır. Eğer kelimeye veritabanında rastlanırsa herhangi bir ek almadığı kabul edilerek işlem sonlandırılır. Eğer kelime veritabanında bulunamadıysa, bir sonraki aşamaya geçilir. Bu aşamada birkaç yöntem kullanılabilmektedir. Örneğin kelimenin sağından ilk harfi atılarak kalan kısmın veritabanında aranması ve bu işleme kök bulunana kadar devam edilmesi bu yöntemlerden birisidir. Sağdan silme işlemi gerçekleştirildiğinde en son harfe veritabanında rastlanmadığında kelimenin yanlış yazıldığına karar verilmektedir.

.

Örnek: ağaçlık  ağaçlı ağaçl ağaç (kök)

Diğer bir yöntem ise kelimenin soldan itibaren harflerin birleştirilip veritabanında kök araması yapılmasıdır. Aynı şekilde bu işlem kök bulunana kadar devam edilmektedir.

Örnek: ağaçlık: a (ağ) [kök1] (ağa)[kök2] ağaç(kök)

Örnekte de görüldüğü gibi son yöntemde birden fazla köke rastlanabilmektedir. Bu durumda gerçek kök, eklerin belirlenmesi esnasında muhtemel kökler arasından seçilmektedir. Kökün bulunması için daha farklı yöntemlerde uygulana bilmektedir. Yapılan çalışmada kök, eklerin bulunma safhalarıyla beraber incelenmektedir. Konunun daha iyi anlaşılması için kelimede ek bulma aşaması alt başlıkta incelenmektedir.

2.1.2. Türkçe Kelimelerde Ek Gurubunu Belirleme

 

Kökün bulunmasında olduğu gibi eklerinde bulunmasında farklı yöntemler söz konusudur. İlk olarak Türkçedeki tüm eklerin incelenebileceği ek veritabanına ihtiyaç vardır. Aynı şekilde kelime üzerinde sağdan veya soldan hareket ederek ekler kelimeden ayrılabilmektedir. Örneğin kökü bulunan ağaçlıklardan kelimesi için ek bulma aşağıdaki şekilde yapılmaktadır.

Örnek: Kök: ağaç, Ek gurubu: lıklardan

Kök belirlendikten sonra eklerin sağdan parçalanması yapıldığında ilk olarak bu guruptan lık eki, ardından ise lar ve dan ekleri bulunmaktadır. Soldan parçalama yapılacaksa ilk olarak dan eki ve sonrasında lar ve lık ekleri gelmektedir.

Yapılan bu çalışmada, yukarıda ifade edildiği gibi, kök ve eklerin bulunma işlemlerini beraber yürütülmektedir. Kelime ilk olarak kök veritabanında aranmaktadır. Veritabanında bulunduysa kelimenin ek almadığı kabul edilmekte ve işlem sonlandırılmaktadır. Kelime kök veritabanında ilk aramada bulunamadıysa kelimede sondan itibaren ek araması yapılmaktadır.

Türkçede köke eklenen ek kelimenin anlamını kısmen değiştirmektedir. Köke eklenen ekten sonra oluşan yeni kelimeye benzeri şekilde ek eklemek mümkündür. Yalnız Türkçedeki herhangi bir ekten önce veya sonra gelebilecek ek kümesi sınırlıdır. Bu özellikten dolayı ek arama işleminde bir önceki ek bir sonraki ekin bulunmasında önem taşımaktadır.

Yapılan bu çalışmada ek araması, kelimenin sağından itibaren başlatıldığından, veri tabanındaki her bir ek için kendinden önce gelebilecek ek kümesi oluşturulmaktadır. Bu şekilde her bir ek için ek zinciri meydana gelmektedir. Örneğin ağaçlarda kökü ilk aramada veri tabanında bulunamayacaktır ve sondan itibaren araştırıldığında önce da eki ek veritabanında bulunup kelimeden çıkartılmaktadır. Kalan ağaçlar kelimesi kök veritabanında tekrar aranmakta ve köke rastlanamamaktadır. Bir sonraki adım olan sağdan ek araması işleminde ağaçlar kelimesindeki lar ekine ulaşmak için veritabanındaki tüm eklere bakılmamakta, sadece dan ekinden önce gelen sınırlı sayıdaki ek zinciri incelenmektedir.

 

 

 

Şekil 5: Oluşturulan ek zincirlerinin meydana getirdiği graf yapısından bir kesit.

Şekil 5’te gösterilen yapıda, /s sonlanabilme durumunu; *, peşinden gelen harf için alternatif harflerin varlığını; ε ilgili geçişin olmayabileceğini; + ise ardından gelen harfin ses durumlarına göre hiç bulunamayacağını göstermektedir. Buradaki yapı ile tanımlanabilecek kelimelere bir örnek aşağıda verilmiştir:

Örnek: Arabadakiler: Araba da ki ler

İsim *d*a ki l*ar

Çalışmada morfolojik analiz için çift yönlü arama yöntemi kullanılmaktadır. Birbirini takip eden işlemlerde kök araması ve ek araması yapılarak kelimenin analizi gerçekleştirilmektedir. Bu yöntemin analiz işleminin, sınırlı sayıda arama gerektirdiğinden, tek yönlü diğer yöntemlere göre daha hızlı olduğu tespit edilmiştir.

2.2.Braille-2 Kısaltmaların Kullanımı

Türkçe Braille-2 kodlamasında kullanılan beş çeşit kısaltma türü vardır. Bunlar;

  1. 1. Bir harfli kısaltmalar,
  2. 2. İki harfli kısaltmalar,
  3. 3. Hece kısaltmaları,
  4. 4. Kelime kökü kısaltmaları,
  5. 5. Kelime parçası kısaltmaları,

Olmaktadır. Kısaltmalardan bir harfli, iki harfli ve kelime kökü kısaltmaları kelimenin başında; hece kısaltması kelimenin başında veya ortasında; kelime parçası kısaltması ise kelimenin ortasında ve sonunda kullanılmaktadır.

 

Şekil 6:Morfolojik analizden geçmiş Türkçe metinin Braille-2 kısaltmaları kullanılarak Braille metne dönüşüm aşamaları.

Morfolojik analizden geçip saf hale gelen Türkçe metindeki kelimelerin her biri, şekil 6 ‘daki aşamalara tabi tutularak Braille-2 karşılıkları üretilir. Çeviri işlemi şu şekilde gerçekleşmektedir; başlangıçta gelen Türkçe metin kelimelere ayrılır. Sisteme verilen her kelimenin başlangıç kısmı, veri tabanında bulunan bir harfli, iki harfli ve kelime kökü kısaltmalarında karşılığı aranmaktadır. İlk işlemden sonuç alınamadıysa, başlangıç kısmı hece kısaltmaları ve Braille alfabesinde aramaya devam edilir. Başlangıç kısmı bulunan kelimede geri kalan kısım benzer şekilde hece kısaltmaları, kelime parçası kısaltmaları ve Braille alfabesinde aranarak karşılığı üretilmektedir. Sisteme giriş olarak verilen kelime tamamen Braille-2’ye dönüşünceye kadar bu işleme devam edilmektedir.

ağacımdan ağaçımdan 

Şekil 7:”ağacımdan” kelimesinin Braille-2 metne geçişi.

Sonuç olarak, çalışmanın bu bölümünde alınan herhangi bir Türkçe metnin Braille-2 kısaltmaları kullanılarak Braille metne çevirisi gerçekleştirilmektedir. Çeviri saf metin ve çeşitli matematiksel sembollere yönelik yapılmış, yapılan testler sonucu başarı oranı %100 olarak belirlenmiştir.

 

Mehmet Salih Deveci

I am Founder of IT Tutorial and Certified Expert about Oracle & SQL Server database, Goldengate, Exadata Machine, Oracle Database Appliance administrator with 10+years experience. I have OCA, OCP, OCE RAC Expert Certificates I have worked 100+ Banking, Insurance, Finance, Telco and etc. clients as a Consultant, Insource or Outsource. I have done 200+ Operations in this clients such as Exadata Installation & PoC & Migration & Upgrade, Oracle & SQL Server Database Upgrade, Oracle RAC Installation, SQL Server AlwaysOn Installation, Database Migration, Disaster Recovery, Backup Restore, Performance Tuning, Periodic Healthchecks. I have done 2000+ Table replication with Goldengate or SQL Server Replication tool for DWH Databases in many clients. If you need Oracle DBA, SQL Server DBA, APPS DBA,  Exadata, Goldengate, EBS Consultancy and Training you can send my email adress mehmetsalih.deveci@outlook.com. -                                                                                                                                                                                                                                                 - Oracle DBA, SQL Server DBA, APPS DBA,  Exadata, Goldengate, EBS ve linux Danışmanlık ve Eğitim için  mehmetsalih.deveci@outlook.com a mail atabilirsiniz.