Türkçe Diyaloglarda Gönderen Seçimi: Yeni Bir Eşgönderim Veri Kümesi Ve Rasyonel Konuşma Edimi Modeli


Özge U. (Yürütücü), Çakır M. , Yet B.

  • Proje Türü: TÜBİTAK Projesi
  • Proje Grubu: Sosyal Bilimler
  • Projenin Yürütüldüğü Birim: Enformatik Enstitüsü
  • Başlangıç Tarihi: Nisan 2026
  • Bitiş Tarihi: Nisan 2028

Özet

Bu proje, Türkçe diyaloglarda, doğal dilde anlam bütünlüğünün temel yapı taşlarından biri olan eşgönderim

(coreference) olgusunu incelemeyi ve bu olgunun kritik bir parçası olan gönderen seçimi (reference selection) sürecini,

veriye dayalı, hesaplamalı ve bilimsel açıklayıcılığa sahip bir şekilde modellemeyi amaçlamaktadır. Proje, oldukça geniş

olan eşgönderim araştırma alanı içinde, gönderen ifadelerinin biçimi (örneğin, adıl, belirli/belirsiz ad öbeği) ve tümce

içindeki konumuna etki eden dilbilimsel (linguistic) ve dildışı (extra-linguistic) bağlamsal etmenleri ve bu etmenlerin

nasıl bir model içinde etkileşerek bir araya geldiklerini aydınlatmaya çalışacaktır.


Özgün Katkılar:


1. Türkçe Odaklı: Eşgönderim olgusu üzerine çalışmalar İngilizce ve Almanca gibi çok çalışılmış diller üzerine

yoğunlaşmıştır. Türkçe, bu dillerden farklı olarak, gönderim konusunda kritik öneme sahip, boş adıl, nesne düşürme ve

esnek sözcük sırası gibi birtakım yapısal özelliklere sahiptir. Proje, gönderen seçimi (biçim ve konum) sorusuna, Türkçe

perspektifinden yaklaşarak daha zengin ve derin bir anlayış sunmayı hedeflemektedir.


2. Diyalojik ve Çok Modlu Veri: Literatürde eş gönderim çalışmaları gazete yazısı, blog gibi planlı metinlere ve

kontrollü deney ortamında elde edilmiş metin tamamlama gibi verilere dayanmakta olup, bu özellikteki verilerin

eşgönderim olgusunu araştırmakta sınırlı kaldığı anlaşılmaktadır. Proje, eşgönderim olgusuna görev odaklı, doğal

konuşma diyalogları üzerinden açıklamaya çalışacaktır. Veri kümesinin bu yapısı sayesinde, eşgönderim olgusunun

konuşucu-dinleyici etkileşimi ve dildışı fiziksel bağlamla nasıl etkileştiği daha detaylı incelenebilecektir.


3. Açıklanabilir ve Hesaplamalı Model: Türkçe eşgönderim üzerine bugüne kadar geliştirilmiş modeller genelde klasik

veya derin öğrenme temelli mühendislik yaklaşımlı modeller olup, bilimsel açıklayıcılık açısından yetersiz kalmaktadırlar.

Proje, yine veriye dayalı ve hesaplamalı, fakat bilimsel açıklayıcılığı da olan bir model geliştirecektir.


Hedefler ve Yöntem:


1. Yeni Bir Veri Kümesi:


Hedef: Türkçe’nin gönderim konusunda sıkça çalışılan İngilizce ve Almanca gibi dillerden farklılık gösteren yapısal

özelliklerini göz önünde bulunduran,eşgönderim olgusunda rol oynadığı ve oynayabileceği düşünülen tüm kategorileri

içeren zenginlikte, doğal ortamda derlenmiş, diyaloğa dayalı, yeterli nicelik büyüklüğe sahip, doğruluk ve etiketleyici

uyumu bakımından güvenilir, açık erişimli bir veri kümesi (data set) geliştirmek. Yöntem: Yönetici-eşleyici

(director-matcher) paradigmasında kaydedilmiş diyaloglardan ve beraberinde toplanmış göz-izleme verisinden oluşan

veri kümesi, en güncel yapay zeka araçları yardımıyla ön etiketleme sürecini takiben iki adet bağımsız etiketleyici

tarafından etiketlenecektir.


2. Kuramsal Savların Test Edilmesi:


Hedef: Gönderen seçimi olgusunda hem literatürdeki belli başlı savların Türkçe özelinde geçerliliğini sınamak hem de

oluşturduğumuz veri kümesinin özgün özelliklerinin (görev odaklı, doğal, diyalojik, çok modlu) mümkün kıldığı, söz alma


Bu proje, Türkçe diyaloglarda, doğal dilde anlam bütünlüğünün temel yapı taşlarından biri olan eşgönderim

(coreference) olgusunu incelemeyi ve bu olgunun kritik bir parçası olan gönderen seçimi (reference selection) sürecini,

veriye dayalı, hesaplamalı ve bilimsel açıklayıcılığa sahip bir şekilde modellemeyi amaçlamaktadır. Proje, oldukça geniş

olan eşgönderim araştırma alanı içinde, gönderen ifadelerinin biçimi (örneğin, adıl, belirli/belirsiz ad öbeği) ve tümce

içindeki konumuna etki eden dilbilimsel (linguistic) ve dildışı (extra-linguistic) bağlamsal etmenleri ve bu etmenlerin

nasıl bir model içinde etkileşerek bir araya geldiklerini aydınlatmaya çalışacaktır.


Özgün Katkılar:


1. Türkçe Odaklı: Eşgönderim olgusu üzerine çalışmalar İngilizce ve Almanca gibi çok çalışılmış diller üzerine

yoğunlaşmıştır. Türkçe, bu dillerden farklı olarak, gönderim konusunda kritik öneme sahip, boş adıl, nesne düşürme ve

esnek sözcük sırası gibi birtakım yapısal özelliklere sahiptir. Proje, gönderen seçimi (biçim ve konum) sorusuna, Türkçe

perspektifinden yaklaşarak daha zengin ve derin bir anlayış sunmayı hedeflemektedir.


2. Diyalojik ve Çok Modlu Veri: Literatürde eş gönderim çalışmaları gazete yazısı, blog gibi planlı metinlere ve

kontrollü deney ortamında elde edilmiş metin tamamlama gibi verilere dayanmakta olup, bu özellikteki verilerin

eşgönderim olgusunu araştırmakta sınırlı kaldığı anlaşılmaktadır. Proje, eşgönderim olgusuna görev odaklı, doğal

konuşma diyalogları üzerinden açıklamaya çalışacaktır. Veri kümesinin bu yapısı sayesinde, eşgönderim olgusunun

konuşucu-dinleyici etkileşimi ve dildışı fiziksel bağlamla nasıl etkileştiği daha detaylı incelenebilecektir.


3. Açıklanabilir ve Hesaplamalı Model: Türkçe eşgönderim üzerine bugüne kadar geliştirilmiş modeller genelde klasik

veya derin öğrenme temelli mühendislik yaklaşımlı modeller olup, bilimsel açıklayıcılık açısından yetersiz kalmaktadırlar.

Proje, yine veriye dayalı ve hesaplamalı, fakat bilimsel açıklayıcılığı da olan bir model geliştirecektir.


Hedefler ve Yöntem:


1. Yeni Bir Veri Kümesi:


Hedef: Türkçe’nin gönderim konusunda sıkça çalışılan İngilizce ve Almanca gibi dillerden farklılık gösteren yapısal

özelliklerini göz önünde bulunduran,eşgönderim olgusunda rol oynadığı ve oynayabileceği düşünülen tüm kategorileri

içeren zenginlikte, doğal ortamda derlenmiş, diyaloğa dayalı, yeterli nicelik büyüklüğe sahip, doğruluk ve etiketleyici

uyumu bakımından güvenilir, açık erişimli bir veri kümesi (data set) geliştirmek. Yöntem: Yönetici-eşleyici

(director-matcher) paradigmasında kaydedilmiş diyaloglardan ve beraberinde toplanmış göz-izleme verisinden oluşan

veri kümesi, en güncel yapay zeka araçları yardımıyla ön etiketleme sürecini takiben iki adet bağımsız etiketleyici

tarafından etiketlenecektir.


2. Kuramsal Savların Test Edilmesi:


Hedef: Gönderen seçimi olgusunda hem literatürdeki belli başlı savların Türkçe özelinde geçerliliğini sınamak hem de

oluşturduğumuz veri kümesinin özgün özelliklerinin (görev odaklı, doğal, diyalojik, çok modlu) mümkün kıldığı, söz alma

durumu, bakış açısı alma ve fiziksel bağlam gibi etmenlerin etkilerini araştıran sınamalar gerçekleştirmek. Yöntem:

Toplanan verilerin hem istatistiksel hem de makine öğrenme teknikleri ile analiz edilip bulguların yorumlanması ile hem

savlar test edilecek hem de projeye özgün yeni özelliklerin gönderen seçimine etki seviyeleri belirlenecektir.


3. Yeni bir Model:


Hedef: Eşgönderimin karşılıklı iletişimsel doğasını dikkate alan, dilbilgisel ve dildışı bağlamsal koşulların etkileşimini

içeren, gönderim olgusunun olasılıksal boyutlarına ışık tutan, eşgönderim durumlarında gönderenin biçimini ve tümce

içindeki konumunu bilimsel açıklayıcılığa sahip bir biçimde ve yüksek başarımla öngörmeyi hedefleyen bir hesaplamalı

model geliştirmek. Yöntem: Oluşturulan veri kümesi üzerinden geliştirilen ve test edilen Rasyonel Konuşma Edimi

(Rational Speech Act) çerçevesinde bir model oluşturulacaktır.


Beklenen Etkiler:


- Bilimsel: Proje sonucunda, eşgönderim ile ilgili yeni kuramsal çerçeveler geliştirilmesi ve bu çerçevelerin açıklanabilir

hesaplamalı dil modellerine entegre edilmesi beklenmektedir. Çalışma, hem dilbilim hem de doğal dil işleme alanlarına

bilimsel katkı sağlayarak, insan dilinin işleyişine dair daha derinlemesine bir anlayış sunacaktır.


ulan veri kümesi yapay zeka araştırmacılarının kullanımına açılarak konuşma sistemleri ve yapay

zeka tabanlı dil modellerinin geliştirilmesine katkıda bulunulacaktır.


- Eğitimsel: 2 yüksek lisans öğrencisinin hem akademik hem de hesaplamalı beceriler alanında yetiştirilecek ve 1

doktora sonrası araştırmacının kariyer gelişimine katkıda bulunulacaktır.