Username: Password:
Menu 
VPA
Computer Vision And Pattern Analysis Laboratory Home Page  Home
People  People
Publications  Publications
Publications  Databases
Contact Information  Contact
Research
Supported Research Projects  Supported Research Projects
Research Activites  Research Activites
Research Groups
SPIS - Signal Processing and Information Systems Lab.SPIS - Signal Processing and Information Systems Lab.
Medical Vision and Analysis Group  Medical Research Activities
Biometrics Research Group  Biometrics Research Group
SPIS - Signal Processing and Information Systems Lab.MISAM - Machine Intelligence for Speech Audio and Multimedia.
Knowledge Base
  Paper Library
  VPA Lab Inventory
  Databases in VPALAB
  Recordings
Calendar
<<September 2017>>
Mo Tu We Th Fr Sa Su
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30
Upcoming Events:
None


Speaker recognition using support vector machines (inTurkish)





Project LeaderHakan Erdogan
Project SupervisorHakan Erdogan
Project Team
Supporting Organizations TUBITAK UEKAE

ContactHakan Erdogan Send e-mail

Start Date2008.05
End Date2009.05
StatusCompleted
Project Description


UEKAE projesi:

Speaker recognition using support vector machines
Destek Vektör Makineleri ile Fonetik Konuşmacı Tanıma Sistemi

Literatürde geliştirilen konuşmacı tanıma sistemlerinde yakın zamana kadar kısa menzilli (10-20 ms) konuşma çerçevelerinden çıkarılan kepstral öznitelikler kullanılmaktaydı. Bu özniteliklerle geliştirilen sistemler her ne kadar oldukça başarılı sonuçlar vermiş olsa da kanal etkisi, zaman, oturum farkı, gürültü gibi etkenlerden fazlaca etkilenmektedir. Uzun süre literatürdeki çalışmalar bu sistemleri kanal, oturum, mikrofon farklılıklarına dayanıklı hale getirmek üzerine yoğunlaşmıştır. İnsan duyu sisteminin konuşmacı tanıma yaparken bu sistemlerin kullanmadığı uzun menzilli özniteliklerden yararlandığı bilinmektedir. Bu öznitelikler arasında bürünsel öznitelikler, perde frekansının zaman içindeki değişimi, kullanıcıya özgü kelime seçimi, şive sayılabilir. Kısa menzilli yerel öznitelikler yerine böyle uzun menzilli bilgileri kullanan sistemler üzerinde, NIST Konuşmacı Tanıma Yarışmalarının da etkisiyle özellikle 1999 yılından itibaren yoğun çalışmalar olmuş ve çeşitli sistemler geliştirilmiştir. Bu sistemlerin yerel özniteliklerle çalışan sistemlerle birleştirilmesi sonucu her iki sistemden de daha yüksek başarım elde edilebileceği görülmüştür. Uzun menzilli özniteliklere dayalı sistemler kanal, mikrofon ve gürültü etkisine yerel özniteliklerle çalışan sistemlere göre daha dayanıklı olmakla beraber taklitlere karşı daha hassastır. Tüm bu özellikler iki sistemin birbirini tamamlayıcı özellikte olduğunu ortaya koymaktadır.

Uzun menzilli özniteliklerle çalışan sistemlerin bir özelliği de bu sistemlerin ufak değişikliklerle dil ve aksan tanımada kullanılmaya da müsait yapıda olmalarıdır. UEKAE/MTRD Laboratuarı kendi geliştirmekte olduğu yerel öznitelikler kullanarak konuşmacı ve dil/aksan tanıma sistemlerine ek olarak uzun menzilli özniteliklerle çalışan sistemlerin geliştirilmesinde hizmet alımına gitmeyi uygun bulmuştur. Hizmet alımı neticesi gerçeklenecek sistem, literatür taraması neticesi Destek vektör Makineleri ile Fonetik Konuşmacı Tanıma Sistemi olarak seçilmiştir. Geliştirilecek sistem genel olarak [1,2] nolu referanslarda ele alınan sisteme benzer yapıda olabilir. Aşağıda geliştirilmesi düşünülen sistemin genel özellikleri maddeler halinde belirtilmiştir.

Fonetik Konuşmacı Tanıma Sistemi

1. Fonetik Konuşmacı Tanıma Sistemi'ni yapısını oluşturan temel bloklar şunlardır:
  • Cinsiyet bağımlı bağlam-bağımsız birden fazla dilde parallel fonetik tanıma sistem­le­ri (PPRLM): Bu sistem ilk olarak Zissman tarafından dil tanıma amaçlı öne sürülmüş [3], daha sonra fonetik konuşmacı tanıma sistemlerinde de kullanılmıştır [1]. Geliştirilecek sistemde Türkçe, İngilizce fonem tanıma sistemleri olması beklenmektedir. Fonem tanıma sistemi çıktı olarak en-iyi yolu değil bir fonem örgüsünü verecek ve ileriki adımlarda terimlerin frekansının hesaplanmasında bu örgü kullanılacaktır.
  • Fonem tanıma sistemi art-işlemcisi: Fonem tanıma sistemleri sonucu oluşan fonem örgülerinde art işlemler yapacaktır. (Çok kısa fonemlerin silinmesi, uzun süreli boşluklara başlangıç bitiş etiketlerinin konulması gibi).
  • Öznitelik Çıkarıcı: Oluşan fonem dizilerinden destek vektör makineleri için öznitelikler ve çekirdek (kernel) oluşturulacaktır. Öznitelik oluşturulmasında TFLLR (Term Frequency Likelihood Ratio) ağırlıklandırma yöntemi kullanılabilir.
  • Destek Vektör Makinesi Sınıflandırıcısı: SVMTorch kütüphanesinin kullanılması düşünülmektedir. Doğrusal çekirdek yanında farklı çekirdekler için sonuç verilebilir.
  • Skor normalizasyon yöntemleri kullanılacaktır (Tnorm gibi).
  • Skor Birleştirici: Farklı fonem tanıma sistemlerinden gelen skorlar birleştirilecektir.
2. Geliştirilecek sistemin telefon, cep telefonu, mikrofon verilerinde çalışması beklenmektedir.

Home Back Make a Comment