Bir ses dosyasındaki sözleri dosyaya yazdırmak

tuanna · Mesaj gönderen **tuanna** » 27 Oca 2005 12:22

arkadaşlar ben herhangi bir ses dosyasındaki sözleri bir dosyaya yazdırmak istiyorum...böylece şarkı sözlerini yazmak değilde hazırlamak çok kolay olacak...yorumlarınızı bekliyorum

Mesaj gönderen **lazio** » 27 Oca 2005 12:29

merhaba, sen fazla hayal kuruyosun galiba.

şaka yaptım alınma sakın.
Bunun mümkün olabileceğini pek sanmıyorum. çünkü ses dosyalarında müzikte seste iç içe girmiş frekanslar olarak saklanıyor bildiğim kadarıyla.
belki baskın olan frekansları ayıklayabilirsin ama bunuda nasıl text kaydedersin bilemem.
kolay gelsin

veliadiguzel · Mesaj gönderen **veliadiguzel** » 27 Oca 2005 12:46

Selamun Aleyküm

Aslında senin bahsettiğin şeyi japonlar (tam bilmiyorum ama o civardan bi ülke ) yapmış konuşmaları sms olarak kaydediyor ama senin söylediğin biraz daha uçuk şarkı içindeki sözleri ayıklamak bayaa zor sadece programcılık bilgisi yetmeye bilir ve sesin kodlama şeklide önemli mp3 de wav da v.d anlıyacağın işin zor ama başarırsan devrim olur. Sekreter lere şu sen sööle bilgisyar yazsın

AEO

tuanna · Mesaj gönderen **tuanna** » 27 Oca 2005 12:54

kardeşlerim bu hususta cevap vermek belki erken ama sizlerin hepinizin yorumlarınızı bekliyorum...bir program vardı fon müzikleri yapmak için yani şarkı sözlerini göz ardı ediyordu...dolayısıyla bu yapılıyorsa benim dediğimde olabilir ...hayel hususunda bundan yüz yıl önce insanlar bir birleriyle bu kadar hızlı iletişim olacak dese herkes adama hayel der ve adamı ileri giderek deli ilan ederlerdi...1970 insanalar araba nedir bilmeszken ve hatta çoğu insan şehirler arasında giderken yürüyordu...ben çok uçuk bir sey istemedin sunuda isteyebilirdim bir program yazınki beni niğde den istanbula göndersin ...ve aynı hızla geri getirsin hatta zaman kavramınıda ortadan kaldırsın ve ben buna inanıyorum...ama ne zaman olacak onu kestiremiyorum...

Misafir · Mesaj gönderen **Misafir** » 27 Oca 2005 01:01

merhaba.

veliadiguzel yazdı:konuşmaları sms olarak kaydediyor

hocam bahsettiğiniz olay bildiğiniz üzre kayıtlı olan veriler üzerindeki eşleme olayı..onların (japonlar kesinlikle değil ama ülkeyi ben de hatırlayamadım

) yaptığı en önemli şey de olayı daha da geliştirmek oldu..yani daha önce telefonlar 10 kişiye kadar, kayıtlı seslerden bulabiliyordu,bunu geliştirdiler..bu da ciddi bi gelişme olarak görülemez zaten, ki; örneğin biz Türk milleti olarak ortalama 300 kelime kullanıyoruz,gerisini siz hesap edin..

soruya gelince;
arkadaşların da dediği gibi, elinde bi veri olmadan, karşılaştırma yapmadan bunu yapman imkansız (şimdilik..kimbilir ilerleyen yıllarda çözülebilir belki).
kolay gelsin.

Mesaj gönderen **fduman** » 27 Oca 2005 01:16

1. Bahsettiğin filtredeki gibi arka fon sesleri filtreleyip sadece sözleri elde etmen lazım ve bunu oldukça temiz parazitsiz bir şekilde elde etmen gerek.
2. Bir Voice Recognition algoritması ile bu ses verisini yazıya dönüştürmen lazım. Bununla Microsoft, IBM gibi firmalar halen uğraşıyorlar. Gene de %100 doğru bir şekilde yazıya dönüştürmeyi henüz yapamadılar. Microsoft'un kullandığı API açık. Hatta bununla ilgili Delphi componentleri mevcut.

tuanna · Mesaj gönderen **tuanna** » 27 Oca 2005 01:22

o zaman bu componentleri nereden bulabiliriz...

Misafir · Mesaj gönderen **Misafir** » 27 Oca 2005 01:38

coderlord yazdı:Bir Voice Recognition algoritması ile bu ses verisini yazıya dönüştürmen lazım.

hocam sence bu noktada bi karşılaştırma yapılmıyor mu?evetse, elinde veri olmaksızın neyle karşılaştırma yapabilirsin?

Mesaj gönderen **fduman** » 27 Oca 2005 01:53

Önceden eğitme gereksinimini diyorsun sanırım. Bu konuda haklısın. Ancak yeni uygulamalar eğitme gereksinimi olmadan da başarılı tanımalar yapabiliyor. Zamanla daha da gelişecektir eminim. Daha yolun çok başındayız.

Misafir · Mesaj gönderen **Misafir** » 27 Oca 2005 02:06

peki eğitme gereksinimi duymadan neyi baz alarak tanıyabiliyor çok merak ettim.örneğin "delphi" derken 34-38-22-40-46-35 gibi spectrum (gösterge için örnektir) değeri dönerken, "visual" için 22-35-52-46-48-35 gibi bi değer dönecek..ikisi de 6 harf olmasına (yazıldığı gibi okunduğunu varsayıyorum, Türkçe'nin en önemli özelliğini dikkate aldım) rağmen ortada farklı değerler var.neye göre kontrol edilebilir bu sence?bir süre ses eşleme konusuyla ilgilenmiş ve gözardı edilmeyecek bi mesafe katetmiştim.bu nedenle merak ettim yeni gelişmeleri.
teşekkürler..

Mesaj gönderen **fduman** » 27 Oca 2005 02:15

Ben senin kadar geniş kapsamlı bir çalışma hiç yapmadım. Muhtemelen dile özel, generic datalarla çalışıyorlar veya algoritma kendi kendine öğreniyor kullanıcıdan geri-besleme alarak. Yanlız spectrum örneğinde bence bir eksiklik var. Orada sadece pik değerler değil, zaman da önemli.
Bu, zaman verisini de kullanarak vurgu, tonlama vs.. gibi , dile özel detaylar generic data kullanarak tanımlamada kullanılabilir.
Diğer detayları bilemeyeceğim.

İyi günler.

Misafir · Mesaj gönderen **Misafir** » 27 Oca 2005 02:16

ben de editlemek durumunda kaldım

spectrum örneğindeki sadece fikir vermek içindi..oldukça detaylı bi konudur spectrum fikrimce..bir dönem radyolar için program yazıyorduk, ciddi olarak ilgilenmiştim..

evet geri besleme mantığı olabilir..

gvz.com sitesinde daha önce gördüğüm bişey vardı, emin değilim tabi ama koç şirketlerinin birisinin kendilerinin sistemlerini kullandıklarından bahsediyorlardı. bu sistemde ses tanınabiliyor(muş).yani ben merhaba dediğimde "delphi_coder hoşgeldin", sen merhaba dediğinde "coder lord hoşgeldin" diyor gibi bişey..gerçi hala bi patlama olmadı bu konuda kendilerinden ama..konuyla direkt alakası olmasa da paralel bi konu olduğundan bahsetmeden geçemedim.

kolay gelsin.

Mesaj gönderen **fduman** » 27 Oca 2005 02:19

Mesaja birkaç ekleme yapmıştım. Sen benden önce davranıp mesaj atmışsın.

Kolay gelsin..

Abrak · Mesaj gönderen **Abrak** » 27 Oca 2005 02:20

ilk önce kullanıcı harfleri tek tek söyleyerek kendi ses frekansını kaydecek örneğin a karşıtı 38 (atıyorum) daha sonra konuşma sırasında o harflerle söylenen kelime ile karşılaştırma yapacak kelimeyi nasıl harfle derseniz eğer frekans değişikliğini baz alarak pos olayı gibi kelimeyi bölüp daha sonra karşılaştırma yaparak yazacak ama önemli olan aynı tonda konuşmak için kullanıcının kendini kasması veya çok hassas cihazlar olması gerecektir.

Benim kafamda böyle bir algolitma oluştu

Mesaj gönderen **fduman** » 27 Oca 2005 02:24

Bu şekilde düz algoritmalar başarı sağlayamadığı için bu tür işlemlerde genetic veya fuzzy algoritmalar kullanılıyor. bkz. neural network, fuzzy logic.