Bir ses dosyasındaki sözleri dosyaya yazdırmak

Delphi'de kod yazma ile ilgili sorularınızı bu foruma yazabilirsiniz.
Kullanıcı avatarı
tuanna
Üye
Mesajlar: 582
Kayıt: 06 Ara 2004 05:01
Konum: Ankara
İletişim:

Bir ses dosyasındaki sözleri dosyaya yazdırmak

Mesaj gönderen tuanna »

arkadaşlar ben herhangi bir ses dosyasındaki sözleri bir dosyaya yazdırmak istiyorum...böylece şarkı sözlerini yazmak değilde hazırlamak çok kolay olacak...yorumlarınızı bekliyorum
Siz hayal edin...Biz yapalım TuannaSoft...
Kullanıcı avatarı
lazio
Moderator
Mesajlar: 1526
Kayıt: 11 Tem 2003 04:55
Konum: İstanbul

Mesaj gönderen lazio »

merhaba, sen fazla hayal kuruyosun galiba. :lol: şaka yaptım alınma sakın.
Bunun mümkün olabileceğini pek sanmıyorum. çünkü ses dosyalarında müzikte seste iç içe girmiş frekanslar olarak saklanıyor bildiğim kadarıyla.
belki baskın olan frekansları ayıklayabilirsin ama bunuda nasıl text kaydedersin bilemem.
kolay gelsin
Resim

..::|YeşilMavi|::..
Kullanıcı avatarı
veliadiguzel
Üye
Mesajlar: 197
Kayıt: 09 Tem 2003 02:11
Konum: Gebze/Kocaeli
İletişim:

Mesaj gönderen veliadiguzel »

Selamun Aleyküm

Aslında senin bahsettiğin şeyi japonlar (tam bilmiyorum ama o civardan bi ülke ) yapmış konuşmaları sms olarak kaydediyor ama senin söylediğin biraz daha uçuk şarkı içindeki sözleri ayıklamak bayaa zor sadece programcılık bilgisi yetmeye bilir ve sesin kodlama şeklide önemli mp3 de wav da v.d anlıyacağın işin zor ama başarırsan devrim olur. Sekreter lere şu sen sööle bilgisyar yazsın :)

AEO
Kullanıcı avatarı
tuanna
Üye
Mesajlar: 582
Kayıt: 06 Ara 2004 05:01
Konum: Ankara
İletişim:

Mesaj gönderen tuanna »

kardeşlerim bu hususta cevap vermek belki erken ama sizlerin hepinizin yorumlarınızı bekliyorum...bir program vardı fon müzikleri yapmak için yani şarkı sözlerini göz ardı ediyordu...dolayısıyla bu yapılıyorsa benim dediğimde olabilir ...hayel hususunda bundan yüz yıl önce insanlar bir birleriyle bu kadar hızlı iletişim olacak dese herkes adama hayel der ve adamı ileri giderek deli ilan ederlerdi...1970 insanalar araba nedir bilmeszken ve hatta çoğu insan şehirler arasında giderken yürüyordu...ben çok uçuk bir sey istemedin sunuda isteyebilirdim bir program yazınki beni niğde den istanbula göndersin ...ve aynı hızla geri getirsin hatta zaman kavramınıda ortadan kaldırsın ve ben buna inanıyorum...ama ne zaman olacak onu kestiremiyorum...
En son tuanna tarafından 27 Oca 2005 01:01 tarihinde düzenlendi, toplamda 1 kere düzenlendi.
Siz hayal edin...Biz yapalım TuannaSoft...
Misafir

Mesaj gönderen Misafir »

merhaba.
veliadiguzel yazdı:konuşmaları sms olarak kaydediyor
hocam bahsettiğiniz olay bildiğiniz üzre kayıtlı olan veriler üzerindeki eşleme olayı..onların (japonlar kesinlikle değil ama ülkeyi ben de hatırlayamadım :oops: ) yaptığı en önemli şey de olayı daha da geliştirmek oldu..yani daha önce telefonlar 10 kişiye kadar, kayıtlı seslerden bulabiliyordu,bunu geliştirdiler..bu da ciddi bi gelişme olarak görülemez zaten, ki; örneğin biz Türk milleti olarak ortalama 300 kelime kullanıyoruz,gerisini siz hesap edin..

soruya gelince;
arkadaşların da dediği gibi, elinde bi veri olmadan, karşılaştırma yapmadan bunu yapman imkansız (şimdilik..kimbilir ilerleyen yıllarda çözülebilir belki).
kolay gelsin.
fduman
Moderator
Mesajlar: 2749
Kayıt: 17 Ara 2004 12:02
Konum: Ankara

Mesaj gönderen fduman »

1. Bahsettiğin filtredeki gibi arka fon sesleri filtreleyip sadece sözleri elde etmen lazım ve bunu oldukça temiz parazitsiz bir şekilde elde etmen gerek.
2. Bir Voice Recognition algoritması ile bu ses verisini yazıya dönüştürmen lazım. Bununla Microsoft, IBM gibi firmalar halen uğraşıyorlar. Gene de %100 doğru bir şekilde yazıya dönüştürmeyi henüz yapamadılar. Microsoft'un kullandığı API açık. Hatta bununla ilgili Delphi componentleri mevcut.
Kullanıcı avatarı
tuanna
Üye
Mesajlar: 582
Kayıt: 06 Ara 2004 05:01
Konum: Ankara
İletişim:

Mesaj gönderen tuanna »

o zaman bu componentleri nereden bulabiliriz...
Siz hayal edin...Biz yapalım TuannaSoft...
Misafir

Mesaj gönderen Misafir »

coderlord yazdı:Bir Voice Recognition algoritması ile bu ses verisini yazıya dönüştürmen lazım.
hocam sence bu noktada bi karşılaştırma yapılmıyor mu?evetse, elinde veri olmaksızın neyle karşılaştırma yapabilirsin?
fduman
Moderator
Mesajlar: 2749
Kayıt: 17 Ara 2004 12:02
Konum: Ankara

Mesaj gönderen fduman »

Önceden eğitme gereksinimini diyorsun sanırım. Bu konuda haklısın. Ancak yeni uygulamalar eğitme gereksinimi olmadan da başarılı tanımalar yapabiliyor. Zamanla daha da gelişecektir eminim. Daha yolun çok başındayız. :D
Misafir

Mesaj gönderen Misafir »

peki eğitme gereksinimi duymadan neyi baz alarak tanıyabiliyor çok merak ettim.örneğin "delphi" derken 34-38-22-40-46-35 gibi spectrum (gösterge için örnektir) değeri dönerken, "visual" için 22-35-52-46-48-35 gibi bi değer dönecek..ikisi de 6 harf olmasına (yazıldığı gibi okunduğunu varsayıyorum, Türkçe'nin en önemli özelliğini dikkate aldım) rağmen ortada farklı değerler var.neye göre kontrol edilebilir bu sence?bir süre ses eşleme konusuyla ilgilenmiş ve gözardı edilmeyecek bi mesafe katetmiştim.bu nedenle merak ettim yeni gelişmeleri.
teşekkürler..
fduman
Moderator
Mesajlar: 2749
Kayıt: 17 Ara 2004 12:02
Konum: Ankara

Mesaj gönderen fduman »

Ben senin kadar geniş kapsamlı bir çalışma hiç yapmadım. Muhtemelen dile özel, generic datalarla çalışıyorlar veya algoritma kendi kendine öğreniyor kullanıcıdan geri-besleme alarak. Yanlız spectrum örneğinde bence bir eksiklik var. Orada sadece pik değerler değil, zaman da önemli.
Bu, zaman verisini de kullanarak vurgu, tonlama vs.. gibi , dile özel detaylar generic data kullanarak tanımlamada kullanılabilir.
Diğer detayları bilemeyeceğim.

İyi günler.
En son fduman tarafından 27 Oca 2005 02:18 tarihinde düzenlendi, toplamda 1 kere düzenlendi.
Misafir

Mesaj gönderen Misafir »

ben de editlemek durumunda kaldım :D
spectrum örneğindeki sadece fikir vermek içindi..oldukça detaylı bi konudur spectrum fikrimce..bir dönem radyolar için program yazıyorduk, ciddi olarak ilgilenmiştim..

evet geri besleme mantığı olabilir..

gvz.com sitesinde daha önce gördüğüm bişey vardı, emin değilim tabi ama koç şirketlerinin birisinin kendilerinin sistemlerini kullandıklarından bahsediyorlardı. bu sistemde ses tanınabiliyor(muş).yani ben merhaba dediğimde "delphi_coder hoşgeldin", sen merhaba dediğinde "coder lord hoşgeldin" diyor gibi bişey..gerçi hala bi patlama olmadı bu konuda kendilerinden ama..konuyla direkt alakası olmasa da paralel bi konu olduğundan bahsetmeden geçemedim.

kolay gelsin.
En son Misafir tarafından 27 Oca 2005 02:24 tarihinde düzenlendi, toplamda 2 kere düzenlendi.
fduman
Moderator
Mesajlar: 2749
Kayıt: 17 Ara 2004 12:02
Konum: Ankara

Mesaj gönderen fduman »

Mesaja birkaç ekleme yapmıştım. Sen benden önce davranıp mesaj atmışsın. :D
Kolay gelsin..
Abrak
Üye
Mesajlar: 189
Kayıt: 18 Kas 2004 05:30

Mesaj gönderen Abrak »

ilk önce kullanıcı harfleri tek tek söyleyerek kendi ses frekansını kaydecek örneğin a karşıtı 38 (atıyorum) daha sonra konuşma sırasında o harflerle söylenen kelime ile karşılaştırma yapacak kelimeyi nasıl harfle derseniz eğer frekans değişikliğini baz alarak pos olayı gibi kelimeyi bölüp daha sonra karşılaştırma yaparak yazacak ama önemli olan aynı tonda konuşmak için kullanıcının kendini kasması veya çok hassas cihazlar olması gerecektir.

Benim kafamda böyle bir algolitma oluştu
Başkasına Olan Saygımız.. Kendimize Olan saygıdır..
fduman
Moderator
Mesajlar: 2749
Kayıt: 17 Ara 2004 12:02
Konum: Ankara

Mesaj gönderen fduman »

Bu şekilde düz algoritmalar başarı sağlayamadığı için bu tür işlemlerde genetic veya fuzzy algoritmalar kullanılıyor. bkz. neural network, fuzzy logic.
Cevapla