resimleri birleştirip ocr lı pdf yapma ve kelime işaretleme
Forum kuralları
Forum kurallarını okuyup, uyunuz!
Forum kurallarını okuyup, uyunuz!
resimleri birleştirip ocr lı pdf yapma ve kelime işaretleme
Delphi ile bilgisayarda bulunan abc kalsörü altında ki resimleri birleştirip tek dosya pdf yapmam ve sonrasında bu pdf içinde vereceğim anahtar kelimelere göre ilgili kelimeleri bulup üzerini işaretlemem lazım. En sonunda ise hangi sayfa numaralarında işaretleme yapmışsam bunu ekranda göstermem gerekecek. Bu işlem için hangi komponente ihtiyacım olacak. Özellikle türkçe OCR konusunda hızlı ve mümkün olan en iyi ocr teknolojisini barındırması gerekecek.
- sabanakman
- Kıdemli Üye
- Mesajlar: 3077
- Kayıt: 17 Nis 2006 08:11
- Konum: Ah bi Antalya olaydı keşke (Ankara)
Re: resimleri birleştirip ocr lı pdf yapma ve kelime işaretleme
İyi günler. Resimleri pdf'e çevirirken sayfaların resim biçimiyle birleştirilmesinin farklı yolları olabilir. Debenu, SynPDF kütüphaneleri bunlardan bazısı olabilir veya pdf yazıcı üzerinden pdf dosyalara yazdırma (v.s...) işlemi de kullanılabilir. Fakat resimleri bir word belgesi gibi pdf ye çevirmek başlı başına ciddi bir iş olacaktır.
OCR meselesinde ise ister resimleri direkt olarak ister PDF içinden direkt sayfa seçerek karakter çözme işlemini Nicomsoft'un ücretsiz olarak yayınlanan API uygulamasını kullanabilirsiniz. Bu kütüphanede yanlış hatırlamıyorsam resimler üzerinden olduğu gibi PDF üzerinden de OCR işlemi yapabiliyordu.
OCR işleminin bir başka yöntemi ise Ghost Script veya XPdf gibi kütüphaneler kullanılarak istenen sayfanın (dosyaya çıkartarak) resmini çekip daha sonra o resim üzerinden OCR işleminin yapılmasıdır. Bu gibi kütüphaneler pdf belge içeriğinde bulunan yazıları text olarak çıkarma becerisine sahip olsalar bile PDF sayfaları word belgesi gibi olmayan resim biçimli belgelerden yazıları çıkartamazlar. Çünkü bilgiler resim formatındadır. Bu resimler ancak OCR işlemine tabi tutulduktan sonra yazıları elde edebilirsiniz ve bu da yukarıda belirttiğim Nicomsoft veya TTesseractOCR gibi kütüphaneler kullanılarak yapılabilir. İyi çalışmalar.
OCR meselesinde ise ister resimleri direkt olarak ister PDF içinden direkt sayfa seçerek karakter çözme işlemini Nicomsoft'un ücretsiz olarak yayınlanan API uygulamasını kullanabilirsiniz. Bu kütüphanede yanlış hatırlamıyorsam resimler üzerinden olduğu gibi PDF üzerinden de OCR işlemi yapabiliyordu.
OCR işleminin bir başka yöntemi ise Ghost Script veya XPdf gibi kütüphaneler kullanılarak istenen sayfanın (dosyaya çıkartarak) resmini çekip daha sonra o resim üzerinden OCR işleminin yapılmasıdır. Bu gibi kütüphaneler pdf belge içeriğinde bulunan yazıları text olarak çıkarma becerisine sahip olsalar bile PDF sayfaları word belgesi gibi olmayan resim biçimli belgelerden yazıları çıkartamazlar. Çünkü bilgiler resim formatındadır. Bu resimler ancak OCR işlemine tabi tutulduktan sonra yazıları elde edebilirsiniz ve bu da yukarıda belirttiğim Nicomsoft veya TTesseractOCR gibi kütüphaneler kullanılarak yapılabilir. İyi çalışmalar.
Şaban Şahin AKMAN
_________________
Derin olan kuyu değil kısa olan iptir. - .
_________________
Derin olan kuyu değil kısa olan iptir. - .