resimleri birleştirip ocr lı pdf yapma ve kelime işaretleme

Delphi'de kod yazma ile ilgili sorularınızı bu foruma yazabilirsiniz.
Cevapla
kazimates
Üye
Mesajlar: 324
Kayıt: 30 Haz 2005 11:40
Konum: Kıbrıs
İletişim:

resimleri birleştirip ocr lı pdf yapma ve kelime işaretleme

Mesaj gönderen kazimates » 12 Şub 2019 12:47

Delphi ile bilgisayarda bulunan abc kalsörü altında ki resimleri birleştirip tek dosya pdf yapmam ve sonrasında bu pdf içinde vereceğim anahtar kelimelere göre ilgili kelimeleri bulup üzerini işaretlemem lazım. En sonunda ise hangi sayfa numaralarında işaretleme yapmışsam bunu ekranda göstermem gerekecek. Bu işlem için hangi komponente ihtiyacım olacak. Özellikle türkçe OCR konusunda hızlı ve mümkün olan en iyi ocr teknolojisini barındırması gerekecek.

Kullanıcı avatarı
sabanakman
Kıdemli Üye
Mesajlar: 3042
Kayıt: 17 Nis 2006 07:11
Konum: Ah bi Antalya olaydı keşke (Ankara)

Re: resimleri birleştirip ocr lı pdf yapma ve kelime işaretleme

Mesaj gönderen sabanakman » 13 Şub 2019 07:44

İyi günler. Resimleri pdf'e çevirirken sayfaların resim biçimiyle birleştirilmesinin farklı yolları olabilir. Debenu, SynPDF kütüphaneleri bunlardan bazısı olabilir veya pdf yazıcı üzerinden pdf dosyalara yazdırma (v.s...) işlemi de kullanılabilir. Fakat resimleri bir word belgesi gibi pdf ye çevirmek başlı başına ciddi bir iş olacaktır.

OCR meselesinde ise ister resimleri direkt olarak ister PDF içinden direkt sayfa seçerek karakter çözme işlemini Nicomsoft'un ücretsiz olarak yayınlanan API uygulamasını kullanabilirsiniz. Bu kütüphanede yanlış hatırlamıyorsam resimler üzerinden olduğu gibi PDF üzerinden de OCR işlemi yapabiliyordu.

OCR işleminin bir başka yöntemi ise Ghost Script veya XPdf gibi kütüphaneler kullanılarak istenen sayfanın (dosyaya çıkartarak) resmini çekip daha sonra o resim üzerinden OCR işleminin yapılmasıdır. Bu gibi kütüphaneler pdf belge içeriğinde bulunan yazıları text olarak çıkarma becerisine sahip olsalar bile PDF sayfaları word belgesi gibi olmayan resim biçimli belgelerden yazıları çıkartamazlar. Çünkü bilgiler resim formatındadır. Bu resimler ancak OCR işlemine tabi tutulduktan sonra yazıları elde edebilirsiniz ve bu da yukarıda belirttiğim Nicomsoft veya TTesseractOCR gibi kütüphaneler kullanılarak yapılabilir. İyi çalışmalar.
Şaban Şahin AKMAN
_________________
Derin olan kuyu değil kısa olan iptir. - .

Cevapla