Sektör

Dijital Varlık Yönetiminde OCR: Görüntüleri İşlem Yapılabilir Metne Dönüştürme

Abone Ol

OCR veya optik karakter tanıma, bir bilgisayarın belirli piksel konfigürasyonlarının karakter olduğunu tanıyabilmesini sağlama tekniğidir. Bu teknikle bilgisayarlar, görsellerdeki metni tanımlayarak onu kelime işlemciler aracılığıyla düzenlenebilecek bir formata çıkarabiliyor.

Bu, dijital varlık yönetiminde gerçekten faydalıdır. Dijital varlıklar, PDF dosyalarını, görüntüleri ve düzenlenemeyen metin içeren diğer formatları içerebilir. Bu tür varlıkları yönetmek için OCR'ye güvenmek önemlidir . Bugün size OCR'nin DAM'de (dijital varlık yönetimi) nasıl çalıştığını ve bazı avantajlarının neler olduğunu öğreteceğiz.

OCR DAM'de Nasıl Çalışır?

1.      Görüntü Yakalama/Edinme

Yani, ilk önce ilk şeyler. Düzenlenebilir metin formatları değil, görüntüler gibi dijital varlıkların düzenlenebilir ve yönetilebilir hale getirilmesi için bunların edinilmesi gerekir. Görüntüler için süreç oldukça basit ve basittir. Ancak diğer format ve kaynak türleri için önce bir görselin çekilmesi gerekir. Bu bir kameradan alınan resim olabileceği gibi ekran görüntüsü de olabilir.

Görüntü yakalandıktan/alındıktan sonra, metnin çıkarılması için bir OCR aracına beslenmesi gerekir. OCR aracı temel olarak fotoğrafı yazıya çevirme onu kelime işlemciyle uyumlu bir formata dönüştürebilen çevrimiçi bir yazılımdır . DAM'de varlık yöneticisinin, metinsel olmayan varlıklarını metinsel forma dönüştürebilmesi için bu tür OCR araçlarını kullanması gerekir. Neden metinsel bir form? Çünkü metin, onu varlık yönetimi için ideal kılan aşağıdaki özelliklere sahiptir.

 

●       Aranabilir. Tek tek kelimeleri, kelime öbeklerini ve cümleleri veya bunların bir grubunu arayabilirsiniz.

●       Organize edilmesi ve saklanması kolaydır.

Bu nedenler onu varlık yönetimi için mükemmel kılar. Yani görüntü yakalandıktan sonra bir sonraki adım aracın kendisine kalmıştır.

2.      Metin Çıkarma

Bir görüntüden metin çıkarmak için, görüntüden metne dönüştürücü, metni tanımak amacıyla birkaç algoritma çalıştırır. Bunu yapmak için tipik bir OCR aracı aşağıdaki adımları gerçekleştirir.

Görüntülerin ön işlenmesi . Bu adımda görüntünün temizlenmesi (gürültü giderme), kontrastın arttırılması (ikilileştirme) ve kenar yumuşatma gibi işlemler gerçekleşir. Temel olarak, resimlerde çok fazla gürültü var , yani kaldırılması gereken istenmeyen makaleler var. Daha sonra metnin arka plandan öne çıkabilmesi için kontrastın artırılması gerekir . Daha sonra metin tanımanın doğruluğunu artırmak için karakterlerin kenarları yumuşatılır. Bu ön işlemede yapılır.

Karakter Tanıma. Ön işleme tamamlandıktan sonra araç gerçek metni tanımaya başlar. Ancak bu aşamada sadece söz dizimi ile ilgilenilmektedir. Metni tanımak için iki farklı teknik vardır:

●       Desen tanıma. Örüntü tanıma, karakterlerin şekil ve desenlerini tanıma tekniğidir. Makine öğrenimi modelleri çeşitli yazı tipleri üzerinde eğitilir ve bu modeller görüntülerdeki karakterleri tanımak için kullanılır. Standart yazı tiplerinde çalışır

●       Özellik çıkarma. Özellik çıkarma ise karakterlerin özelliklerini tanıma ve bunları doğru sözdizimini çıkarmak için kullanma tekniğidir. ve Bu yaklaşım, el yazısını, duvar yazısını ve diğer standart dışı yazı tipi ve stilleri tanımak için çok daha iyidir. Ancak dezavantajı, bunun daha fazla işlem gücü ve zaman gerektirmesidir.

Modern araçlar her ikisinin bir karışımını kullanır, böylece resimlerden her türlü metni kopyalayabilirler. İşte perde arkasında bir OCR aracında olan şey budur. Ama henüz bitmedi, bir şey daha kaldı.

3.      Çıktıyı Anlamlandırmak

Metin tanındıktan sonra iyi bir OCR aracı aslında tüm metnin düzeltmelerini yapar ve onu anlamlandırmaya çalışır. Her bir karakteri tanımış olabilir ancak bunu doğru yapıp yapmadığını bilmiyor. Bunu anlamak için oluşan kelime ve cümlelere bakar ve bunların anlamlı olup olmadığını kontrol eder.

Örneğin “elma” kelimesi “epple” olarak yanlış yazılmış olabilir. Akıllı bir OCR aracı bunun gerçek yazım olmadığını bildiğinden onu "elma" olarak düzeltir. Peki ya insanların "sanatsal" seçimler nedeniyle bir şeyleri kasıtlı olarak yanlış yazdığı zamanlar? Bu durumda, bazı OCR araçları, hatanın, resmin tanınmasından ziyade resimde olduğunu fark edebilir ve bu yüzden onu olduğu gibi bırakırlar.

Ve nihai sonuç, kullanıcıya en az sayıda hatanın olduğu yerde bu şekilde gösterilir. Bu işlem %100 doğru olmadığından bazı hatalar geçebilir. Her neyse, bu son veriler daha sonra aranması, aranması ve gerekirse düzenlenmesi kolay olacak şekilde saklanır. OCR'nin DAM'de kullanılmasının ana nedeni de budur.

DAM'de OCR kullanmanın avantajları

DAM'de OCR kullanmanın diğer bazı avantajları şunlardır.

1.      Metin Dışı Verilerin Aranabilirliğini Artırır

 

İçinde metin bulunan görsellerde sorun var. Resim olarak saklanan bazı verileri arıyorsanız, onu bulmak için resim dosyasının tam adını hatırlamanız gerekecektir. Bu her zaman mümkün olmuyor ve bu gibi durumlarda görüntünün nereye kaydedildiğini bulmak büyük bir angarya haline geliyor.

Ancak böyle bir görüntüdeki metin bir OCR aracı kullanılarak çıkarılmışsa, arayan kişi onu kolayca bulabilir. Yaygın bir örnek, Word belgeleridir. İçinde belirli bir alıntı veya şekil bulunan bir dosya aradığınızı varsayalım. Belge bir Word dosyası olarak kaydedildiyse o zaman söz konusu alıntıyı veya şekli aramanız yeterlidir. Veritabanı , söz konusu alıntı/şeklin örneklerini içeren tüm belgeleri inceleyecek ve bunları size gösterecektir.

Bu görsellerle yapılamaz. Bu da dijital varlıkları depolamak için OCR araçlarını kullanmanın büyük bir avantajıdır.

2.      Gelişmiş Erişilebilirlik

 

Görme engeli olan kişiler görselleri kendileri bulamazlar. Ya kendilerine yardım edecek başka bir kişiye ihtiyaç duyarlar ya da alet kullanmaları gerekir. Bir veritabanında arama yapmak için ekran okuyucuları metinden konuşmaya yazılımıyla birlikte kullanabilirler. Ancak bu yalnızca görsellerin, görselin içindeki tüm metni de içeren bir metin belgesiyle birlikte kaydedilmesi durumunda mümkündür.

3.      Zaman tasarrufu

Bu belki de resimlerden metin kopyalamak için OCR araçlarını kullanmanın en önemli yönüdür. Görüntü ararken kazanılan zaman miktarı gerçek değil. Görüntülerde bulunan metin verilerini ararken dakikalarca olmasa da saatlerce tasarruf edebilirsiniz . Ve bu yalnızca OCR sayesinde mümkündür.

Çözüm

İşte dijital varlık yönetiminde OCR'nin düşüşü budur. Nasıl çalıştığına ve avantajlarına baktık. Zamandan tasarruf sağladığını, kullanışlı olduğunu ve görme engellilerin erişilebilirliğini artırdığını gördük. Bunların hepsi özellikle dijital varlık yönetimi açısından büyük avantajlardır .