تشخیص نوری حروف (OCR)  و نقش آن در  ترجمه عکس

آیا تابه‌حال درباره تشخیص نوری حروف (OCR) چیزی شنیده‌اید؟ همان‌طور که مترجمان انسانی نمی‌توانند متنی را که قابل مشاهده نیست ترجمه کنند، موتورهای ترجمه ماشینی نیز قادر نیستند بدون استخراج متن از دل تصاویر، اسناد اسکن‌شده یا فایل‌هایPDF، آن را پردازش و ترجمه کنند. با گسترش روزافزون استفاده از مترجم‌های آنلاین هوش مصنوعی، ترجمه ماشینی به ابزاری قدرتمند و پرکاربرد تبدیل شده است. بااین‌حال، بسیاری از متونی که نیاز به ترجمه دارند، در قالب دیجیتال و قابل‌پردازش نیستند، بلکه به‌صورت تصویری یا در قالب غیرمتنی ذخیره شده‌اند. این یعنی ابزارهای ترجمه نمی‌توانند آن‌ها را «ببینند» و درک کنند.

در چنین شرایطی، فناوری تشخیص نوری حروف (OCR) به‌عنوان نخستین گام در مسیر ترجمه وارد عمل می‌شود. OCR با دقت بالا، متن را از دل تصویر استخراج می‌کند و آن را به داده‌ای قابل‌پردازش برای سامانه‌های ترجمه تبدیل می‌سازد.

تشخیص نوری حروف (OCR)

تشخیص نوری حروف (OCR) چیست؟

تشخیص کاراکتر نوری (Optical Character Recognition) که به آن «تشخیص نوری حروف» یا «نویسه‌خوانی نوری» نیز گفته می‌شود، فناوری‌ای است که متن موجود در تصاویر، مانند اسناد اسکن‌شده، عکس‌های گرفته‌شده توسط دوربین، یا فایل‌های PDF را به داده‌های متنی قابل خواندن و پردازش توسط ماشین تبدیل می‌کند. 

این فناوری با شناسایی و استخراج کاراکترها، کلمات و جملات از تصاویر، امکان ویرایش، جست‌وجو و تحلیل محتوا را فراهم کرده و نیاز به ورود دستی داده‌ها را از بین می‌برد.

OCR از ترکیبی از سخت‌افزار (مانند اسکنرهای نوری) و نرم‌افزارهای پیشرفته استفاده می‌کند که در چند سال اخیر، با بهره‌گیری از هوش مصنوعی (AI) و یادگیری ماشین، دقت و کارایی آن بهبود یافته است.

OCR به‌عنوان یک ابزار کلیدی در دیجیتالی‌کردن اسناد، اتوماسیون فرآیندهای تجاری، و آماده‌سازی متون برای ترجمه ماشینی عمل می‌کند. 

تاریخچه تشخیص نوری حروف (OCR) 

فناوری تشخیص نوری کاراکتر (OCR) فناوری قدیمی است و نخستین الهام‌های آن به ساخت ماشین‌هایی برای نابینایان در قرن نوزدهم بازمی‌گردد. بااین‌حال، شکل عملی و کاربردی این فناوری از میانه قرن بیستم توسعه یافت. در دهه‌های ۱۹۶۰ و ۱۹۷۰، سیستم‌های OCR در سطح جهانی گسترش یافتند و یکی از نخستین کاربردهای مهم آن‌ها، دسته‌بندی خودکار نامه‌ها براساس کد پستی بود.

فناوری‌های اولیه OCR در شناسایی دست‌نوشته‌ها یا فونت‌های مختلف با چالش‌های جدی روبه‌رو بودند، تا اینکه نوآورانی مانند «ری کرزویل» با توسعه سیستم‌های «اومنی‌فونت» که قادر به شناسایی متن در تقریباً هر فونتی بودند، مسیر پیشرفت را هموار کردند. ری کرزویل در سال ۱۹۷۴ شرکت Kurzweil Computer Products را تأسیس کرد و دستگاهی برای نابینایان ساخت که متون چاپی را با تبدیل به گفتار برای آن‌ها می‌خواند. در سال ۱۹۸۰، این شرکت به Xerox فروخته شد تا مسیر تجاری‌سازی فناوری OCR سرعت بیشتری بگیرد.

با ظهور رایانه‌های شخصی و اینترنت، تحول بزرگی در توسعه OCR رخ داد. در دهه ۱۹۹۰، این فناوری به‌طور گسترده برای دیجیتالی‌سازی روزنامه‌های تاریخی به کار رفت و از آن زمان تاکنون، دقت و قابلیت‌های آن به‌طور چشمگیری افزایش یافته‌اند. امروزه فناوری‌های پیشرفته OCR قادرند جریان‌های پیچیده پردازش اسناد را به‌صورت خودکار انجام دهند.

امروزه نرم‌افزارهای OCR در دسترس عموم هستند و حتی در تلفن‌های هوشمند نیز قابل استفاده‌اند؛ نمونه‌ای از آن، Google Cloud Vision OCR است که امکان اسکن و ذخیره‌سازی اسناد را از طریق گوشی فراهم می‌کند. همچنین  نرم افزار ocr فارسی ترجمیفای، که یک ترجمه آنلاین متون و تصاویر فارسی است، نمونه دیگری از این تکنولوژی محسوب می‌گردد. 

پیشرفت‌های سریع در زمینه هوش مصنوعی نیز باعث شده‌اند که OCR به دقتی نزدیک به کامل دست یابد و به ابزاری حیاتی در فرایندهای دیجیتال‌سازی تبدیل شود.

فناوری OCR و کاربرد آن - ایرانتک

انواع تکنولوژی OCR 

فناوری OCR براساس کاربرد و پیچیدگی، به چهار نوع اصلی تقسیم می‌شود که در ادامه به‌طور کامل توضیح داده شده‌اند.

1. تشخیص نوری ساده حروف (Simple OCR)

در این نوع OCR، فرآیند شناسایی کاراکترها براساس تطبیق الگوهای تصویری با قالب‌های ذخیره‌شده (glyphs) انجام می‌شود. نرم‌افزار OCR کاراکترهای موجود در تصویر را یک‌به‌یک با پایگاه داده‌ای از فونت‌ها و الگوهای متنی مقایسه می‌کند.

ویژگی‌ها:

  • مناسب برای متون چاپی با فونت‌های استاندارد.
  • محدودیت در شناسایی فونت‌ها و زبان‌های غیرمعمول یا دست‌نوشته‌ها.

این ابزار ترجمه عکس در دیجیتالی‌کردن اسناد ساده مانند کتاب‌ها یا فرم‌های چاپی با فونت‌های مشخص استفاده می‌شود. 

نکته: اگر تطبیق در سطح کلمات انجام شود، OCR ساده به‌عنوان تشخیص کلمه نوری (Optical Word Recognition) نیز شناخته می‌شود.

2. تشخیص نوری علامت (Optical Mark Recognition – OMR)

این نوع OCR برای شناسایی علائم، نمادها و نشانه‌های خاص مانند کادرهای علامت‌گذاری‌شده در فرم‌ها، امضاها، لوگوها، واترمارک‌ها یا نمادهای متنی طراحی شده است. OMR نیز از تطبیق الگو با تصاویر ذخیره‌شده استفاده می‌کند.

ویژگی‌ها:

  • تمرکز بر شناسایی اشکال غیرمتنی مانند کادرهای تیک‌خورده در نظرسنجی‌ها یا فرم‌های استاندارد.
  • دقت بالا در شناسایی علائم مشخص، اما محدود به الگوهای از پیش تعریف‌شده.

کاربردهای این نوع مترجم تصویر دیجیتال، در پردازش فرم‌های نظرسنجی، آزمون‌های چندگزینه‌ای و اسناد حاوی علائم یا لوگوهای خاص است.

3. تشخیص هوشمند کاراکتر (Intelligent Character Recognition – ICR)

ICR نسخه پیشرفته‌تری از OCR است که با استفاده از هوش مصنوعی و یادگیری ماشین (به‌ویژه شبکه‌های عصبی) کاراکترها را شناسایی می‌کند. این فناوری با تحلیل مکرر تصاویر و جست‌وجوی ویژگی‌های متمایز مانند منحنی‌ها، خطوط، تقاطع‌ها و حلقه‌ها، مشابه فرآیند یادگیری انسان عمل می‌کند.

ویژگی‌ها:

  • توانایی شناسایی متون دست‌نویس و فونت‌های غیراستاندارد.
  • بهبود مستمر دقت از طریق آموزش و تمرین با داده‌های متنوع.

این نوع از تشخیص نوری حروف (OCR)  برای متون چندزبانه و اسناد پیچیده مناسب است و برای دیجیتالی‌کردن اسناد دست‌نویس، مانند نامه‌ها یا یادداشت‌های تاریخی، و پردازش متون در زبان‌های مختلف استفاده می‌شود.

4. تشخیص هوشمند کلمه (Intelligent Word Recognition)

این نوع OCR، نسخه تکامل‌یافته ICR است که به‌جای تحلیل کاراکترها به‌صورت جداگانه، کل کلمات را به‌عنوان یک تصویر واحد شناسایی می‌کند. این روش با استفاده از یادگیری عمیق، سرعت و دقت بالاتری در پردازش متون ارائه می‌دهد.

ویژگی‌ها:

  • پردازش سریع‌تر به‌دلیل شناسایی کلمات به‌صورت یکپارچه.
  • کاهش خطاها در متون پیچیده با استفاده از تحلیل زمینه‌ای.

کاربرد آن در استخراج سریع متن از اسناد با فرمت‌های غیراستاندارد، مانند روزنامه‌ها یا مجلات قدیمی است که کیفیت پایینی دارند.

روش عملکرد تشخیص نوری حروف (OCR)

فناوری ترجمه عکس به متن فرآیندی چندمرحله‌ای است که شامل دریافت تصویر، پیش‌پردازش، شناسایی متن و پس‌پردازش است. هر نوع OCR (تشخیص نوری حروف ساده، تشخیص نوری علامت، تشخیص هوشمند کاراکتر و تشخیص هوشمند کلمه) ممکن است در برخی مراحل، به‌ویژه در شناسایی متن، رویکردهای متفاوتی داشته باشد. در ادامه، مراحل عملکرد OCR به‌صورت ساختارمند شرح داده شده است.

1. دریافت تصویر (Image Acquisition)

فرآیند OCR با اسکن سند یا گرفتن تصویر از آن آغاز می‌شود. سخت‌افزارهایی مانند اسکنرهای نوری یا دوربین‌ها، سند را به داده‌های باینری (تصاویر دیجیتال) تبدیل می‌کنند. نرم‌افزار OCR تصویر را به فرمت دو رنگ (معمولاً سیاه‌وسفید) تبدیل کرده و نواحی روشن را به‌عنوان پس‌زمینه و نواحی تیره را به‌عنوان متن شناسایی می‌کند.

2. پیش‌پردازش (Preprocessing)

در این مرحله، تصویر دیجیتال برای بهبود کیفیت و آماده‌سازی برای شناسایی متن، پاک‌سازی می‌شود. تکنیک‌های پیش‌پردازش شامل موارد زیر است:

  • Deskewing: اصلاح کجی تصویر ناشی از اسکن نادرست.
  • Despeckling: حذف نویزهای دیجیتال یا لکه‌های کوچک از تصویر.
  • حذف خطوط و کادرها: پاک‌سازی خطوط گرافیکی، جداول یا کادرهای اضافی.
  • تشخیص اسکریپت: شناسایی زبان یا نوع خط (مانند عربی، چینی، لاتین) برای متون چندزبانه.

با مطالعه مقاله «روش‌های بهینه سازی تصویر برای استخراج متن» می‌توانید اطلاعات بیشتری درباره پیش‌پردازش پیدا کنید. 

3. شناسایی متن (Text Recognition)

این مرحله هسته اصلی فرآیند تشخیص نوری حروف (OCR) و ترجمه عکس است که در آن کاراکترها، کلمات یا نمادها در تصویر شناسایی می‌شوند. OCR از دو الگوریتم اصلی برای شناسایی متن استفاده می‌کند: تطبیق الگو (Pattern Matching) و استخراج ویژگی (Feature Extraction). بسته به‌نوع OCR، رویکرد شناسایی متفاوت است.

تطبیق الگو (Pattern Matching)

در این روش، تصویر هر کاراکتر (glyph) با پایگاه داده‌ای از الگوهای ذخیره‌شده مقایسه می‌شود. این روش زمانی کارآمد است که فونت و مقیاس کاراکترها با الگوهای ذخیره‌شده مطابقت داشته باشد.

Simple OCR به‌طور گسترده از تطبیق الگو استفاده می‌کند و محدود به فونت‌های شناخته‌شده است. به‌دلیل تنوع فونت‌ها و زبان‌ها (مانند عربی، چینی، یا لاتین)، این روش برای متون غیراستاندارد یا دست‌نوشته‌ها کارایی محدودی دارد. در مقابلOMR برای شناسایی علائم خاص (مانند کادرهای تیک‌خورده، لوگوها یا واترمارک‌ها) از تطبیق الگو استفاده می‌کند و نیازی به تحلیل پیچیده ندارد.

استخراج ویژگی (Feature Extraction)

در این روش، کاراکترها را به ویژگی‌های ساده‌تر مانند خطوط، منحنی‌ها، تقاطع‌ها و حلقه‌ها تجزیه می‌کند و سپس آن‌ها را با الگوهای ذخیره‌شده مقایسه می‌کند. برای مثال، حرف “A” به‌عنوان دو خط مورب که با یک خط افقی در وسط به هم متصل شده‌اند، شناسایی می‌شود.

ICR از استخراج ویژگی با استفاده از یادگیری ماشین و شبکه‌های عصبی بهره می‌برد تا متون دست‌نویس یا فونت‌های ناآشنا را شناسایی کند. Intelligent Word Recognition هم به‌جای کاراکترها، کل کلمات را به‌عنوان یک تصویر واحد تحلیل می‌کند و با استفاده از یادگیری عمیق، سرعت و دقت را بهبود می‌بخشد.

4. تحلیل ساختار (Layout Recognition)

در این مرحله ترجمه آنلاین عکس، نرم‌افزار OCR ساختار سند را تحلیل می‌کند و عناصر مختلف مانند بلوک‌های متنی، جداول، یا تصاویر را شناسایی می‌کند. خطوط به کلمات و کلمات به کاراکترها تقسیم می‌شوند، سپس با الگوهای ذخیره‌شده مقایسه می‌شوند تا متن نهایی استخراج شود.

5. پس‌پردازش (Postprocessing)

پس از شناسایی متن، داده‌های استخراج‌شده به فرمت‌های دیجیتال قابل ویرایش (مانند فایل متنی یا PDF) تبدیل می‌شوند. برخی سیستم‌های OCR فایل‌های PDF حاشیه‌نویسی‌شده تولید می‌کنند که شامل نسخه‌های قبل و بعد از پردازش است. در این مرحله، خطاها با استفاده از دیکشنری‌ها یا مدل‌های زبانی تصحیح می‌شوند و متن برای جست‌وجو، ویرایش یا پردازش‌های بعدی (مانند ترجمه) آماده می‌شود. 

مترجم دوربین که نرم‌افزاری است روی تلفن همراه نصب شده و با ثبت عکس، متون را از آن استخراج می‌کند، در حقیقت نوعی تشخیص نوری حروف (OCR) محسوب می‌شود. 

کاربردهای نویسه‌خوانی نوری 

در ادامه به‌شکل مختصر کاربردهای او سی آر را معرفی می‌کنیم.

  • دیجیتالی‌کردن اسناد: تبدیل اسناد کاغذی مانند کتاب‌ها، قراردادها، فاکتورها و اسناد تاریخی به فرمت‌های دیجیتال قابل جست‌وجو و ویرایش.
  • اتوماسیون فرآیندهای تجاری: خودکارسازی ورود داده‌ها در فرآیندهایی مانند پردازش فاکتورها، فرم‌ها و اسناد حقوقی برای کاهش زمان و خطاهای انسانی.
  • ترجمه ماشینی: استخراج متن از تصاویر یا فایل‌های PDF برای آماده‌سازی آن‌ها جهت پردازش توسط ابزارهای ترجمه مانند Google Translate.
  • دسترسی‌پذیری: کمک به افراد نابینا یا کم‌بینا با تبدیل متون تصویری به فرمت‌های قابل خواندن توسط نرم‌افزارهای متن‌خوان و تبدیل به گفتار.
  • دیجیتالی‌کردن آرشیوها: تبدیل آرشیوهای تاریخی، مانند روزنامه‌ها و مجلات قدیمی، به فرمت‌های دیجیتال برای حفظ و دسترسی آسان‌تر.
  • پردازش فرم‌ها و نظرسنجی‌ها: شناسایی و استخراج داده‌ها از فرم‌های کاغذی، مانند کادرهای علامت‌گذاری‌شده در نظرسنجی‌ها یا آزمون‌های چندگزینه‌ای (با استفاده از OMR).
  • مدیریت اسناد در سازمان‌ها: سازمان‌دهی و جست‌وجوی سریع اسناد دیجیتال در سیستم‌های مدیریت محتوا.
  • شناسایی متون چندزبانه: پشتیبانی از خطوط و زبان‌های مختلف، مانند دیواناگری در هند یا خطوط عربی و چینی.
  • اتوماسیون بانکی و مالی: استخراج اطلاعات از چک‌ها، رسیدها و اسناد مالی برای پردازش سریع‌تر .
  • کاربردهای امنیتی: شناسایی و استخراج متن از اسناد هویتی، مانند پاسپورت‌ها یا کارت‌های شناسایی، برای تأیید هویت.
  • تحلیل داده‌ها: تبدیل متون تصویری به داده‌های قابل تحلیل برای استفاده در ابزارهای تجزیه‌وتحلیل داده‌ها و هوش تجاری.

مزایای تکنولوژی OCR 

فناوری نویسه‌خوانی نوری (OCR) با تبدیل اسناد چاپی و تصاویر به داده‌های متنی دیجیتال، تحول بزرگی در مدیریت اطلاعات ایجاد کرده است. این فناوری امکان جست‌وجوی سریع در آرشیوهای دانش را فراهم می‌کند و با دیجیتالی‌کردن اسناد، تحلیل داده‌ها را با ابزارهای هوش مصنوعی ممکن می‌سازد. OCR با خودکارسازی فرآیندها بهره‌وری عملیاتی را افزایش داده و هزینه‌های ورود دستی داده‌ها را کاهش می‌دهد. تکنولوژی تشخیص نوری حروف با حذف نیاز به ذخیره اسناد کاغذی، هزینه‌های ذخیره‌سازی را کاهش داده و امنیت داده‌ها را در برابر حوادثی مانند آتش‌سوزی بهبود می‌بخشد. 

معایب تکنولوژی OCR 

فناوری OCR با وجود مزایا، محدودیت‌هایی نیز دارد. سیستم‌های OCR هزینه‌بر هستند و به فضای ذخیره‌سازی زیادی برای تصاویر دیجیتال نیاز دارند. کیفیت خروجی به کیفیت تصویر اولیه وابسته است و ممکن است در فرآیند اسکن کیفیت کاهش یابد، که منجر به خطاهای شناسایی می‌شود. OCR صددرصد دقیق نیست و نیاز به بررسی و تصحیح دستی دارد، که زمان‌بر است. برای حجم کم متن، استفاده از OCR مقرون‌به‌صرفه نیست، زیرا فرآیند اسکن و تصحیح ممکن است از ورود دستی داده‌ها پرهزینه‌تر و زمان‌برتر باشد. این محدودیت‌ها کاربرد OCR را در برخی سناریوها محدود می‌کند. 

پیشرفت‌های اخیر او سی آر

فناوری نویسه‌خوانی نوری (OCR) با پیشرفت‌های اخیر، به‌ویژه در حوزه هوش مصنوعی و یادگیری عمیق، تحول چشمگیری یافته است. شبکه‌های عصبی عمیق، مانند آن‌هایی که در ابزارهایی مثل Tesseract و Amazon Textract استفاده می‌شوند، دقت شناسایی متن را در اسناد پیچیده، دست‌نوشته‌ها و زبان‌های راست‌به‌چپ مانند فارسی و عربی بهبود بخشیده‌اند. 

سرویس‌هایی مانند OCR کارت ملی آیفا در ایران، با بهره‌گیری از الگوریتم‌های پیشرفته، احراز هویت دیجیتال را تسهیل کرده‌اند. همچنین، ابزارهای منبع‌باز مانند olmOCR با به‌روزرسانی‌هایی نظیر بنچمارک‌های جدید و پردازش سریع‌تر، کارایی را افزایش داده‌اند. این پیشرفت‌ها، OCR را برای کاربردهای چندزبانه و پیچیده کارآمدتر کرده است.

  1. تعریف OCR (تبدیل تصاویر متنی به متن قابل ویرایش)
  2. OCR چیست؟ راهنمای جامع فناوری تشخیص نوری کاراکترها
  3. پردازش اسناد با OCR: کاربردها و مزایا
  4. مزایا و معایب OCR در شبکه‌های کامپیوتری
  5. تشخیص نوری کاراکترها (OCR) از دیدگاه IBM
  6. سرویس‌های OCR در AWS و کاربردهای آن
اسکرول به بالا