آیا تابهحال درباره تشخیص نوری حروف (OCR) چیزی شنیدهاید؟ همانطور که مترجمان انسانی نمیتوانند متنی را که قابل مشاهده نیست ترجمه کنند، موتورهای ترجمه ماشینی نیز قادر نیستند بدون استخراج متن از دل تصاویر، اسناد اسکنشده یا فایلهایPDF، آن را پردازش و ترجمه کنند. با گسترش روزافزون استفاده از مترجمهای آنلاین هوش مصنوعی، ترجمه ماشینی به ابزاری قدرتمند و پرکاربرد تبدیل شده است. بااینحال، بسیاری از متونی که نیاز به ترجمه دارند، در قالب دیجیتال و قابلپردازش نیستند، بلکه بهصورت تصویری یا در قالب غیرمتنی ذخیره شدهاند. این یعنی ابزارهای ترجمه نمیتوانند آنها را «ببینند» و درک کنند.
در چنین شرایطی، فناوری تشخیص نوری حروف (OCR) بهعنوان نخستین گام در مسیر ترجمه وارد عمل میشود. OCR با دقت بالا، متن را از دل تصویر استخراج میکند و آن را به دادهای قابلپردازش برای سامانههای ترجمه تبدیل میسازد.

تشخیص نوری حروف (OCR) چیست؟
تشخیص کاراکتر نوری (Optical Character Recognition) که به آن «تشخیص نوری حروف» یا «نویسهخوانی نوری» نیز گفته میشود، فناوریای است که متن موجود در تصاویر، مانند اسناد اسکنشده، عکسهای گرفتهشده توسط دوربین، یا فایلهای PDF را به دادههای متنی قابل خواندن و پردازش توسط ماشین تبدیل میکند.
این فناوری با شناسایی و استخراج کاراکترها، کلمات و جملات از تصاویر، امکان ویرایش، جستوجو و تحلیل محتوا را فراهم کرده و نیاز به ورود دستی دادهها را از بین میبرد.
OCR از ترکیبی از سختافزار (مانند اسکنرهای نوری) و نرمافزارهای پیشرفته استفاده میکند که در چند سال اخیر، با بهرهگیری از هوش مصنوعی (AI) و یادگیری ماشین، دقت و کارایی آن بهبود یافته است.
OCR بهعنوان یک ابزار کلیدی در دیجیتالیکردن اسناد، اتوماسیون فرآیندهای تجاری، و آمادهسازی متون برای ترجمه ماشینی عمل میکند.
تاریخچه تشخیص نوری حروف (OCR)
فناوری تشخیص نوری کاراکتر (OCR) فناوری قدیمی است و نخستین الهامهای آن به ساخت ماشینهایی برای نابینایان در قرن نوزدهم بازمیگردد. بااینحال، شکل عملی و کاربردی این فناوری از میانه قرن بیستم توسعه یافت. در دهههای ۱۹۶۰ و ۱۹۷۰، سیستمهای OCR در سطح جهانی گسترش یافتند و یکی از نخستین کاربردهای مهم آنها، دستهبندی خودکار نامهها براساس کد پستی بود.
فناوریهای اولیه OCR در شناسایی دستنوشتهها یا فونتهای مختلف با چالشهای جدی روبهرو بودند، تا اینکه نوآورانی مانند «ری کرزویل» با توسعه سیستمهای «اومنیفونت» که قادر به شناسایی متن در تقریباً هر فونتی بودند، مسیر پیشرفت را هموار کردند. ری کرزویل در سال ۱۹۷۴ شرکت Kurzweil Computer Products را تأسیس کرد و دستگاهی برای نابینایان ساخت که متون چاپی را با تبدیل به گفتار برای آنها میخواند. در سال ۱۹۸۰، این شرکت به Xerox فروخته شد تا مسیر تجاریسازی فناوری OCR سرعت بیشتری بگیرد.
با ظهور رایانههای شخصی و اینترنت، تحول بزرگی در توسعه OCR رخ داد. در دهه ۱۹۹۰، این فناوری بهطور گسترده برای دیجیتالیسازی روزنامههای تاریخی به کار رفت و از آن زمان تاکنون، دقت و قابلیتهای آن بهطور چشمگیری افزایش یافتهاند. امروزه فناوریهای پیشرفته OCR قادرند جریانهای پیچیده پردازش اسناد را بهصورت خودکار انجام دهند.
امروزه نرمافزارهای OCR در دسترس عموم هستند و حتی در تلفنهای هوشمند نیز قابل استفادهاند؛ نمونهای از آن، Google Cloud Vision OCR است که امکان اسکن و ذخیرهسازی اسناد را از طریق گوشی فراهم میکند. همچنین نرم افزار ocr فارسی ترجمیفای، که یک ترجمه آنلاین متون و تصاویر فارسی است، نمونه دیگری از این تکنولوژی محسوب میگردد.
پیشرفتهای سریع در زمینه هوش مصنوعی نیز باعث شدهاند که OCR به دقتی نزدیک به کامل دست یابد و به ابزاری حیاتی در فرایندهای دیجیتالسازی تبدیل شود.
انواع تکنولوژی OCR
فناوری OCR براساس کاربرد و پیچیدگی، به چهار نوع اصلی تقسیم میشود که در ادامه بهطور کامل توضیح داده شدهاند.
1. تشخیص نوری ساده حروف (Simple OCR)
در این نوع OCR، فرآیند شناسایی کاراکترها براساس تطبیق الگوهای تصویری با قالبهای ذخیرهشده (glyphs) انجام میشود. نرمافزار OCR کاراکترهای موجود در تصویر را یکبهیک با پایگاه دادهای از فونتها و الگوهای متنی مقایسه میکند.
ویژگیها:
- مناسب برای متون چاپی با فونتهای استاندارد.
- محدودیت در شناسایی فونتها و زبانهای غیرمعمول یا دستنوشتهها.
این ابزار ترجمه عکس در دیجیتالیکردن اسناد ساده مانند کتابها یا فرمهای چاپی با فونتهای مشخص استفاده میشود.
نکته: اگر تطبیق در سطح کلمات انجام شود، OCR ساده بهعنوان تشخیص کلمه نوری (Optical Word Recognition) نیز شناخته میشود.
2. تشخیص نوری علامت (Optical Mark Recognition – OMR)
این نوع OCR برای شناسایی علائم، نمادها و نشانههای خاص مانند کادرهای علامتگذاریشده در فرمها، امضاها، لوگوها، واترمارکها یا نمادهای متنی طراحی شده است. OMR نیز از تطبیق الگو با تصاویر ذخیرهشده استفاده میکند.
ویژگیها:
- تمرکز بر شناسایی اشکال غیرمتنی مانند کادرهای تیکخورده در نظرسنجیها یا فرمهای استاندارد.
- دقت بالا در شناسایی علائم مشخص، اما محدود به الگوهای از پیش تعریفشده.
کاربردهای این نوع مترجم تصویر دیجیتال، در پردازش فرمهای نظرسنجی، آزمونهای چندگزینهای و اسناد حاوی علائم یا لوگوهای خاص است.
3. تشخیص هوشمند کاراکتر (Intelligent Character Recognition – ICR)
ICR نسخه پیشرفتهتری از OCR است که با استفاده از هوش مصنوعی و یادگیری ماشین (بهویژه شبکههای عصبی) کاراکترها را شناسایی میکند. این فناوری با تحلیل مکرر تصاویر و جستوجوی ویژگیهای متمایز مانند منحنیها، خطوط، تقاطعها و حلقهها، مشابه فرآیند یادگیری انسان عمل میکند.
ویژگیها:
- توانایی شناسایی متون دستنویس و فونتهای غیراستاندارد.
- بهبود مستمر دقت از طریق آموزش و تمرین با دادههای متنوع.
این نوع از تشخیص نوری حروف (OCR) برای متون چندزبانه و اسناد پیچیده مناسب است و برای دیجیتالیکردن اسناد دستنویس، مانند نامهها یا یادداشتهای تاریخی، و پردازش متون در زبانهای مختلف استفاده میشود.
4. تشخیص هوشمند کلمه (Intelligent Word Recognition)
این نوع OCR، نسخه تکاملیافته ICR است که بهجای تحلیل کاراکترها بهصورت جداگانه، کل کلمات را بهعنوان یک تصویر واحد شناسایی میکند. این روش با استفاده از یادگیری عمیق، سرعت و دقت بالاتری در پردازش متون ارائه میدهد.
ویژگیها:
- پردازش سریعتر بهدلیل شناسایی کلمات بهصورت یکپارچه.
- کاهش خطاها در متون پیچیده با استفاده از تحلیل زمینهای.
کاربرد آن در استخراج سریع متن از اسناد با فرمتهای غیراستاندارد، مانند روزنامهها یا مجلات قدیمی است که کیفیت پایینی دارند.
روش عملکرد تشخیص نوری حروف (OCR)
فناوری ترجمه عکس به متن فرآیندی چندمرحلهای است که شامل دریافت تصویر، پیشپردازش، شناسایی متن و پسپردازش است. هر نوع OCR (تشخیص نوری حروف ساده، تشخیص نوری علامت، تشخیص هوشمند کاراکتر و تشخیص هوشمند کلمه) ممکن است در برخی مراحل، بهویژه در شناسایی متن، رویکردهای متفاوتی داشته باشد. در ادامه، مراحل عملکرد OCR بهصورت ساختارمند شرح داده شده است.
1. دریافت تصویر (Image Acquisition)
فرآیند OCR با اسکن سند یا گرفتن تصویر از آن آغاز میشود. سختافزارهایی مانند اسکنرهای نوری یا دوربینها، سند را به دادههای باینری (تصاویر دیجیتال) تبدیل میکنند. نرمافزار OCR تصویر را به فرمت دو رنگ (معمولاً سیاهوسفید) تبدیل کرده و نواحی روشن را بهعنوان پسزمینه و نواحی تیره را بهعنوان متن شناسایی میکند.
2. پیشپردازش (Preprocessing)
در این مرحله، تصویر دیجیتال برای بهبود کیفیت و آمادهسازی برای شناسایی متن، پاکسازی میشود. تکنیکهای پیشپردازش شامل موارد زیر است:
- Deskewing: اصلاح کجی تصویر ناشی از اسکن نادرست.
- Despeckling: حذف نویزهای دیجیتال یا لکههای کوچک از تصویر.
- حذف خطوط و کادرها: پاکسازی خطوط گرافیکی، جداول یا کادرهای اضافی.
- تشخیص اسکریپت: شناسایی زبان یا نوع خط (مانند عربی، چینی، لاتین) برای متون چندزبانه.
با مطالعه مقاله «روشهای بهینه سازی تصویر برای استخراج متن» میتوانید اطلاعات بیشتری درباره پیشپردازش پیدا کنید.
3. شناسایی متن (Text Recognition)
این مرحله هسته اصلی فرآیند تشخیص نوری حروف (OCR) و ترجمه عکس است که در آن کاراکترها، کلمات یا نمادها در تصویر شناسایی میشوند. OCR از دو الگوریتم اصلی برای شناسایی متن استفاده میکند: تطبیق الگو (Pattern Matching) و استخراج ویژگی (Feature Extraction). بسته بهنوع OCR، رویکرد شناسایی متفاوت است.
تطبیق الگو (Pattern Matching)
در این روش، تصویر هر کاراکتر (glyph) با پایگاه دادهای از الگوهای ذخیرهشده مقایسه میشود. این روش زمانی کارآمد است که فونت و مقیاس کاراکترها با الگوهای ذخیرهشده مطابقت داشته باشد.
Simple OCR بهطور گسترده از تطبیق الگو استفاده میکند و محدود به فونتهای شناختهشده است. بهدلیل تنوع فونتها و زبانها (مانند عربی، چینی، یا لاتین)، این روش برای متون غیراستاندارد یا دستنوشتهها کارایی محدودی دارد. در مقابلOMR برای شناسایی علائم خاص (مانند کادرهای تیکخورده، لوگوها یا واترمارکها) از تطبیق الگو استفاده میکند و نیازی به تحلیل پیچیده ندارد.
استخراج ویژگی (Feature Extraction)
در این روش، کاراکترها را به ویژگیهای سادهتر مانند خطوط، منحنیها، تقاطعها و حلقهها تجزیه میکند و سپس آنها را با الگوهای ذخیرهشده مقایسه میکند. برای مثال، حرف “A” بهعنوان دو خط مورب که با یک خط افقی در وسط به هم متصل شدهاند، شناسایی میشود.
ICR از استخراج ویژگی با استفاده از یادگیری ماشین و شبکههای عصبی بهره میبرد تا متون دستنویس یا فونتهای ناآشنا را شناسایی کند. Intelligent Word Recognition هم بهجای کاراکترها، کل کلمات را بهعنوان یک تصویر واحد تحلیل میکند و با استفاده از یادگیری عمیق، سرعت و دقت را بهبود میبخشد.
4. تحلیل ساختار (Layout Recognition)
در این مرحله ترجمه آنلاین عکس، نرمافزار OCR ساختار سند را تحلیل میکند و عناصر مختلف مانند بلوکهای متنی، جداول، یا تصاویر را شناسایی میکند. خطوط به کلمات و کلمات به کاراکترها تقسیم میشوند، سپس با الگوهای ذخیرهشده مقایسه میشوند تا متن نهایی استخراج شود.
5. پسپردازش (Postprocessing)
پس از شناسایی متن، دادههای استخراجشده به فرمتهای دیجیتال قابل ویرایش (مانند فایل متنی یا PDF) تبدیل میشوند. برخی سیستمهای OCR فایلهای PDF حاشیهنویسیشده تولید میکنند که شامل نسخههای قبل و بعد از پردازش است. در این مرحله، خطاها با استفاده از دیکشنریها یا مدلهای زبانی تصحیح میشوند و متن برای جستوجو، ویرایش یا پردازشهای بعدی (مانند ترجمه) آماده میشود.
مترجم دوربین که نرمافزاری است روی تلفن همراه نصب شده و با ثبت عکس، متون را از آن استخراج میکند، در حقیقت نوعی تشخیص نوری حروف (OCR) محسوب میشود.
کاربردهای نویسهخوانی نوری
در ادامه بهشکل مختصر کاربردهای او سی آر را معرفی میکنیم.
- دیجیتالیکردن اسناد: تبدیل اسناد کاغذی مانند کتابها، قراردادها، فاکتورها و اسناد تاریخی به فرمتهای دیجیتال قابل جستوجو و ویرایش.
- اتوماسیون فرآیندهای تجاری: خودکارسازی ورود دادهها در فرآیندهایی مانند پردازش فاکتورها، فرمها و اسناد حقوقی برای کاهش زمان و خطاهای انسانی.
- ترجمه ماشینی: استخراج متن از تصاویر یا فایلهای PDF برای آمادهسازی آنها جهت پردازش توسط ابزارهای ترجمه مانند Google Translate.
- دسترسیپذیری: کمک به افراد نابینا یا کمبینا با تبدیل متون تصویری به فرمتهای قابل خواندن توسط نرمافزارهای متنخوان و تبدیل به گفتار.
- دیجیتالیکردن آرشیوها: تبدیل آرشیوهای تاریخی، مانند روزنامهها و مجلات قدیمی، به فرمتهای دیجیتال برای حفظ و دسترسی آسانتر.
- پردازش فرمها و نظرسنجیها: شناسایی و استخراج دادهها از فرمهای کاغذی، مانند کادرهای علامتگذاریشده در نظرسنجیها یا آزمونهای چندگزینهای (با استفاده از OMR).
- مدیریت اسناد در سازمانها: سازماندهی و جستوجوی سریع اسناد دیجیتال در سیستمهای مدیریت محتوا.
- شناسایی متون چندزبانه: پشتیبانی از خطوط و زبانهای مختلف، مانند دیواناگری در هند یا خطوط عربی و چینی.
- اتوماسیون بانکی و مالی: استخراج اطلاعات از چکها، رسیدها و اسناد مالی برای پردازش سریعتر .
- کاربردهای امنیتی: شناسایی و استخراج متن از اسناد هویتی، مانند پاسپورتها یا کارتهای شناسایی، برای تأیید هویت.
- تحلیل دادهها: تبدیل متون تصویری به دادههای قابل تحلیل برای استفاده در ابزارهای تجزیهوتحلیل دادهها و هوش تجاری.
مزایای تکنولوژی OCR
فناوری نویسهخوانی نوری (OCR) با تبدیل اسناد چاپی و تصاویر به دادههای متنی دیجیتال، تحول بزرگی در مدیریت اطلاعات ایجاد کرده است. این فناوری امکان جستوجوی سریع در آرشیوهای دانش را فراهم میکند و با دیجیتالیکردن اسناد، تحلیل دادهها را با ابزارهای هوش مصنوعی ممکن میسازد. OCR با خودکارسازی فرآیندها بهرهوری عملیاتی را افزایش داده و هزینههای ورود دستی دادهها را کاهش میدهد. تکنولوژی تشخیص نوری حروف با حذف نیاز به ذخیره اسناد کاغذی، هزینههای ذخیرهسازی را کاهش داده و امنیت دادهها را در برابر حوادثی مانند آتشسوزی بهبود میبخشد.
معایب تکنولوژی OCR
فناوری OCR با وجود مزایا، محدودیتهایی نیز دارد. سیستمهای OCR هزینهبر هستند و به فضای ذخیرهسازی زیادی برای تصاویر دیجیتال نیاز دارند. کیفیت خروجی به کیفیت تصویر اولیه وابسته است و ممکن است در فرآیند اسکن کیفیت کاهش یابد، که منجر به خطاهای شناسایی میشود. OCR صددرصد دقیق نیست و نیاز به بررسی و تصحیح دستی دارد، که زمانبر است. برای حجم کم متن، استفاده از OCR مقرونبهصرفه نیست، زیرا فرآیند اسکن و تصحیح ممکن است از ورود دستی دادهها پرهزینهتر و زمانبرتر باشد. این محدودیتها کاربرد OCR را در برخی سناریوها محدود میکند.
پیشرفتهای اخیر او سی آر
فناوری نویسهخوانی نوری (OCR) با پیشرفتهای اخیر، بهویژه در حوزه هوش مصنوعی و یادگیری عمیق، تحول چشمگیری یافته است. شبکههای عصبی عمیق، مانند آنهایی که در ابزارهایی مثل Tesseract و Amazon Textract استفاده میشوند، دقت شناسایی متن را در اسناد پیچیده، دستنوشتهها و زبانهای راستبهچپ مانند فارسی و عربی بهبود بخشیدهاند.
سرویسهایی مانند OCR کارت ملی آیفا در ایران، با بهرهگیری از الگوریتمهای پیشرفته، احراز هویت دیجیتال را تسهیل کردهاند. همچنین، ابزارهای منبعباز مانند olmOCR با بهروزرسانیهایی نظیر بنچمارکهای جدید و پردازش سریعتر، کارایی را افزایش دادهاند. این پیشرفتها، OCR را برای کاربردهای چندزبانه و پیچیده کارآمدتر کرده است.