عبارت روی یک منوی غذا در کشوری ناآشنا را تصور کنید؛ نمیدانید منظور از «焼き鳥» چیست و پیشخدمت هم انگلیسی و فارسی نمیفهمد. گوشیتان را بالا میآورید، دوربین را روی متن میگیرید، و در همان لحظه، ترجمهای روان و دقیق جای متن اصلی را میگیرد؛ درحالیکه نه عکس گرفتهاید، نه منتظر ماندهاید. این جادوی واقعیت افزوده (AR) است که ترجمه تصاویر را از یک روند کند و جداگانه به تجربهای یکپارچه و بیوقفه تبدیل کرده است. در این مقاله، بررسی میکنیم که ترجمه تصاویر با فناوریهای واقعیت افزوده چگونه در حال بازتعریف مرزهای ارتباط زبانی در سفر، آموزش، تبلیغات و حتی کمکهای بشردوستانه است.

ترجمه تصویر چیست و چگونه انجام میشود؟
ترجمه تصویر فرآیندی است که در آن متنی که بهصورت بصری (مثلاً روی تابلو، بستهبندی، منو یا سند چاپی) ظاهر شده، از تصویر استخراج و به زبانی دیگر ترجمه میشود. اگر بخواهیم حرفهایتر توضیح دهیم، استخراج متن از عکس که به آن «ترجمه عکس»، «ترجمه تصویر»، «ترجمه متن از روی تصویر» یا «ترجمه عکس به متن» گفته میشود، فرآیند دیجیتالی تبدیل انواع مختلف سند، مانند فایلهای PDF، تصاویر و اسناد کاغذی اسکنشده، به دادههای متنی قابل خواندن توسط ماشین است.
تا چند سال پیش، عکس گرفته میشد و یا سند در قالب پیدیاف به یک اپلیکیشن تشخیص نوری حروف (OCR) منتقل میگشت. سپس نرمافزار مترجم عکس، عکس را به متن تبدیل میکرد. این روش اگرچه مفید بود اما راهحلی وقتگیر و ناکارآمد، بهویژه در شرایطی که سرعت و دقت اهمیت دارد، محسوب میشد. اما امروزه با ظهور واقعیت افزوده، ترجمه تصاویر با فناوریهای واقعیت افزوده در زمان واقعی قابل انجام است.
استخراج متن از تصویر و ترجمه آن، معمولاً در چهار مرحله اصلی انجام میشود:
- پیشپردازش تصویر (Pre-processing): در نخستین مرحله، تصویر خام برای بهبود کیفیت و افزایش دقت استخراج متن آمادهسازی میشود. پیشپردازش شامل اقداماتی مانند کاهش نویز، تنظیم روشنایی و کنتراست، و گاهی تبدیل تصویر به فرمت سیاه و سفید (binarization) است.
- بهکارگیری OCR یا مدلهای یادگیری ماشین: فناوری OCR (تشخیص نویسه نوری) و مدلهای یادگیری ماشین بهویژه شبکههای عصبی عمیق (Deep Learning) حروف و کلمات موجود در تصویر را شناسایی و به داده متنی قابل ویرایش تبدیل میکند.
- شناسایی زبان و ترجمه: سیستم زبان آن را بهدرستی تشخیص داده و متن استخراجشده به زبان مقصد ترجمه میشود.
- پسپردازش متن استخراجشده (Post-processing): در آخرین مرحله، متنی که از تصویر بهدست آمده، توسط الگوریتمهای پردازش زبان طبیعی (NLP) بازبینی و اصلاح میشود.
واقعیت افزوده (AR) چیست و چگونه کار میکند؟
واقعیت افزوده (Augmented Reality) فناوری است که محتوای دیجیتال مانند متن، تصویر، صدا یا مدلهای سهبعدی را بهصورت بلادرنگ روی دنیای واقعی قرار میدهد. برخلاف واقعیت مجازی (Virtual Reality) که کاربر را کاملاً در محیطی شبیهسازیشده غرق میکند، واقعیت افزوده محیط واقعی را حفظ میکند و تنها لایههایی از اطلاعات دیجیتال را به آن میافزاید.
برای مثال، وقتی کاربری دوربین گوشی خود را بهسمت یک تابلو راهنمایی در کشور خارجی میگیرد و ترجمه آن بلافاصله روی تصویر دیده میشود، در حال استفاده از AR است و این فرآیند ترجمه تصاویر با فناوریهای واقعیت افزوده محسوب میشود.
واقعیت افزوده (AR) در سه مرحله اصلی کار میکند:
- تشخیص محیط: دوربین دستگاه (مانند گوشی هوشمند یا عینک هوشمند) با استفاده از فناوریهایی مثل GPS، تشخیص تصویر و بینایی کامپیوتری، محیط واقعی را اسکن و شناسایی میکند.
- پردازش و ردیابی: حسگرها (مانند شتابسنج و قطبنما) و الگوریتمهای یادگیری ماشین، موقعیت و جهتگیری محیط را در لحظه تحلیل میکنند.
- نمایش محتوای دیجیتال: محتوای دیجیتال (مانند مدلهای سهبعدی یا اطلاعات متنی) بر روی محیط واقعی نمایش داده میشود. در AR مبتنی بر نشانگر، محتوا روی تصویر یا الگوی خاص و در AR بدون نشانگر، در هر فضایی با آزادی بیشتر نمایش مییابد.

تلاقی واقعیت افزوده و ترجمه تصویر؛ چگونه بهصورت همزمان کار میکنند؟
تلاقی واقعیت افزوده و ترجمه تصویر همان چیزی است که سبب میشود، متون داخل عکس را بهشکل زنده و با استفاده از دوربین گوشی به زبان دلخواه ترجمه کنید.
ترجمه تصاویر با فناوریهای واقعیت افزوده با ترکیب این دو تکنولوژی، مستلزم هماهنگی دقیق چند فناوری پایه است: بینایی ماشین، شناسایی متن (OCR)، تشخیص زبان، ترجمه ماشینی و رندرینگ گرافیکی بلادرنگ.
فرآیند بهطور خلاصه چنین است:
- دوربین دستگاه، تصویری زنده از محیط ثبت میکند.
- سیستم AR با استفاده از الگوریتمهای بینایی ماشین و OCR، متن موجود در تصویر را استخراج میکند.
- سپس ماژول تشخیص زبان، زبان متن را شناسایی کرده و آن را به موتور ترجمه ماشینی (معمولاً مبتنی بر یادگیری عمیق) ارسال میکند.
- خروجی ترجمهشده در همان محل فیزیکی متن اصلی، و با همان زاویه و پرسپکتیو، روی تصویر زنده محیط بازنمایی میشود.
این تعامل پیچیده برای ترجمه تصاویر با فناوریهای واقعیت افزوده نیازمند هماهنگی بسیار سریع بین ماژولهای نرمافزاری و سختافزارهای تعبیهشده است؛ بهویژه زمانی که ترجمه باید بدون وقفه، دقیق و با حفظ یکپارچگی بصری انجام شود.
کاربردهای ترجمه تصاویر با فناوریهای واقعیت افزوده در زندگی روزمره
فناوری ترجمه تصاویر با فناوریهای واقعیت افزوده (AR) این امکان را فراهم میکند که متون واقعی بهصورت زنده و همزمان ترجمه شده و روی صفحه نمایش دستگاه کاربر نمایش داده شوند. این فناوری در زندگی روزمره کاربردهای متعددی دارد که برخی از مهمترین آنها عبارتاند از:
سفر و گردشگری
کاربران با کمک دوربین گوشیهای هوشمند خود میتوانند تابلوهای خیابان، علائم راهنمایی و منوهای رستورانها را به زبان خود ببینند و با این مترجم خصوصی آنلاین بهراحتی در محیطهای ناآشنا حرکت کنند. این تجربه باعث تسهیل ارتباط و افزایش اعتمادبهنفس در سفرهای خارجی میشود.
آموزش زبان
دانشآموزان و زبانآموزان قادرند متون روزمره مانند کتابها، تابلوها و کارتهای آموزشی را با ترجمه زنده مشاهده کنند که فرآیند یادگیری را تعمیق و تسریع میکند.
تبلیغات چندزبانه
کسبوکارها میتوانند پیامهای تبلیغاتی خود را به چند زبان و بهصورت زنده روی محصولات یا پوسترها نمایش دهند. این قابلیت ارتباط با مخاطبان بینالمللی را تسهیل کرده و تاثیرگذاری تبلیغات را افزایش میدهد.
خدمات عمومی
در فضاهای عمومی مثل فرودگاهها، بیمارستانها و ادارات، ترجمه تصویری AR کمک میکند تا افراد با زبانهای مختلف به اطلاعات مهم دسترسی پیدا کنند و فرآیند خدماترسانی سریعتر و کارآمدتر انجام شود. فناوری ترجمه تصاویر با فناوریهای واقعیت افزوده حتی قابلیت ترجمه زبان اشاره و زبانهای نادر را دارد که به حفظ فرهنگها و ارتباطات گستردهتر کمک میکند.

مطالعه موردی: ترجمه با واقعیت افزوده و گوگل گلس
در سال ۲۰۱۳، گوگل با معرفی گوگل گلس (عینک گوگل) وارد دنیای واقعیت افزوده شد. این دستگاه اندرویدی شبیه عینک، با کنترل صوتی و حرکتی، اطلاعات را مستقیماً در میدان دید کاربر نمایش میداد. گوگل گلس با هدف اتصال کاربران به دنیای بیرون و حفظ تمرکز در فعالیتهایشان عرضه شد.
اگرچه این دستگاه با انتقاداتی مواجه شد و فروش عمومی آن متوقف گردید، گوگل گلس و نسخههای بعدی آن نشاندهنده چگونگی عملکرد فناوری ترجمه در AR است. این دستگاه نهتنها زیرنویس لحظهای (نمایش متن گفتار به همان زبان) ارائه میدهد، بلکه امکان ترجمه بین دو زبان، مانند انگلیسی و ماندارین، را فراهم میکند. این قابلیت به افراد ناشنوا یا کسانی که زبان یکدیگر را نمیدانند، کمک میکند تا گفتوگویی طبیعی داشته باشند.
گوگل گلس همچنین مشکل تداخل ترجمه صوتی گوگل ترنسلیت با مکالمات لحظهای را حل میکند. عناصر بصری ترجمه، پیگیری موضوعات را برای کاربران آسانتر و طبیعیتر میسازد.
برای کسب اطلاعات بیشتر در زمینه گوگل گلس میتوانید مقاله «عینک واقعیت افزوده گوگل با امکان ترجمه؛ رویایی که هنوز در راه است!» را بخوانید.
آینده ترجمه تصاویر با فناوریهای واقعیت افزوده
فناوری واقعیت افزوده (AR) در سالهای اخیر از قالبهای اولیه خود در بازی و سرگرمی فراتر رفته و به یکی از ابزارهای نوآورانه در صنعت ترجمه تبدیل شده است. ترجمه متون از روی تصویر با استفاده از دوربین تلفن همراه، تنها نقطه شروع این تحول است؛ اما آیندهای بسیار جالبتر در راه است.
نسل جدید فناوریها، ترجمه تصویر را به گفتار و مکالمه زنده گسترش میدهند. ایربادهای هوشمند مانند Timekettle WT2 Plus یا دستگاههای دستی مانند Langogo با ترکیب هوش مصنوعی و ترجمه صوتی بلادرنگ، امکان مکالمه بین زبانهای مختلف را بدون نیاز به واسطه انسانی فراهم میسازند. بهعبارت دیگر در گام بعدی ترجمه تصاویر با فناوریهای واقعیت افزوده، ترجمه به متن محدود نمیگردد، بلکه میتواند در قالبهای صوتی و حتی تصویری و شکل زنده انجام شود.
تصور کنید در یک جلسه کاری مجازی یا کلاس آموزشی واقعیت مجازی حضور دارید؛ هر شرکتکننده به زبان خود صحبت میکند، درحالیکه متن یا صدای ترجمهشده، بهصورت همزمان در فضای مجازی نمایش داده و یا پخش میشود.
یا فرض کنید در بازار شلوغی در توکیو قدم میزنید و عینک AR شما مکالمات اطراف را در لحظه به زبان شما تبدیل میکند.
این آیندهای نزدیک است که فناوریهای واقعیت افزوده و مجازی در حال ساختن آن هستند.
مقاله « آینده ترجمه تصاویر با مدلهای پیشرفته هوش مصنوعی» اطلاعات دقیقتری را در این زمینه در اختیار شما قرار میدهد.
خلاصه مقاله
ترجمه تصاویر با فناوریهای واقعیت افزوده (AR) فرآیندی است که متنهای موجود در عکسها را بهصورت زنده، دقیق و فوری به زبان مقصد ترجمه میکند. این فناوری با ترکیبOCR، تشخیص زبان، ترجمه ماشینی و رندرینگ بلادرنگ، تجربهای یکپارچه ایجاد میکند؛ بهگونهای که کاربر تنها با گرفتن دوربین روی یک متن، ترجمه آن را در همان جایگاه مشاهده میکند. AR محتوای دیجیتال را به محیط واقعی اضافه میکند و در ترجمه تصاویر، کاربردهای گستردهای در سفر، آموزش زبان، تبلیغات و خدمات عمومی دارد.
آینده فناوری ترجمه تصاویر با فناوریهای واقعیت افزوده نویدبخش ارتباط زبانی روان، سریع و گستردهتر در مقیاس جهانی است. در آیندهای نزدیک، تصاویر نهتنها به متن، بلکه به صدا و حتی تصویر، آن هم بهشکل همزمان ترجمه خواهند شد.
https://textmine.com/post/an-introduction-to-text-extraction-from-images
https://www.reydar.com/what-is-ar-technology-the-ultimate-guide-to-ar/#how-does-ar-work
https://hbr.org/2017/11/how-does-augmented-reality-work
https://www.machinetranslation.com/blog/augmented-translation