ترجمه تصاویر با فناوری‌های واقعیت افزوده (AR)؛ وقتی ترجمه از صفحه گوشی بیرون میاد!

عبارت روی یک منوی غذا در کشوری ناآشنا را تصور کنید؛ نمی‌دانید منظور از «焼き鳥» چیست و پیشخدمت هم انگلیسی و فارسی نمی‌فهمد. گوشی‌تان را بالا می‌آورید، دوربین را روی متن می‌گیرید، و در همان لحظه، ترجمه‌ای روان و دقیق جای متن اصلی را می‌گیرد؛ درحالیکه نه عکس گرفته‌اید، نه منتظر مانده‌اید. این جادوی واقعیت افزوده (AR) است که ترجمه تصاویر را از یک روند کند و جداگانه به تجربه‌ای یکپارچه و بی‌وقفه تبدیل کرده است. در این مقاله، بررسی می‌کنیم که ترجمه تصاویر با فناوری‌های واقعیت افزوده چگونه در حال بازتعریف مرزهای ارتباط زبانی در سفر، آموزش، تبلیغات و حتی کمک‌های بشردوستانه است.

ترجمه تصویر چیست و چگونه انجام می‌شود؟

ترجمه تصویر فرآیندی است که در آن متنی که به‌صورت بصری (مثلاً روی تابلو، بسته‌بندی، منو یا سند چاپی) ظاهر شده، از تصویر استخراج و به زبانی دیگر ترجمه می‌شود. اگر بخواهیم حرفه‌ای‌تر توضیح دهیم، استخراج متن از عکس که به آن «ترجمه عکس»، «ترجمه تصویر»، «ترجمه متن از روی تصویر» یا «ترجمه عکس به متن» گفته می‌شود، فرآیند دیجیتالی تبدیل انواع مختلف سند، مانند فایل‌های PDF، تصاویر و اسناد کاغذی اسکن‌شده، به داده‌های متنی قابل خواندن توسط ماشین است.

تا چند سال پیش، عکس گرفته می‌شد و یا سند در قالب پی‌دی‌اف به یک اپلیکیشن تشخیص نوری حروف (OCR) منتقل می‌گشت. سپس نرم‌افزار مترجم عکس، عکس را به متن تبدیل می‌کرد. این روش اگرچه مفید بود اما راه‌حلی وقت‌گیر و ناکارآمد، به‌ویژه در شرایطی که سرعت و دقت اهمیت دارد، محسوب می‌شد. اما امروزه با ظهور واقعیت افزوده، ترجمه تصاویر با فناوری‌های واقعیت افزوده در زمان واقعی قابل انجام است.

استخراج متن از تصویر و ترجمه آن، معمولاً در چهار مرحله اصلی انجام می‌شود:

پیش‌پردازش تصویر (Pre-processing): در نخستین مرحله، تصویر خام برای بهبود کیفیت و افزایش دقت استخراج متن آماده‌سازی می‌شود. پیش‌پردازش شامل اقداماتی مانند کاهش نویز، تنظیم روشنایی و کنتراست، و گاهی تبدیل تصویر به فرمت سیاه‌ و سفید (binarization) است.
به‌کارگیری OCR یا مدل‌های یادگیری ماشین: فناوری OCR (تشخیص نویسه نوری) و مدل‌های یادگیری ماشین به‌ویژه شبکه‌های عصبی عمیق (Deep Learning) حروف و کلمات موجود در تصویر را شناسایی و به داده متنی قابل ویرایش تبدیل می‌کند.
شناسایی زبان و ترجمه: سیستم زبان آن را به‌درستی تشخیص داده و متن استخراج‌شده به زبان مقصد ترجمه می‌شود.
پس‌پردازش متن استخراج‌شده (Post-processing): در آخرین مرحله، متنی که از تصویر به‌دست آمده، توسط الگوریتم‌های پردازش زبان طبیعی (NLP) بازبینی و اصلاح می‌شود.

واقعیت افزوده (AR) چیست و چگونه کار می‌کند؟

واقعیت افزوده (Augmented Reality) فناوری‌ است که محتوای دیجیتال مانند متن، تصویر، صدا یا مدل‌های سه‌بعدی را به‌صورت بلادرنگ روی دنیای واقعی قرار می‌دهد. برخلاف واقعیت مجازی (Virtual Reality) که کاربر را کاملاً در محیطی شبیه‌سازی‌شده غرق می‌کند، واقعیت افزوده محیط واقعی را حفظ می‌کند و تنها لایه‌هایی از اطلاعات دیجیتال را به آن می‌افزاید.

برای مثال، وقتی کاربری دوربین گوشی خود را به‌سمت یک تابلو راهنمایی در کشور خارجی می‌گیرد و ترجمه آن بلافاصله روی تصویر دیده می‌شود، در حال استفاده از AR است و این فرآیند ترجمه تصاویر با فناوری‌های واقعیت افزوده محسوب می‌شود.

واقعیت افزوده (AR) در سه مرحله اصلی کار می‌کند:

تشخیص محیط: دوربین دستگاه (مانند گوشی هوشمند یا عینک هوشمند) با استفاده از فناوری‌هایی مثل GPS، تشخیص تصویر و بینایی کامپیوتری، محیط واقعی را اسکن و شناسایی می‌کند.
پردازش و ردیابی: حسگرها (مانند شتاب‌سنج و قطب‌نما) و الگوریتم‌های یادگیری ماشین، موقعیت و جهت‌گیری محیط را در لحظه تحلیل می‌کنند.
نمایش محتوای دیجیتال: محتوای دیجیتال (مانند مدل‌های سه‌بعدی یا اطلاعات متنی) بر روی محیط واقعی نمایش داده می‌شود. در AR مبتنی بر نشانگر، محتوا روی تصویر یا الگوی خاص و در AR بدون نشانگر، در هر فضایی با آزادی بیشتر نمایش می‌یابد.

تلاقی واقعیت افزوده و ترجمه تصویر؛ چگونه به‌صورت هم‌زمان کار می‌کنند؟

تلاقی واقعیت افزوده و ترجمه تصویر همان‌ چیزی است که سبب می‌شود، متون داخل عکس را به‌شکل زنده و با استفاده از دوربین گوشی به زبان دلخواه ترجمه کنید.

ترجمه تصاویر با فناوری‌های واقعیت افزوده با ترکیب این دو تکنولوژی، مستلزم هماهنگی دقیق چند فناوری پایه است: بینایی ماشین، شناسایی متن (OCR)، تشخیص زبان، ترجمه ماشینی و رندرینگ گرافیکی بلادرنگ.

فرآیند به‌طور خلاصه چنین است:

دوربین دستگاه، تصویری زنده از محیط ثبت می‌کند.
سیستم AR با استفاده از الگوریتم‌های بینایی ماشین و OCR، متن موجود در تصویر را استخراج می‌کند.
سپس ماژول تشخیص زبان، زبان متن را شناسایی کرده و آن را به موتور ترجمه ماشینی (معمولاً مبتنی بر یادگیری عمیق) ارسال می‌کند.
خروجی ترجمه‌شده در همان محل فیزیکی متن اصلی، و با همان زاویه و پرسپکتیو، روی تصویر زنده محیط بازنمایی می‌شود.

این تعامل پیچیده برای ترجمه تصاویر با فناوری‌های واقعیت افزوده نیازمند هماهنگی بسیار سریع بین ماژول‌های نرم‌افزاری و سخت‌افزارهای تعبیه‌شده است؛ به‌ویژه زمانی که ترجمه باید بدون وقفه، دقیق و با حفظ یکپارچگی بصری انجام شود.

کاربردهای ترجمه تصاویر با فناوری‌های واقعیت افزوده در زندگی روزمره

فناوری ترجمه تصاویر با فناوری‌های واقعیت افزوده (AR) این امکان را فراهم می‌کند که متون واقعی به‌صورت زنده و هم‌زمان ترجمه شده و روی صفحه نمایش دستگاه کاربر نمایش داده شوند. این فناوری در زندگی روزمره کاربردهای متعددی دارد که برخی از مهم‌ترین آن‌ها عبارت‌اند از:

سفر و گردشگری

کاربران با کمک دوربین گوشی‌های هوشمند خود می‌توانند تابلوهای خیابان، علائم راهنمایی و منوهای رستوران‌ها را به زبان خود ببینند و با این مترجم خصوصی آنلاین به‌راحتی در محیط‌های ناآشنا حرکت کنند. این تجربه باعث تسهیل ارتباط و افزایش اعتماد‌به‌نفس در سفرهای خارجی می‌شود.

آموزش زبان

دانش‌آموزان و زبان‌آموزان قادرند متون روزمره مانند کتاب‌ها، تابلوها و کارت‌های آموزشی را با ترجمه زنده مشاهده کنند که فرآیند یادگیری را تعمیق و تسریع می‌کند.

تبلیغات چندزبانه

کسب‌وکارها می‌توانند پیام‌های تبلیغاتی خود را به چند زبان و به‌صورت زنده روی محصولات یا پوسترها نمایش دهند. این قابلیت ارتباط با مخاطبان بین‌المللی را تسهیل کرده و تاثیرگذاری تبلیغات را افزایش می‌دهد.

خدمات عمومی

در فضاهای عمومی مثل فرودگاه‌ها، بیمارستان‌ها و ادارات، ترجمه تصویری AR کمک می‌کند تا افراد با زبان‌های مختلف به اطلاعات مهم دسترسی پیدا کنند و فرآیند خدمات‌رسانی سریع‌تر و کارآمدتر انجام شود. فناوری ترجمه تصاویر با فناوری‌های واقعیت افزوده حتی قابلیت ترجمه زبان اشاره و زبان‌های نادر را دارد که به حفظ فرهنگ‌ها و ارتباطات گسترده‌تر کمک می‌کند.

مطالعه موردی: ترجمه با واقعیت افزوده و گوگل گلس

در سال ۲۰۱۳، گوگل با معرفی گوگل گلس (عینک گوگل) وارد دنیای واقعیت افزوده شد. این دستگاه اندرویدی شبیه عینک، با کنترل صوتی و حرکتی، اطلاعات را مستقیماً در میدان دید کاربر نمایش می‌داد. گوگل گلس با هدف اتصال کاربران به دنیای بیرون و حفظ تمرکز در فعالیت‌هایشان عرضه شد.

اگرچه این دستگاه با انتقاداتی مواجه شد و فروش عمومی آن متوقف گردید، گوگل گلس و نسخه‌های بعدی آن نشان‌دهنده چگونگی عملکرد فناوری ترجمه در AR است. این دستگاه نه‌تنها زیرنویس لحظه‌ای (نمایش متن گفتار به همان زبان) ارائه می‌دهد، بلکه امکان ترجمه بین دو زبان، مانند انگلیسی و ماندارین، را فراهم می‌کند. این قابلیت به افراد ناشنوا یا کسانی که زبان یکدیگر را نمی‌دانند، کمک می‌کند تا گفت‌وگویی طبیعی داشته باشند.

گوگل گلس همچنین مشکل تداخل ترجمه صوتی گوگل ترنسلیت با مکالمات لحظه‌ای را حل می‌کند. عناصر بصری ترجمه، پیگیری موضوعات را برای کاربران آسان‌تر و طبیعی‌تر می‌سازد.

برای کسب اطلاعات بیشتر در زمینه گوگل گلس می‌توانید مقاله «عینک واقعیت افزوده گوگل با امکان ترجمه؛ رویایی که هنوز در راه است!» را بخوانید.

آینده ترجمه تصاویر با فناوری‌های واقعیت افزوده

فناوری واقعیت افزوده (AR) در سال‌های اخیر از قالب‌های اولیه خود در بازی و سرگرمی فراتر رفته و به یکی از ابزارهای نوآورانه در صنعت ترجمه تبدیل شده است. ترجمه متون از روی تصویر با استفاده از دوربین تلفن همراه، تنها نقطه شروع این تحول است؛ اما آینده‌ای بسیار جالب‌تر در راه است.

نسل جدید فناوری‌ها، ترجمه تصویر را به گفتار و مکالمه زنده گسترش می‌دهند. ایربادهای هوشمند مانند Timekettle WT2 Plus یا دستگاه‌های دستی مانند Langogo با ترکیب هوش مصنوعی و ترجمه صوتی بلادرنگ، امکان مکالمه بین زبان‌های مختلف را بدون نیاز به واسطه انسانی فراهم می‌سازند. به‌عبارت دیگر در گام بعدی ترجمه تصاویر با فناوری‌های واقعیت افزوده، ترجمه به متن محدود نمی‌گردد، بلکه می‌تواند در قالب‌های صوتی و حتی تصویری و شکل زنده انجام شود.

تصور کنید در یک جلسه کاری مجازی یا کلاس آموزشی واقعیت مجازی حضور دارید؛ هر شرکت‌کننده به زبان خود صحبت می‌کند، درحالی‌که متن یا صدای ترجمه‌شده، به‌صورت هم‌زمان در فضای مجازی نمایش داده و یا پخش می‌شود.

یا فرض کنید در بازار شلوغی در توکیو قدم می‌زنید و عینک AR شما مکالمات اطراف را در لحظه به زبان شما تبدیل می‌کند.

این آینده‌ای نزدیک است که فناوری‌های واقعیت افزوده و مجازی در حال ساختن آن هستند.

مقاله « آینده ترجمه تصاویر با مدل‌های پیشرفته هوش مصنوعی» اطلاعات دقیق‌تری را در این زمینه در اختیار شما قرار می‌دهد.

خلاصه مقاله

ترجمه تصاویر با فناوری‌های واقعیت افزوده (AR) فرآیندی است که متن‌های موجود در عکس‌ها را به‌صورت زنده، دقیق و فوری به زبان مقصد ترجمه می‌کند. این فناوری با ترکیبOCR، تشخیص زبان، ترجمه ماشینی و رندرینگ بلادرنگ، تجربه‌ای یکپارچه ایجاد می‌کند؛ به‌گونه‌ای که کاربر تنها با گرفتن دوربین روی یک متن، ترجمه آن را در همان جایگاه مشاهده می‌کند. AR محتوای دیجیتال را به محیط واقعی اضافه می‌کند و در ترجمه تصاویر، کاربردهای گسترده‌ای در سفر، آموزش زبان، تبلیغات و خدمات عمومی دارد.

آینده فناوری ترجمه تصاویر با فناوری‌های واقعیت افزوده نویدبخش ارتباط زبانی روان، سریع و گسترده‌تر در مقیاس جهانی است. در آینده‌ای نزدیک، تصاویر نه‌تنها به متن، بلکه به صدا و حتی تصویر، آن هم به‌شکل هم‌زمان ترجمه خواهند شد.

https://textmine.com/post/an-introduction-to-text-extraction-from-images

https://www.reydar.com/what-is-ar-technology-the-ultimate-guide-to-ar/#how-does-ar-work

https://hbr.org/2017/11/how-does-augmented-reality-work

https://www.machinetranslation.com/blog/augmented-translation