OCR فارسی – شناسایی کاراکتر نوری

او سی آر فارسی با دقت بسیار بالا

در دنیای کامپیوترها فقط صفر و یک ها معنی دارند. در نظر انسان تصویر یک منظره دارای معنا و مفاهیم مختلفی است. کوه، درخت، ابرها و خورشید. اما کامپیوتر این تصویر را به شکل رشته‌ای از صفر و یک ها می‌بیند. درست مانند تصویر یک سند متنی. اگرچه مغز انسان میان تصویر منظره و سند تفاوت قائل است ولی کامپیوتر هر دوی اینها یکسان می‌بیند. در علوم کامپیتر روشی به نام شناسایی نویسه نوری (او سی آر) وجود دارد که می‌تواند منجر به تشخیص نویسه یا کاراکتر در یک تصویر شود. به این روش Optical Character Recognition یا به طور خلاصه OCR گفته می‌شود.

روش او-سی-آر در شکل ساده خود می‌تواند حروف چاپی یا تایپ شده را تشخیص دهد. این کار را از راه ذخیره سازی و مطابقت انواع نوشتارهای یک کاراکتر در قلم‌ها یا فونت‌های محتلف انجام می‌دهد. به این صورت که به طور مثال حرف «پ» را در فونت‌های مختلفی بررسی می‌کنند و با کم‌ترین میزان نویز یا آلودگی ذخیره می‌کنند. حال برنامه به هنگام بررسی و اسکن بخش‌های مختلف یک تصویر به دنبال کارکترهایی که در حافظه خود دارد می‌گردد. به محض مطابقت بخشی از تصویر با یکی از حروف آن بخش از تصویر را با آن حرف علامت می‌زند. این کار را تاجایی ادامه می‌دهد که کل تصویر را پیمایش کند.

شناسایی زبان فارسی با دقت بالا

از آنجایی که در زبان فارسی حروف به اشکال مختلف پیوسته و جدا وجود دارند شناسایی آنها از طریق OCR کار بسیار دشواری است. ربات تلگرامی متن کاو می‌تواند این کار را با دقت زیادی انجام دهد. دقت شناسایی حروف فارسی در این ربات بستگی به کیفیت تصویری که به آن ارسال می‌کنید دارد. اگر حروف فارسی در تصویر شما واضح و با پس زمینه سفید باشد بهترین نتیجه را خواهید گرفت. این ربات هم از طریق آدرس https://t.me/TextRactorBot در دسترس است و هم در نرم افزار پیام رسان تلگرام از طریق قسمت جستجو و عبارت TextRactorBot در اختیار شما قرار دارد.

ربات تلگرامی TextRactorBot تشخیص کاراکترهای فارسی را با دقت بالایی انجام می‌دهد. می‌توانید آن را به رایگان امتحان کنید. در زیر نحوه عملکرد آن را می‌بینید:

ابزار کار مترجمین!

به عنوان یک مترجم حتما زیاد پیش آمده که تصویر یک سند چاپی را به شما بدهند و ترجمه آن را بخواهند. ازآنجایی که معمولا از ابزار ترجمه گوگل یا ترگمان کمک می‌گیرید مجبور هستید که سند مربوطه را دوباره بنویسید. با استفاده از ربات تلگرامی متن کاو دیگر نیازی به نوشتن دوباره متن نیست. به راحتی از سند عکس بگیرید و به ربات بفرستید تا متن آن را به شما تحویل بدهد! همچنین امکان تبدیل PDF به Word هم در این ربات فزاهم آمده است.

یادداشت برداری از کتاب

تبدیل تصویر به نوشته قابل ویرایش به کمک ربات تلگرامی متن کاو

زمانی کتاب‌ها تنها مرجع و وسیله انسان‌ها برای ذخیره و انتقال دانش بودند. اکنون و در عصر ارتباطات، اینترنت محل نگهداری از دانش بشریت است. بخش زیادی از این دانش که از طریق کتاب‌ها به دست ما رسیده، به صورت دست نوشته بوده و باید زحمت زیادی برای خواندن آن می‌کشیدیم. پس از اختراع نوشت‌افزارهای مکانیکی مانند ماشین تایپ اوضاع بهتر شد و بخش قابل توجهی از این کتاب‌ها تایپ شدند.

اگرچه تایپ شدن کتاب‌ها به در دسترس بودن آنها کمک کرده، اما برای فهم بهتر دانش نیاز به دسترسی آسان‌تری است. جستجو میان انبوهی از کتاب‌های حتی تایپ شده هم کار بسیار دشواری است. دانشجویی را در نظر بگیرید که برای تحقیق و توسعه مجبور باشد ساعت‌ها یا حتی روزها برای پیدا کردن جواب یک سوال میان کتاب‌های یک کتابخانه بزرگ بگردد! امروزه اینکار را با کامپیوتر انجام می‌دهیم.

همچنین با کمک هوش مصنوعی الگوهایی را در متون پیدا می‌کنیم که تا کنون قادر به انجام آن نبودیم. این به ما این امکان را می‌دهد که حتی سوال‌هایی را که دقیق نمی‌دانیم را هم جواب بدهیم! اما پیشنیاز همه اینها یک چیز است: اینکه متن روزنامه‌ها، کتاب‌ها، مقالات، پایان‌نامه‌ها، رساله‌ها و خلاصه هر چیزی را به صورت یک نوشته قابل ویرایش و بررسی در اختیار داشته باشیم.

با استفاده از ربات تلگرامی متن کاو که از فناوری Optical Character Recognition یا همان OCR بهره می‌برد می‌توانید تصاویری که شامل یک نوشته تایپ شده باشند را به نوشته قابل ویرایش تبدیل کنید و اینگونه هم به خودتان کمک می‌کنید و دیگر نیازی نیست تا متن کتاب‌ها را دوباره تایپ کنید و هم به نسل‌های آینده!

تبدیل PDF به DOCX!

دقت کنید که عکسی که از طریق تلگرام به ربات می‌فرستید واضح و دارای نور کافی باشد. همچنین بهتر است پس زمینه آن سفید باشد تا با دقت بیشتری متن داخل تصویر استخراج شود. امکان تبدیل فایل PDF به Word هم در این ربات وجود دارد.