OCR کیا ہے اور یہ کیسے کام کرتا ہے؟

OCR کا مطلب آپٹیکل کریکٹر ریکگنیشن ہے۔ یہ ایک تصویر کا پکسل بہ پکسل تجزیہ کرتا ہے، ایسے نمونوں کی شناخت کرتا ہے جو حروف اور ہندسوں سے مطابقت رکھتے ہیں، اور انہیں مشین کے پڑھنے کے قابل متن میں تبدیل کرتا ہے۔ Tesseract جیسے جدید OCR انجن پرنٹ شدہ متن پر اعلیٰ درستگی حاصل کرنے کے لیے عصبی نیٹ ورکس کا استعمال کرتے ہیں۔

OCR آؤٹ پٹ کتنا درست ہے؟

اچھی روشنی میں صاف، ہائی ریزولوشن (200 dpi+) پرنٹ شدہ متن پر عام طور پر درستگی 95-99% ہوتی ہے۔ ہاتھ سے لکھا ہوا متن، آرائشی فونٹس، کم کنٹراسٹ پس منظر، اور بہت کم ریزولوشن والی تصاویر کی درستگی کم ہوگی۔

کیا میں اپنے فون سے لی گئی تصویر سے متن نکال سکتا ہوں؟

جی ہاں دستاویز کو صفحہ کے متوازی کیمرے کے ساتھ اچھی روشنی میں تصویر بنائیں، اس بات کو یقینی بناتے ہوئے کہ متن تیز ہے اور انتہائی زاویہ پر نہیں ہے۔ مکمل ریزولیوشن پر جدید اسمارٹ فونز سے JPG تصاویر بہت اچھی طرح سے کام کرتی ہیں۔

OCR کن زبانوں کو سپورٹ کرتا ہے؟

موجودہ تعیناتی انگریزی کے لیے موزوں ہے۔ Tesseract عربی، اردو، فرانسیسی، ہسپانوی، جرمن، اور چینی سمیت 100 سے زیادہ زبانوں کو سپورٹ کرتا ہے - مستقبل کی اپ ڈیٹ کے لیے کثیر زبان کی حمایت کا منصوبہ بنایا گیا ہے۔

کیا میری اپ لوڈ کردہ فائلیں محفوظ ہیں؟

نہیں، فائلوں کو سرور میموری میں پروسیس کیا جاتا ہے اور نکالنے کے مکمل ہونے کے بعد فوری طور پر حذف کر دیا جاتا ہے۔ ڈسک سٹوریج پر کچھ بھی نہیں لکھا جاتا، لاگز میں شامل، یا کسی بھی شکل میں برقرار رکھا جاتا ہے۔

میری اسکین شدہ پی ڈی ایف صحیح طریقے سے کیوں نہیں نکال رہی ہے؟

عام وجوہات میں شامل ہیں: بہت کم اسکین ریزولوشن (150 dpi سے کم)، ایک زاویہ پر اسکین کیے گئے صفحات، دھندلی سیاہی، ہاتھ سے لکھا ہوا مواد، یا پیچیدہ دو کالم لے آؤٹ۔ بہترین نتائج کے لیے بلیک اینڈ وائٹ موڈ میں 300 ڈی پی آئی پر دوبارہ اسکین کرنے کی کوشش کریں۔

کیا میں ملٹی پیج پی ڈی ایف کو او سی آر کر سکتا ہوں؟

جی ہاں ملٹی پیج اسکین شدہ پی ڈی ایف پر صفحہ بہ صفحہ عمل کیا جاتا ہے۔ تمام نکالے گئے متن کو صفحہ کے وقفے کے ساتھ ایک ہی آؤٹ پٹ میں ملایا جاتا ہے۔ بہت طویل دستاویزات (50+ صفحات) کے لیے، پروسیسنگ میں 30-90 سیکنڈ لگ سکتے ہیں۔

درست OCR کے لیے مجھے کس DPI (ریزولوشن) کی ضرورت ہے؟

کم از کم 200 DPI کی سفارش کی جاتی ہے۔ 300 DPI بہترین درستگی کے لیے پیاری جگہ ہے۔ 150 DPI سے نیچے کی تصاویر کی درستگی نمایاں طور پر کم ہو جائے گی۔ دستاویزات کو اسکین کرتے وقت، ہمیشہ OCR استعمال کے لیے اپنے اسکینر کو 300 DPI کم از کم پر سیٹ کریں۔

کیا OCR بزنس کارڈ کی تصویر سے ٹیکسٹ نکال سکتا ہے؟

جی ہاں اچھی ریزولیوشن پر واضح طور پر تصویر والا بزنس کارڈ اچھی طرح سے OCR کرے گا۔ بہترین نتائج کے لیے، یقینی بنائیں کہ کارڈ فلیٹ، اچھی طرح سے روشن، اور زیادہ تر فریم کو بھرتا ہے۔ نکالے گئے متن میں نام، عنوان، فون، ای میل اور پتہ شامل ہوگا جسے آپ براہ راست کاپی کرسکتے ہیں۔

کیا OCR ہاتھ سے لکھے ہوئے متن پر کام کرتا ہے؟

Tesseract میں ہینڈ رائٹنگ کی شناخت کی محدود صلاحیت ہے۔ یہ صاف ستھرا، بلاک لیٹر ہینڈ رائٹنگ پر معقول حد تک کام کرتا ہے لیکن کرسیو یا بے قاعدہ لکھاوٹ کے ساتھ جدوجہد کرتا ہے۔ ہینڈ رائٹنگ کی سنجیدہ شناخت کے لیے، وقف شدہ ML ماڈلز (جیسے Google Vision API) زیادہ درست ہیں۔

کیا میں اسکرین شاٹ سے متن نکال سکتا ہوں؟

جی ہاں اسکرین شاٹ کو PNG یا JPEG کے بطور اپ لوڈ کریں اور OCR انجن کسی بھی مرئی متن کو نکال لے گا۔ دستاویزات کے اسکرین شاٹس، چیٹ کے پیغامات، ایرر ڈائیلاگ، یا ویب صفحات سب کام کرتے ہیں۔ اعلی ریزولیوشن اسکرین شاٹس (ریٹنا ڈسپلے سے) بہتر نتائج دیتے ہیں۔

OCR اور براہ راست پی ڈی ایف ٹیکسٹ نکالنے میں کیا فرق ہے؟

براہ راست نکالنا ڈیجیٹل پی ڈی ایف میں سرایت شدہ اصل ٹیکسٹ ڈیٹا کو پڑھتا ہے - یہ فوری اور 100% درست ہے۔ OCR کا اطلاق اسکین شدہ PDFs یا تصاویر پر ہوتا ہے جہاں متن کو پکسل پیٹرن کے طور پر محفوظ کیا جاتا ہے اور اسے کریکٹر کے لحاظ سے پہچانا جانا چاہیے۔ ٹول خود بخود پتہ لگاتا ہے کہ کون سا طریقہ استعمال کرنا ہے۔

کیا میں ایسی پی ڈی ایف کو او سی آر کر سکتا ہوں جس میں ڈیجیٹل ٹیکسٹ پیجز اور اسکین شدہ صفحات دونوں ہوں؟

جی ہاں ٹول ہر صفحے کو انفرادی طور پر تلاش کرتا ہے — ڈیجیٹل ٹیکسٹ صفحات کو براہ راست نکالا جاتا ہے اور اسکین کیے گئے صفحات پر OCR کے ساتھ کارروائی کی جاتی ہے۔ مشترکہ آؤٹ پٹ صفحہ کی ترتیب کو برقرار رکھتا ہے۔

کیا OCR اصل دستاویز کی فارمیٹنگ اور لے آؤٹ کو محفوظ رکھتا ہے؟

آؤٹ پٹ سادہ متن ہے — بولڈ، ترچھا، فونٹ سائز، کالم، اور میزیں فارمیٹنگ کے طور پر محفوظ نہیں ہیں۔ پیراگراف کے وقفے اور لائن کے وقفے محفوظ ہیں جہاں پتہ چلا ہے۔ لے آؤٹ محفوظ کرنے کے لیے، ڈیجیٹل پی ڈی ایف پر پی ڈی ایف ٹو ورڈ کنورٹر استعمال کریں۔

میں خراب معیار کے اسکینوں کے لیے OCR کی درستگی کو کیسے بہتر بنا سکتا ہوں؟

اپ لوڈ کرنے سے پہلے، ان اصلاحات کو آزمائیں: فوٹو ایڈیٹر میں چمک اور کنٹراسٹ بڑھائیں، کسی بھی گردش کو سیدھا کریں (زیادہ تر فونز خود بخود سیدھا ہوتے ہیں)، بارڈرز اور بیک گراؤنڈ کو ہٹانے کے لیے تراشیں، اور کم از کم 1000px چوڑائی کا سائز تبدیل کریں۔ یہ پری پروسیسنگ اقدامات اکثر ڈرامائی طور پر OCR کی درستگی کو بہتر بناتے ہیں۔

کیا OCR ٹیبل سے متن نکال سکتا ہے؟

او سی آر ٹیبلز کے متنی مواد کو نکالتا ہے لیکن ٹیبل کی ساخت کو محفوظ نہیں رکھتا - آؤٹ پٹ کالم کے بغیر متن کی قطاریں ہوں گی۔ اسکین شدہ پی ڈی ایف سے سٹرکچرڈ ٹیبل نکالنے کے لیے، متن کو نکالنے کے بعد کالموں میں دستی طور پر دوبارہ ترتیب دینے کی ضرورت ہوگی۔

Free OCR Tool — Extract Text From Images & PDFs

فائل یہاں کھینچیں یا منتخب کرنے کے لیے کلک کریں

Drag and drop, or click to browse

Tap to browse

معاون فارمیٹس: PDF، JPEG، PNG، WEBP، TIFF، BMP — زیادہ سے زیادہ 20 MB

یہ کیسے کام کرتا ہے: متن پر مبنی PDFs فوری طور پر نکالی جاتی ہیں۔ اسکین شدہ دستاویزات اور تصاویر Tesseract OCR سے پراسیس کی جاتی ہیں۔ بہترین نتائج کے لیے 200 dpi یا اس سے زیادہ کے واضح، زیادہ کنٹراسٹ اسکین استعمال کریں۔

یہ ٹول ایمبیڈ کریں

اس ٹول کو iframe کے ذریعے اپنی ویب سائٹ یا بلاگ میں شامل کریں۔

<iframe src="https://dukotools.com/tools/ocr-tool?embed=1" width="100%" height="600" frameborder="0" allow="clipboard-write" loading="lazy" title="ocr-tool tool"></iframe>

About OCR — Image & PDF to Text

OCR ٹول کسی بھی اسکین شدہ PDF، JPEG، PNG، WEBP، TIFF، یا BMP فائل سے Tesseract کا استعمال کرتے ہوئے ٹیکسٹ نکالتا ہے - دنیا کا معروف اوپن سورس آپٹیکل کریکٹر ریکگنیشن انجن۔ پی ڈی ایف کے لیے جو پہلے سے ہی ٹیکسٹ پر مبنی ہیں (سیکٹ ایبل ٹیکسٹ کے ساتھ ڈیجیٹل پی ڈی ایف)، ٹول براہ راست نکالنے کا استعمال کرتا ہے جو کہ قریب قریب اور 100% درست ہے۔ اسکین شدہ دستاویزات اور تصاویر کے لیے، Tesseract حروف، الفاظ اور پیراگراف کو پہچاننے کے لیے ہر صفحے کا پکسل بہ پکسل تجزیہ کرتا ہے۔ نکالے گئے متن کو کلپ بورڈ پر کاپی کیا جا سکتا ہے یا دوسری ایپلیکیشنز میں ترمیم، تلاش یا درآمد کرنے کے لیے سادہ .txt فائل کے طور پر ڈاؤن لوڈ کیا جا سکتا ہے۔ تمام فائل پروسیسنگ ایک محفوظ سرور پر ہوتی ہے، فائلوں کو نکالنے کے مکمل ہونے کے فوراً بعد حذف کر دیا جاتا ہے۔

کلیدی خصوصیات

اسمارٹ پی ڈی ایف اور امیج ٹیکسٹ ایکسٹریکشن
خود بخود پتہ لگاتا ہے کہ آیا اپ لوڈ کردہ پی ڈی ایف میں ڈیجیٹل ٹیکسٹ ہے یا اسکین شدہ تصاویر اور نکالنے کا بہترین طریقہ لاگو ہوتا ہے۔ ٹیکسٹ پی ڈی ایف پر 100% درستگی کے ساتھ فوری کارروائی کی جاتی ہے۔ تصویر پر مبنی فائلیں کردار کی شناخت کے لیے Tesseract OCR استعمال کرتی ہیں۔
ٹیسریکٹ OCR انجن
Tesseract کے ذریعہ تقویت یافتہ، سب سے زیادہ استعمال ہونے والا اوپن سورس OCR انجن، جو اصل میں HP نے تیار کیا تھا اور اب Google کے ذریعہ برقرار رکھا گیا ہے۔ انگریزی اور دیگر معاون زبانوں میں صاف، اعلی کنٹراسٹ طباعت شدہ متن پر بہترین درستگی فراہم کرتا ہے۔
PDF، JPEG، PNG، WEBP، TIFF، BMP کو سپورٹ کرتا ہے۔
تمام اہم دستاویز اور تصویری فارمیٹس کو قبول کرتا ہے۔ اسکین شدہ پی ڈی ایف براہ راست اپ لوڈ کریں، یا اسمارٹ فون کیمرے سے لی گئی تصاویر۔ ملٹی پیج پی ڈی ایفز کو صفحہ بہ صفحہ پروسیس کیا جاتا ہے جس میں تمام نکالے گئے متن کو ایک مسلسل آؤٹ پٹ میں ملایا جاتا ہے۔
کلپ بورڈ پر کاپی کریں اور .txt ڈاؤن لوڈ کریں۔
نکالنے کے بعد، ایک کلک کے ساتھ پورے متن کو اپنے کلپ بورڈ پر کاپی کریں، یا اسے سادہ .txt فائل کے طور پر ڈاؤن لوڈ کریں۔ ڈاؤن لوڈ لائن بریکس اور پیراگراف کی ساخت کو محفوظ رکھتا ہے جیسا کہ OCR انجن کے ذریعے پتہ چلا ہے۔
لفظ شمار اور نکالنے کا طریقہ ڈسپلے
کل الفاظ کی گنتی، کرداروں کی گنتی، اور نکالنے کا کون سا طریقہ استعمال کیا گیا (براہ راست یا OCR) دکھاتا ہے تاکہ آپ ایک نظر میں نکالنے کے معیار اور مکمل ہونے کا اندازہ لگا سکیں۔
پروسیسنگ کے بعد فائلوں کو حذف کر دیا گیا۔
اپ لوڈ کردہ فائلیں صرف پروسیسنگ کے دوران سرور میموری میں رکھی جاتی ہیں اور نکالنے کے مکمل ہونے کے فوراً بعد حذف کردی جاتی ہیں۔ کچھ بھی ڈسک میں محفوظ، لاگ ان یا برقرار نہیں ہے۔ آپ کی دستاویزات مکمل طور پر نجی رہیں۔

استعمال کرنے کا طریقہ

1
اپنی فائل اپ لوڈ کریں۔
PDF، JPEG، PNG، WEBP، TIFF، یا BMP فائل کو اپ لوڈ ایریا پر گھسیٹیں، یا براؤز کرنے کے لیے کلک کریں۔ فائل کا زیادہ سے زیادہ سائز 20 MB ہے۔ بہت سے صفحات کے ساتھ اسکین شدہ PDFs کے لیے، 5-15 MB کے درمیان کا سائز عام ہے۔
2
Extract Text پر کلک کریں۔
Extract Text بٹن پر کلک کریں۔ متن پر مبنی پی ڈی ایف تقریباً فوری طور پر نتائج لوٹاتا ہے۔ اسکین شدہ دستاویزات اور تصاویر پر Tesseract OCR کے ذریعے کارروائی کی جاتی ہے جس میں عام طور پر پیچیدگی کے لحاظ سے فی صفحہ 2-8 سیکنڈ لگتے ہیں۔
3
نکالے گئے متن کا جائزہ لیں۔
نکالا ہوا متن آؤٹ پٹ پینل میں ظاہر ہوتا ہے۔ اسکرول کریں اور درستگی کی جانچ کریں۔ OCR کی درستگی تصویر کے معیار پر منحصر ہے — دھندلے یا کم کنٹراسٹ اسکینوں میں صاف پرنٹ شدہ متن سے زیادہ غلطیاں ہوں گی۔
4
کاپی یا ڈاؤن لوڈ کریں۔
کسی اور ایپلیکیشن میں چسپاں کرنے کے لیے مکمل متن کو کاپی کرنے کے لیے کلپ بورڈ پر کاپی کریں پر کلک کریں، یا ماخذ دستاویز کے اسی نام کے ساتھ ایک سادہ ٹیکسٹ فائل کے طور پر محفوظ کرنے کے لیے ڈاؤن لوڈ .txt پر کلک کریں۔
5
اگر ضرورت ہو تو صاف کریں۔
معمولی OCR غلطیوں کے ساتھ اسکین شدہ دستاویزات کے لیے، متن کو ورڈ پروسیسر میں چسپاں کریں اور کسی بھی منظم غلط شناخت کو درست کرنے کے لیے Find & Replace کا استعمال کریں (مثال کے طور پر، نمبر کی ترتیب میں "O" کے طور پر "0" کو غلط پڑھنا)۔

حقیقی دنیا کے استعمال کے معاملات

محفوظ شدہ دستاویزات کو ڈیجیٹائز کرنا

ایک قانونی فرم کے پاس 1990 کی دہائی کے معاہدوں کی کابینہ ہوتی ہے جو ڈیجیٹل بیک اپ کے بغیر پرنٹ اور اسٹور کیے گئے تھے۔ ایک انٹرن اسمارٹ فون کے ساتھ ہر صفحے کی تصویر کشی کرتا ہے اور JPEGs کو OCR ٹول پر اپ لوڈ کرتا ہے۔ نکالا گیا متن .txt فائلوں کے طور پر ڈاؤن لوڈ کیا جاتا ہے، دستاویز کے انتظام کے نظام میں درآمد کیا جاتا ہے، اور معاہدے کئی دہائیوں میں پہلی بار مکمل طور پر تلاش کے قابل ہو جاتے ہیں۔

اسکین شدہ رسیدوں سے ڈیٹا نکالنا

ایک قابل ادائیگی اکاؤنٹس مینیجر کو سپلائی کرنے والوں سے پی ڈی ایف منسلکات کے طور پر اسکین شدہ رسیدیں موصول ہوتی ہیں۔ اکاؤنٹنگ سسٹم میں انوائس نمبرز اور رقوم کو دستی طور پر ٹائپ کرنے کے بجائے، وہ ہر پی ڈی ایف کو OCR ٹول کے ذریعے چلاتے ہیں، نکالے گئے متن کو کاپی کرتے ہیں، اور تیزی سے درآمد کرنے کے لیے اسے اسپریڈ شیٹ میں چسپاں کرتے ہیں۔ دستی طور پر 2 گھنٹے لگنے والے 50 رسیدوں پر کارروائی میں 15 منٹ لگتے ہیں۔

ٹیکسٹ بک کی تصاویر کو نوٹس میں تبدیل کرنا

یونیورسٹی کا ایک طالب علم درسی کتاب کے ان صفحات کی تصویر کشی کرتا ہے جن کی انہیں اسائنمنٹ میں حوالہ دینے کی ضرورت ہوتی ہے۔ تصاویر سے پیرا فریس کرنے کے بجائے، وہ تصاویر کو او سی آر کرتے ہیں اور درست متن حاصل کرتے ہیں۔ وہ نکالے گئے اقتباسات کو اپنے نوٹس ایپ میں چسپاں کرتے ہیں، ان کے حوالہ جات شامل کرتے ہیں، اور ایک لفظ کو دوبارہ ٹائپ کیے بغیر فزیکل کتابوں سے تلاش کے قابل، کاپی پیسٹ کرنے کے قابل حوالہ مواد رکھتے ہیں۔

اکثر پوچھے گئے سوالات

Related Free Tools

Explore these tools that work great alongside OCR — Image & PDF to Text:

PDF to Word Converter

Convert PDF files to editable Word documents (DOCX) in seconds.

PDF Merger

Merge multiple PDF files into one document with custom ordering.

متعلقہ ٹولز