پردازش تصویر | روشها و کاربردها
پردازش تصویر: روشها، انواع و کاربردها
پردازش تصویر یکی از شاخههای رایج و مهم علم کامپیوتر است که به بررسی و دستکاری تصاویر دیجیتال با استفاده از الگوریتمهای رایانهای میپردازد. باید بدانیم که پردازش تصویر یک گام ضروری در بسیاری از کاربردها، مانند شناسایی چهره، تشخیص اشیا و فشردهسازی تصویر است. هدف از پردازش تصویر معمولاً بهبود یک تصویر موجود یا استخراج اطلاعات مهم از آن است. این در بسیاری از کاربردهای مبتنی بر یادگیری عمیق در حوزه کامپیوتر بینایی، جایی که چنین پیشپردازشهای ساده میتوانند عملکرد یک مدل را به طور قابلتوجهی افزایش دهند، حائز اهمیت است. دستکاری تصاویر، بهعنوانمثال، اضافه یا حذفکردن اشیا به تصاویر، یک کاربرد دیگر است، بهخصوص در صنعت سرگرمی.
چگونه ماشینها تصاویر را «میبینند»؟
تصاویر دیجیتال توسط رایانه بهعنوان ماتریسهای دوبعدی یا سهبعدی تفسیر میشوند که هر مقدار یا پیکسل در ماتریس نشاندهنده دامنه، بهعبارتدیگر «شدت» پیکسل است. معمولاً ما با تصاویر 8 بیتی سروکار داریم که در آن مقدار دامنه از 0 تا 255 متغیر است. هر پیکسل در چنین تصویر سطح خاکستری با یک عدد صحیح نشاندادهشده است که نشاندهنده شدت نور در آن نقطه است. برخی تصاویر رنگی هستند که هر پیکسل آنها با سه عدد صحیح نشاندادهشده است که نشاندهنده شدت نور در سهرنگ اصلی قرمز، سبز و آبی است. این نوع تصاویر را تصاویر RGB میگویند. تصویر زیر یک مثال از یک تصویر سطح خاکستری و یک تصویر RGB است.
فازهای پردازش تصویر
پردازش تصویر معمولاً شامل چند فاز است که در زیر به آنها اشاره میشود:
جمعآوری تصویر: در این فاز، تصویر از منبعی مانند دوربین، اسکنر یا فایل وارد سیستم میشود. برای پردازش تصویر، لازم است که تصویر بهصورت دیجیتال باشد، بنابراین اگر تصویر از یک منبع آنالوگ باشد، باید بهصورت دیجیتال تبدیل شود. این کار با استفاده از یک دستگاه تبدیل آنالوگ به دیجیتال (ADC) انجام میشود که هر پیکسل را به یک عدد صحیح نگاشت میکند.
پیشپردازش تصویر: در این فاز، هدف بهبود کیفیت تصویر و حذف نویز و خطاهای احتمالی است. برخی از عملیات پرکاربرد در این فاز عبارتاند از: فیلترکردن، هموارسازی، روشنایی و کنتراست، برشزدن و تغییر اندازه.
پژوهش تصویر: در این فاز، هدف استخراج و شناسایی ویژگیهای مهم و معنادار از تصویر است. برخی از عملیات پرکاربرد در این فاز عبارتاند از: برجستهسازی لبهها، شناسایی نقطههای کلیدی، استخراج بافت و رنگ، برچسبگذاری منطقهای و دستهبندی.
پسپردازش تصویر: در این فاز، هدف بهکارگیری و نمایش نتایج حاصل از فاز قبل است. برخی از عملیات پرکاربرد در این فاز عبارتاند از: بازسازی تصویر، جایگذاری و جابهجایی اشیا، تغییر رنگ و بافت، فشردهسازی و ذخیرهسازی.
روشهای پردازش تصویر
برای هر چهار فاز پردازش تصویر، روشهای مختلف و متعددی وجود دارد که بسته به نوع تصویر، هدف کاربرد و الگوریتم مورداستفاده متفاوت هستند. در این بخش، به برخی از روشهای پرکاربرد میپردازیم.
روشهای مبتنی بر ماتریس: این روشها با استفاده از عملیات خطی بر روی ماتریس تصویر، تغییراتی در دامنه یا فضای تصویر ایجاد میکنند. برخی از عملیات پرکاربرد در این روشها عبارتاند از: جمع، تفریق، ضرب، تقسیم، معکوس، تبدیل هافمن، تبدیل فوریه و تبدیل ویولت. این روشها معمولاً برای فشردهسازی، فیلترکردن، هموارسازی و بازسازی تصویر به کار میروند.
روشهای مبتنی بر هسته: این روشها با استفاده از یک هسته یا کرنل که یک ماتریس کوچک است، بهصورت محلی بر روی هر پیکسل یا منطقه از تصویر عمل میکنند. برخی از عملیات پرکاربرد در این روشها عبارتاند از: فیلتر خطی و غیرخطی، فشردهسازی، تشخیص لبه و نقطه کلید، شارپنینگ و تار کردن. این روشها معمولاً برای بهبود کنتراست، حذف نویز و استخراج ویژگی به کار میروند.
روشهای مبتنی بر هیستوگراف: این روشها با استفاده از گراف چندگانه که نشاندهنده رابطه بین پیکسلها یا منطقههای تصویر است، ساختار و خصوصیات تصویر را مدل میکنند. برخی از عملیات پرکاربرد در این روشها عبارتاند از: قطعکردن گراف، جستجو در گراف، الگوریتم پیمایش درختی و الگوریتم دستکاری گراف. این روشها معمولاً برای دستهبندی، برچسبگذاری منطقهای، جایگذاری و جابهجایی اشیا به کار میروند.
روشهای مبتنی بر ژئومتری: این روشها با استفاده از نظریات و قضایای هندسی، تغییراتی در شکل یا جهت تصویر یا قسمتهای آن ایجاد میکنند. بعضی از عملیات پرکاربرد در این روشها عبارتاند از: تغییر مقیاس، چرخاندن، جابهجایی، کج کردن و کج شکستگی. این روشها معمولاً برای تغییر اندازه، تصحیح انحراف و تبدیل تصویر به کار میروند.
روشهای مبتنی بر یادگیری ماشین: این روشها با استفاده از الگوریتمهای یادگیری ماشین که قادر به یادگیری از دادههای تصویری هستند، تصویر را بهعنوان ورودی میگیرند و خروجی موردنظر را تولید میکنند. برخی از عملیات پرکاربرد در این روشها عبارتاند از: یادگیری عمیق، شبکههای عصبی کانولوشنال، شبکههای مولد مقابلهای و شبکههای بازگشتی. این روشها معمولاً برای شناسایی چهره، تشخیص اشیا، ترجمه تصویر و تولید تصویر به کار میروند.
امروزه بیشتر به موضوع پردازش تصویر دیجیتال گفته میشود که شاخهای از دانش رایانه است که با پردازش سیگنال دیجیتال که نماینده تصاویر برداشته شده با دوربین دیجیتال یا پویش شده توسط پویشگر هستند سروکار دارد.
پردازش تصاویر دارای دوشاخه عمدهٔ بهبود تصاویر و بینایی ماشین است. بهبود تصاویر دربرگیرندهٔ روشهایی چون استفاده از فیلتر محوکننده و افزایش تضاد برای بهتر کردن کیفیت دیداری تصاویر و اطمینان از نمایش درست آنها در محیط مقصد (مانند چاپگر یا نمایشگر رایانه) است، درحالیکه بینایی ماشین به روشهایی میپردازد که به کمک آنها میتوان معنی و محتوای تصاویر را درک کرد تا از آنها در کارهایی چون رباتیک و محور تصاویر استفاده شود.
در معنای خاص آن پردازش تصویر عبارت است از هر نوع پردازش سیگنال که ورودی یک تصویر است مثل عکس یا صحنهای از یک فیلم. خروجی پردازشگر تصویر میتواند یک تصویر یا یک مجموعه از نشانهای ویژه یا متغیرهای مربوط به تصویر باشد. اغلب تکنیکهای پردازش تصویر شامل برخورد با تصویر بهعنوان یک سیگنال دوبعدی و بهکاربستن تکنیکهای استاندارد پردازش سیگنال روی آنها میشود. پردازش تصویر اغلب به پردازش دیجیتالی تصویر اشاره میکند ولی پردازش نوری و آنالوگ تصویر هم وجود دارند. این مقاله در مورد تکنیکهای کلی است که برای همه آنها به کار میرود.