تجزیه و تحلیل ویدیو، فوری ترین شکل هوش مصنوعی

امروزه هوش مصنوعی (AI) در همه جا وجود دارد. مدلهای یادگیری ماشین به کاربردهای پزشکی و حمل و نقل، آموزش و امور مالی را پیدا کرده اند. با این حال، یک مورد استفاده وجود دارد که بالاتر از بقیه قرار می گیرد، موردی که به سرعت در حال افزایش است و قرار است در کوتاه مدت نتایج خود را ارائه دهد: تجزیه و تحلیل ویدئو.

ویدئو حاوی اطلاعات مفید فراوانی برای انواع سازمان ها، از شرکت های امنیتی گرفته تا خرده فروشان، شرکت های لجستیک و مقامات محلی است. درک آنچه که دقیقاً در ویدئو اتفاق می افتد، برای مردم شغل محسوب می شد. با این حال، مدل های بینایی رایانه ای به سرعت جایگزین ناظران انسانی می شوند.

هوش مصنوعی

در واقع انتظار می رود که نرم افزار کاربردهای بینایی رایانه ای یکی از برجسته ترین زمینه های پذیرش هوش مصنوعی باشد و طبق پیش بینی شرکت تحلیلگر Omdia، پیش بینی می شود بین سالهای 2019 تا 2025 بینایی رایانه ای خالص، 52 میلیارد دلار درآمد داشته باشد. در حالی که انتظار می رود نرم افزارهایی که بینایی رایانه را با تجزیه و تحلیل ترکیب می کند 51 میلیارد دلار دیگر در همان بازه زمانی به دست آورند.

محققان یادگیری ماشین از بینایی رایانه ای در طیف وسیعی از سناریوها استفاده می کنند: از تشخیص شکستگی های استخوانی مخفی در اشعه ایکس که تقریباً برای چشم انسان نامرئی هستند، تا محاسبه (کم و بیش) تعداد دقیق درختان در هر منطقه از کره زمین از طریق تصویر ماهواره ای. به عنوان مثال، Global Forest Change، پروژه ای از دانشگاه مریلند است که با استفاده از شبکه های عصبی متحرک در داده های ماهواره ای برای تشخیص درختان، جنگل زدایی را دنبال می کند. ممکن است این کار عجیب به نظر برسد، اما علیرغم پیشرفت تکنولوژیکی، ما درک درستی از تعداد درختان روی زمین نداریم.

علاوه بر این، با استفاده از نقشه تعاملی، کاربران می توانند "مکان های نمونه" را مرور کنند تا تصاویری را همراه با توضیحی مشاهده کنند که جزئیات تأثیر آتش سوزی جنگل ها در یاکوتسک، سیبری یا گسترش مزارع روغن نخل در کالیمتانان، بورنئو را توضیح می دهد. صادقانه بگوییم، این یک روش قابل توجه برای بیان داستان از طریق داده ها است.

هوش مصنوعی

یادگیری خودکار ماشین

در دنیای برنامه های تجاری، در حال حاضر از بینایی رایانه ای در سایت های ساختمانی برای مقایسه تصاویر کار با نقشه ها، که در غیر این صورت به عنوان دوقلوهای دیجیتال (Digital twins) شناخته می شوند، استفاده می شود و در بیمارستان ها و مراکز مراقبت از سالمندان برای اطمینان از سلامت ساکنان آنها استفاده می شود.

دوقلوهای دیجیتالی در سالهای اخیر برجسته تر شده اند و برخی از اپراتورها، آنها را در طراحی مرکز داده مهم می دانند و بینش های داده محور را ارائه می دهند که بر اساس آنها تصمیمات مربوط به عملکرد، بهینه سازی سرمایش و چیدمان اتاق را اتخاذ می کند.

البته، تجزیه و تحلیل ویدئو همچنین باعث پیشرفت خودروهای خودران می شود، جایی که از حسگرها در درک محیط اطراف پشتیبانی می کند. شرکتVolkswagen به تازگی اعلام کرده است که خودروهای سطح 4، خودروهایی که قادر به انجام همه وظایف رانندگی در شرایط خاص هستند، را در یک مدار ویژه در مونیخ آزمایش می کند و انتظار می رود ون های hands-free تا 2025 در جاده های عمومی دیده شوند. استفاده از مدل های یادگیری ماشین در فرآیندی به نام استنباط ساده است و می تواند در سخت افزارهای پیشرفته انجام شود، به عنوان مثال، دوربین های مدار بسته هوشمند مجهز به تراشه های هدفمند برای ردیابی مشتریان، یا بلندگوهای هوشمند که می توانند گفتار را تشخیص دهند.

هوش مصنوعی

با این حال، قبل از مفید بودن چنین مدل هایی، آنها باید بر روی صدها هزار، گاهی میلیون ها مثال، در یک تمرین ریاضی فوق العاده محاسباتی آموزش داده شوند، و در اینجا، متأسفانه، اندازه اهمیت دارد. هرچه داده های مدل بیشتر مصرف شود و بودجه محاسباتی و حافظه بیشتر باشد، درک متن، تصاویر یا گفتار دقیق تر خواهد بود. بنابراین، به طور طبیعی، انتخاب مرکز داده مناسب، با معماری های قابل تنظیم و تخصص فنی برای کمک به پیکربندی این مقیاس جدید محاسبات، اطمینان از مقیاس پذیری و تأخیر کم برنامه، امری ضروری است. به عنوان مثال، بیش از 315 میلیون تصویر دارای برچسب در ایجادGoogle Brain’s Transfer Big (BiT)، یکی از بزرگترین مدل های بینایی کامپیوتری که از قبل آموزش دیده است، مشارکت داشته است.

بارهای تحلیلی ویدئویی در حال ظهور، به ویژه برخی از برنامه های پرمصرف هستند که در مرکز داده ظاهر می شوند. و بر اساس آخرین گزارش Omdia، داده های ویدئویی از نظر پهنای باند بسیار زیاد است و به توان بیشتر، زمان آموزش و منابع ذخیره داده نسبت به داده های صوتی (مورد استفاده در تشخیص صدا و گفتار و مکالمه) یا جریان داده های اصلی عملیاتی، مانند داده های عملیاتی ماشین یا داده های مبتنی بر مصرف کننده مانند سابقه مرورگر نیاز دارد.

جالب اینجاست که دیدگاه Hyperscale این است که این برنامه های فشرده محاسبه شده توسط مجموعه های گسترده ای از سرورهای استاندارد که در مکان های مختلف پخش شده اند، بهتر ارائه می شود. با این حال، کاربران مدل بینایی اغلب می توانند دریابند که مراکز داده در مقیاس صنعتی که نزدیک برنامه های آنها قرار گرفته اند می توانند بستر بسیار موثرتری برای نیازهای آنها فراهم کنند.

هوش مصنوعی

پیشرفت بینایی رایانه ای

دو چیز، مانند همیشه، برای پیشرفت بینایی رایانه ای پیشرفته ضروری است: زیرساخت و نیروی انسانی. CPU های سنتی تا حدودی برای آموزش مدلهای یادگیری ماشین مفید هستند، اما چیزی که این فناوری بیشتر دوست دارد پردازش گسترده موازی است که هزاران هسته محاسباتی را شامل می شود. اجرای هوش مصنوعی در این مقیاس، مستلزم تفکر مجدد زیرساخت ها به گونه ای است که دهه ها دیده نشده و اصول پشت محاسبات با کارایی بالا(HPC) را در نظر گرفته است، که به معنای ماشین های گرمتر، سنگین تر و تشنه قدرت بیشتر است.

تا حدی، این امر در حال حاضر در حال رخ دادن است. به عنوان مثال، NVIDIA، که اخیراً سریعترین ابر رایانه بریتانیایی به نام Cambridge-1 را در Kao Data مستقر کرده است، همیشه تراشه هایی با هسته های فراوان طراحی کرده است. این شرکت به سرعت خود را از یک نام تجاری بازی به یک شرکت تجاری تبدیل کرده است و موقعیت رهبری خود را در سخت افزار AI بسیار جدی می گیرد. به این ترتیب، آخرین محصول شتاب دهنده های NVIDIA شامل کارت A30 برای حجم محاسبات سازمانی "اصلی" مانند سیستم های توصیه، هوش مصنوعی مکالمه و بینایی رایانه است.

A30 کوچکتر و ارزان تر از A100 است که به دستگاههای فوق رایانه DGX مجهز است و در بین مقیاس هایپر مقیاس محبوب است. با این حال، این ممکن است نشان دهد که هوش مصنوعی از چیزی که حق شرکت های بزرگ بود به چیزی تبدیل شده است که اکنون برای مشاغل کوچک و متوسط قابل استفاده است.

به چالش کشیدن برای مقام اول

البته NVIDIA تنها شرکتی نیست که متوجه تغییرات بزرگ شده است. رقبایی که برای رتبه یک پردازش موازی رقابت می کنند شامل Habana اینتل، AMD Instinct ، Graphcore بریتانیایی، اخیراً SambaNova و Groq و البته Cerebras، سازندگان یک تراشه عظیم 72 اینچ مربعی، با 850،000 هسته "بهینه سازی شده برای هوش مصنوعی" هستند.

یکی دیگر از عواملی که سرعت پیشرفت در بینایی رایانه را تعیین می کند، این واقعیت است که برچسب گذاری داده ها، به عنوان یک وظیفه برای انسان باقی می ماند. قبل از اینکه یک ماشین بتواند بفهمد چه اتفاقی روی یک تصویر تشخیصی یا در یک جریان ویدئویی می افتد، باید نمونه های دقیق انتخاب شده را که قبلاً توسط کارکنان انسانی برچسب گذاری شده است، مشاهده کند. برچسب گذاری داده ها یک صنعت به سرعت در حال رشد است، اما همچنان یک راز باقی می ماند، جایی که اغلب مشاغل کم مهارت و کم درآمد به اقتصادهای در حال توسعه آسیا واگذار می شوند.

کیفیت برچسب های داده نیز یک موضوع داغ باقی می ماند. برچسب های نادرست باعث ایجاد مدل های نادرست می شوند و حتی معیارهای مورد استفاده برای آزمایش مدل های هوش مصنوعی نیز متأسفانه عاری از خطا نیستند. یک مطالعه اخیر ده مورد از معروفترین معیارهای یادگیری ماشین را مورد تجزیه و تحلیل قرار داد و نشان داد که به طور متوسط 3.4 درصد از برچسبها نادرست هستند، از جمله مجموعه داده های تصویری.

به دست آوردن داده های تصویری و ویدئویی کار سختی نیست، به ویژه وقتی در نظر بگیرید که روزانه بیش از سه میلیارد تصویر بصورت آنلاین به اشتراک گذاشته می شود. اما پیشبرد بینایی رایانه ای مستلزم ارتش برچسب زنی داده ها است که قبل از مفید واقع شدن این اطلاعات را پردازش و برچسب گذاری کنند. به این ترتیب، برنامه های رایانه ای موجود و برنامه های تجزیه و تحلیل ویدئویی، نمایی هیجان انگیز از آنچه واقعاً با AI امکان پذیر است ارائه می دهند.

پیشرفت در سخت افزار، دسترسی به داده های دارای برچسب بیشتر و مدلهای یادگیری ماشینی بسیار بزرگتر، ناگزیر سیستم های بسیار هوشمندتری تولید خواهد کرد. اما برای رسیدن به آنجا، باید چالش آموزش حل شود و این بدان معناست که به چالش های زیرساخت و جزء انسانی آماده سازی داده ها پرداخته شود.

برای سفارش تبلیغات کلیک کنید...