هدف و مشخصات :
پيشينه:
طی سالهای گذشته، به لطف رویکردهای یادگیری عمیق کاربردهای عملی مانند وسیله نقلیه خودکار، ردیابی اشیا، تشخیص اشیا، درک صحنه، و پیشبینی مسیر حرکت منجرب شده است. بااینوجود روشهای یادگیری عمیق به مقدار زیادی داده آموزش با مرجع حقیقی نیاز دارند. مقدار و تنوع دادههای آموزشی بهشدت بر عملکرد شبکههای عصبی کانولوشن (CNN) تأثیر میگذارد. در حوزه رانندگی خودکار و سامانههای حملونقل هوشمند، بومیسازی سامانه های تشخیص و رهگیری وسایل نقلیه در حال حرکت و افراد درصحنههای خیابان بسیار مهم است. برای دستیابی به این هدف، تهیه جعبههای محدودکننده مرجع حقیقی برای آموزش و ارزیابی عملکرد CNN ضروری است. بهویژه، کارهای مربوط به ویدئو، به تعداد زیادی برچسبزنی اشیا، یعنی جعبههای محدودکننده مرجع حقیقی از اشیا نیاز دارند.
در سال های اخیر، برچسبزنی خودکار و نیمه خودکار توجه روزافزونی را به خود جلب کرده است زیرا افزایش مقدار داده مانع توانایی برچسبزنی دستی آن می شود. در[1]، نویسندگان یک رابط برچسبزنی سه بعدی ارائه می دهند که ترکیبی از نظارت انسان با شبکه های عصبی آموزش دیده برای تولید تقسیم ابر نقطه سه بعدی، جعبه های محدود کننده سه بعدی و برچسبزنی کلاس است. در [2]، نویسندگان یک روش مبتنی بر نظارت بر خود را برای بازسازی شکل سه بعدی و برآورد حالت اشیا صلب با کمک مولفه های قوی شکل و ماسک های دو بعدی ارائه نمودند. روشهای مبتنی بر ایده Pseudo-LiDAR [3], [4], با بهره گیری از باز افکنش عمق یک دوربین از مدل های آماده و اجرای شبکه های تشخیصی که در اصل برای ورودی LiDAR طراحی شده اند با بهبود دقت چشمگیر روبرو شدند. همه رویکردهای ذکر شده از ماژول های عمق یک دوربینه استفاده نمی کنند، اما تجزیه و تحلیل آنها نشان می دهد که عملکرد کلی آنها به شدت تحت تأثیر دقت برآورد عمق است. Lukas Koestler و همکاران در [5] یک شبکه را برای یادگیری تشخیص شی سه بعدی بدون برچسب جعبه محدود کننده سه بعدی پیشنهاد دادند. آنها با نمایش اشیا به عنوان مش های مثلثی و به کارگیری تفاوت رندر شکل، توابع ضرر را بر اساس نقشه های عمق، ماسک تقسیم بندی و حرکت دوربین و حرکت جسم تعریف کردند که توسط شبکه های از پیش آموزش دیده تولید می شوند.
استفاده از روشهای دنبال سازی در تصاویر ویدئویی میتواند اطلاعات بیشتری را برای برچسبزنی سهبعدی در اختیار ما قرار دهد. هدف این گروه از روش ها دنبال سازی اشیا، استنتاج موقعیت، جهت و بعد دقیق سه بعدی آنها از یک جریان ویدئویی منفرد و یک حسگر GPS است. Hou-Ning Hu و همکاران [6]، یک شبکه با استفاده از برآورد, وضعیت سه بعدی و اطلاعات دنبال سازی دو بعدی برای تشخیص مشترک و دنبال سازی وسایل نقلیه با استفاده از فریم های ویدئویی یک دوربینه طراحی کرده اند. آنها از تطبیق ترتیب عمق جعبه سه بعدی برای ارتباط نمونه ها استفاده و از پیش بینی مسیر سه بعدی برای شناسایی مجدد وسایل نقلیه مسدود شده استفاده کردند. همچنین یک ماژول یادگیری حرکت را بر اساس LSTM برای برون یابی با دقت بیشتر حرکت طولانی مدت طراحی نمودند. در [7] برای دنبال سازی چند شی به جاي استخراج و استفاده از ويژگي هاي دو بعدي و سه بعدي به صورت مجزا، از ترکيب اين ويژگي های دو بعدی و سه بعدی برای استخراج ویژگی های متمایز کننده در قالب يک شبکه گرافي عصبي استفاده کردند.
طرح مسئله:
برچسبزنی بهصورت دستی کاری زمانبر است. این حالت وقتیکه اندازه هدف کم است، یا هدف درصحنههای شلوغ تا حدی مسدود شده است (که معمولاً درصحنههای خیابان اتفاق میافتد) خستهکننده، زمان بر و پرهزینه میشود. درواقع، ترسیم جعبههای مرغوب و باکیفیت بسیار وقتگیر است و برای نمونه با استفاده از پلت فرم (AMT) برای هر شیء حدود 50-80 ثانیه زمان نیاز است[8]. ازاینرو، برای ایجاد چارچوبهای برچسبزنی مؤثر برای ایجاد جعبههای محدودکننده برای مرجع حقیقی برای مجموعه دادههای ویدیویی در مقیاس بزرگ، ضروری است.
مکانیابی اشیا بهصورت سهبعدی در رانندگی خودکار و برنامههای ایمنی راننده از اهمیت فوقالعادهای برخوردار است. رویکردهای سنتی و معاصر عمدتاً به حسگرهای بُرد مانند LiDARs و رادار یا دوربین استریو برای پیشبینی موقعیت (6DoF) و ابعاد اشیا موردعلاقه متکی هستند. برخی از این رویکردها بهطور آشکار در شرایط مختلف قوی هستند و باوجود انسداد زیاد، برش و غیره جعبههای تشخیص سهبعدی باکیفیت بالایی را تولید میکنند. این روشها از دادههای سهبعدی بهرهمند هستند، این اطلاعات در LiDAR بهعنوان ابرهای نقطه، در رادار از اندازهگیری دامنه، دوربینهای استریو از نقشههای عمق و یا ترکیبی از آنها بهدستآمده است. بااینحال، مزایای حسگرهای سهبعدی تقریباً همیشه با نکات منفی خاصی همراه است. این حسگرها معمولاً نسبت به دوربینها دارای قیمتهای بالایی هستند و همچنین حجیم و پرمصرف میباشند. بنابراین در صورت دستیابی به شرایط مناسب، میتوان با دوربینهای تکچشمی تشخیص شی سهبعدی را انجام داد. یک آشکارساز سهبعدی قوی همچنین میتواند عملکرد ردیابی صرفاً مبتنی بر دوربین، پیشبینی و سایر سامانههای ایمنی راننده را بهطورکلی بهبود بخشد. بااینحال این موضوع چالشهای بسیاری را به وجود میآورد و بیشتر آنها از این واقعیت ناشی میشود که پیشبینی ویژگیهای سهبعدی از اندازهگیریهای دوبعدی یک مسئله ذاتاً مشکل است.
هدف از این تحقیق ارائه یک چهارچوب جهت برچسبزنی جعبه محدودکننده سهبعدی خودرو با استفاده از ردگيري برونخط در ویدئو خواهد بود. اهداف شامل موارد زیر میباشد:
1- یافتن جعبه محدودکننده دوبعدی.
2- یافتن جعبه محدودکننده سهبعدی با استفاده از جعبه محدودکننده دوبعدی و ویژگیهای استخراجشده از آن و مشخصات هندسی صحنه و خودرو جهت تخمین عمق.
3- استفاده از اطلاعات توالی زمانی (فریمهای ویدئو) جهت تخمین دقیق در مراحل بعد.
4- نظارت بر عملکرد چهارچوب ارائهشده توسط انسان جهت بررسی صحت اطلاعات.
5- ارائه مجموعه داده برچسبزنی شده جهت استفاده برای موارد موردنیاز در کارهای بعدی.
روش کار به این صورت خواهد بود که مانند [5] ابتدا با روش های آماده، جعبه محدود کننده دو بعدی خودرو تشخیص داده می شود سپس با استفاده از استخراج ویژگی های تصویر محدود شده سعی در دنبال سازی این ویژگی ها در طول فریم های ویدئو میکنیم سپس با تخمین های هندسی مکان و جهت خودرو با توجه به دنبال سازی فیچر ها جعبه محدود کننده تخمین زده میشود.
ویژگی¬های اصلی این پایاننامه که آن را از سایر پروژهها متمایز میسازد.
1- بومیسازی مجموعه داده جهت استفاده در تحقیقات داخلی
2- استفاده از دوربین تکچشمی جهت تخمینهای موردنیاز
3- استفاده از داده های ویدئو برای ساخت مجموعه داده ها
4- استفاده از دنبال سازی برون خط برای تسهیل برچسب زدني سه بعدی خودرو
دستاوردهای نهایی:
1- ایجاد یک چهارچوب جهت تسهیل و خودکار نمودن برچسبزنی جعبه محدودکننده سهبعدی خودرو 2- انجام برچسب زنی تنها با استفاده از داده های ویدئو و بدون استفاده از حسگرهای بُرد مانند LiDARs و رادار یا دوربین استریو 3- ایجاد مجموعه داده جعبه محدود کننده سه بعدی با استفاده از چهارچوب از تصاویر ویدئویی.
[1] J. Lee, S. Walsh, A. Harakeh, and S. L. Waslander, “Leveraging pre-trained 3d object detection models for fast ground truth generation,” in 2018 21st International Conference on Intelligent Transportation Systems (ITSC), 2018, pp. 2504–2510.
[2] D. Beker et al., “Monocular Differentiable Rendering for Self-Supervised 3D Object Detection,” arXiv Prepr. arXiv2009.14524, 2020.
[3] X. Ma, Z. Wang, H. Li, P. Zhang, W. Ouyang, and X. Fan, “Accurate monocular 3d object detection via color-embedded 3d reconstruction for autonomous driving,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019, pp. 6851–6860.
[4] Y. Wang, W.-L. Chao, D. Garg, B. Hariharan, M. Campbell, and K. Q. Weinberger, “Pseudo-lidar from visual depth estimation: Bridging the gap in 3d object detection for autonomous driving,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 8445–8453.
[5] L. Koestler, N. Yang, R. Wang, and D. Cremers, “Learning Monocular 3D Vehicle Detection without 3D Bounding Box Labels,” arXiv Prepr. arXiv2010.03506, 2020.
[6] H.-N. Hu et al., “Joint monocular 3D vehicle detection and tracking,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019, pp. 5390–5399.
[7] X. Weng, Y. Wang, Y. Man, and K. M. Kitani, “Gnn3dmot: Graph neural network for 3d multi-object tracking with 2d-3d multi-feature learning,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 6499–6508.
[8] H. Su, J. Deng, and L. Fei-Fei, “Crowdsourcing annotations for visual object detection,” 2012.