یادگیری عمیق تعبیه های حفظ (قسمت نهم)

در مجموعه آموزشی هویت های Flickr30K، برای همه جفت های 130k، حدود 70Kعبارات منحصر به فرد و 80k مناطق شرح داده شده توسط یک عبارت واحد وجود دارد. این به این معنی است که، برای بسیاری از عبارات / مناطق، بیش از دو منطقه / عبارت مربوطه وجود ندارد.خط بالای جدول 3 نتایج پایه CCA را می دهد. برای مدل از قبل آموزش دیده، بدون استفاده از استخراج منفی، تعبیه عمیق ما نتایج قابل مقایسه ای با CCA در Recall @ 5 و Recall@10 دارد، اما نتایج در Recall@1 کمتر است. همانطور که قبلا ذکر شد، در تجربه گذشته مان در یافتیم که CCA به طور شگفت انگیزی در تداخل با روش های پیچیده تر، مشکل است [15، 37]. به منظور بهبود بیشتر دقت تعبیه، ما باید آن را با استفاده از داده های منفی از پس زمینه و نواحی ضعیف محلی سازی شده، اصلاح کنیم. برای انجام این کار، ما تعبیه را بدون استخراج منفی آموزش دیده، و برای هر عبارت منحصر به فرد در مجموعه آموزشی، لحاظ نموده، فاصله بین این عبارت و جعبه های واقعی و همچنین تمام جعبه پیشنهادی مان را محاسبه می کنیم. سپس ما آن جعبه های "سخت منفی" را که نسبت به جعبه های واقعی به عبارت نزدیک تر است را ثبت می کنیم. برای بهره وری، ما تنها از اکثر 50 ناحیه منفی سخت برای هر عبارت منحصر به فرد نمونه گیری می کنیم. سپس، ما آموزش را در مدل ناحیه- عبارت مان در مجموعه آموزشی افزوده با این جعبه های سخت منفی ادامه می دهیم، که تنها با استفاده از محدودیت های رتبه بندی دو جهته است(معادلات 1 و 2). ما محدودیت های حفظ ساختار را حذف نموده زیرا آنها در حال حاضر حتی بیشتر به شدت توسط محدودیت های رتبه بندی دو طرفه تعدادشان کمتر شده است.
چهار خط آخر جدول 3 نتایج تنظیم دقیق مدل ها را از جدول شماره 3 (a-d)) با نمونه های منفی سخت نشان می دهد. در مقایسه با بهترین مدل آموزش دیده با مناطق مثبت، Recall@1 و mAP مان، تقریبا 6٪ بهبود یافته است، و در حال حاضر، بطور قابل توجهی بهتر از CCA است. توجه داشته باشید که در شرایط مطلق، در Rohrbach و همکاران [38] به نتایج عالی، با R @ 1 در بیش از 47٪ دست یافته اند، اما آنها از روش خیلی پیچیده تر استفاده می کنند که شامل LSTM ها با هدف بازسازی عبارت است.
در نهایت، شکل 3 نمونه هایی از محلی سازی عبارت را در چهار تصویر نشان می دهد که در آن مدل ما CCA پایه را بهبود می دهد.

4. نتیجه گیری

 
در این مقاله یک روش تعبیه تصویر- متن پیشنهاد شده است که در آن یک شبکه دو شاخه با لایه های چند گانه است که با استفاده از یک تابع هدف مبتنی بر حاشیه متشکل از اصطلاحات رتبه بندی دو جهته و اصطلاحات حفظ -ساختار است که از یادگیری متریک الهام گرفته شده است، حاصل شده است. ساختار ما ساده و انعطاف پذیر است و می تواند در انواع مختلف از ویژگی های بصری و متنی استفاده می شود. آزمایش های گسترده نشان می دهد که اجزای سیستم ما به خوبی انتخاب شده و همه شرایط در تابع هدف ما تراز و تنظیم شده است. در بهترین دانش ما، نتایج بازیابی ما در Flickr30K و مجموعه داده MSCOCO، بطور قابل توجهی بیش از قبل است و ما نیز بهبود قانع کننده ای در بیش از CCA در مساله جدید از محلی سازی عبارت بر مجموعه داده هویت های Flickr30K نشان می دهیم.

نظرات شما