2.2
تابع تلفات تعبیه. ما محدودیت های در بدست آوردن عملی مان را به روشی استاندارد با استفاده از تلفات hinge تبدیل می کنیم. تابع تلفات منتجه به صورت زیر است:
که در آن مجموع ها همه در طول سه گانه تعریف شده به صورت در محدودیت های (1-4) می باشند. حاشیه m می تواند برای انواع مختلف فاصله و یا حتی موارد مختلف، متفاوت باشد. اما برای اینکه آن برای بهینه سازی آسان باشد، ما m را برای تمام عبارات در تمام نمونه های آموزشی ثابت می کنیم (M = 0.1 در آزمایش ها). λ1 وزن نقاط قوت از هر دو عبارات رتبه بندی را متعادل می کند. در پژوهش دیگر با تلفات رتبه بندی دو جهته [22، 23، 25، 43]، این است که همیشه بر روی 1 تنظیم می شود، اما در مورد ما، ما متوجه شدیم که λ1 = 2 بهترین نتایج را تولید می کند. اوزان λ2، λ3 اهمیت عبارات ساختار حفظ را کنترل می کند، که به عنوان تنظیم کننده ها برای وظایف بازیابی دو طرفه عمل می کند. ما معمولا هر دو را بر روی مقادیر کوچک مانند 0.1 یا 0.2 تنظیم می کنیم(بخش 3 برای جزئیات بیشتر).
نمونه برداری سه گانه. تلفات ما شامل تمام سه گانه های متشکل از یک نمونه هدف، یک تطبیق مثبت و یک تطبیق منفی است. بهینه سازی در طول چنین سه گانه هایی از نظر محاسباتی نشدنی و غیر عملی است. بنابراین، ما سه گانه های در داخل هر دسته کوچک را نمونه برداری نموده و تابع تلفات مان را با استفاده از SGD بهینه سازی می کنیم. با الهام از [21، 40]، به جای انتخاب متخلف(متناقض) ترین تطبیق منفی در تمام فضای نمونه، ما بالای K متخلف ترین تطبیق در هر دسته کوچک را انتخاب می کنیم. این با محاسبه شباهت های دو به دو بین همه (XI، YJ)، (XI، XJ) و (yi, yj) در داخل هر دسته کوچک انجام می شود. برای هر جفت مثبت (یعنی یک جفت جمله -تصویر واقعی، دو عکس مجاور، یا دو جمله مجاور، بنابراین ما بالا ترین K دارای نقض از هر قید مربوطه را می یابیم (از K = 50 در اجرا استفاده می کنیم، اگر چه اکثر جفت ها در بسیاری از موارد، نقض های بسیار کمتر دارند). از بعد نظری تضمین چنین استراتژی نمونه برداری در مرجع [40] بحث شده است، هر چند نه در متن یادگیری عمیق. در آزمایش های مان، ما شاهد همگرایی در عرض 30 دوره به طور متوسط هستیم.
در بخش 3، ما عملکرد روش مان را هم با و هم بدون محدودیت حفظ ساختار نشان می دهیم. در بدست آوردن شبکه بدون این محدودیت ها، ما به طور تصادفی1500 جفت (XI، yi) را به شکل دسته های کوچک نمونه برداری می کنیم. برای آزمایش های با محدودیت های حفظ ساختار، به منظور رسیدن به یک مجموعه غیر تهی از محدودیت های سه گانه، ما به تعداد متوسطی از جفت های مثبت در هر دسته کوچک نیاز داریم (یعنی، در حداقل دو جمله که در تصویر یکسان تطبیق یافته اند). با این حال، نمونه گیری تصادفی از جفت ها نمی تواند این را تضمین کند. بنابراین، برای هر xiدر یک دسته کوچک مورد نظر، ما یک جمله مثبت تر که متمایز از آنهایی است که در حال حاضر ممکن است شامل جفت های نمونه برداری شده باشد، اضافه می کنیم، در نتیجه در دسته کوچک با اندازه متغیر است.
3. آزمایش ها
در این بخش، ما سهم های اجزای مختلف روش مان را تجزیه و تحلیل نموده و آن را در بازیابی تصویر به جمله و جمله به تصویر در پایگاه های داده ای محبوب Flickr30K [51] و MSCOCO [28] و بر روی محلی سازی عبارت در مجموعه داده هویت (نهاد) های جدید Flickr30K [37] ارزیابی می کنیم.