یادگیری عمیق تعبیه های حفظ (قسمت سوم)

از نظر ساختار، روش ما شبیه به مدل های CCA عمیق دو شاخه است، هر چند که آن از مشکلات عمیق آموزش- زمان CCA مرتبط با تخمین ماتریس کوواریانس، اجتناب می کند. شبکه ما همچنین دستاورد هایی از لحاظ دقت با انجام ویژگی نرمالیزه کرن (L2 و نرمالیزه کرن دسته ای) قبل از تعبیه تلفات لایه؛ خواهد داشت. در نهایت، پژوهش ما مربوط به یادگیری شباهت عمیق است [4، 6، 7، 16، 18، 39، 47]، هر چند ما در حال حل یک مشاهده(نمایش) متقابل، نه یک درون نمایشی، هستیم که مساله را تطبیق می دهد. شبکه های سیامی برای یادگیری شباهت (به عنوان مثال، [39]) می توانند به عنوان موارد خاص از چارچوب ما در نظر گرفته شوند که در آن دو دیدگاه از روش یکسان ناشی شده و دو شاخه، اوزان را به اشتراک می گذارد. روش پیشنهادی ما به طور قابل ملاحظه ای، بازیابی تصویر به جمله و جمله به تصویر را در مجموعه های داده] Flickr30K [51 و MSCOCO [28] بهبود می بخشد. ما نیز قادر به دست آوردن پیشرفت های قانع کننده ای در طول CCA به جهت محلی سازی عبارت برای هویت های مجموعه های داده Flickr30K هستیم [37].

2. تعبیه (کد های جاسازی) عمیق حفظ ساختار

اجازه دهید X و Y مجموعه ای از تصاویر آموزشی و جملات باشند، هر کد گذاری شده مطابق با ویژگی نمایش بردار خود است. ما می خواهیم بردار های جمله و تصویر را (که ممکن است در ابتدا ابعاد مختلف داشته باشند)در یک فضای مشترک از ابعاد رایج نگاشت و ترسیم کنیم. ما از ضرب داخلی در فضای تعبیه برای اندازه گیری شباهت استفاده می کنیم، که آن با معادل با فاصله اقلیدسی است از آنجا که خروجی های از دو تعبیه، نرمالیزه L2 هستند. در ادامه، (X، Y)d اشاره به فاصله اقلیدسی بین بردار های تصویر و جمله در فضای تعبیه شده، دارد.

2.1. ساختار شبکه

ما یادگیری یک تعبیه غیر خطی را در چارچوب عمیق از شبکه های عصبی پیشنهاد می کنیم. همانطور که در شکل 1 نشان داده شده است، مدل عمیق ما دارای دو شاخه است، که هر یک متشکل از لایه های به طور کامل متصل با ماتریس های وزنی Wl و VL است. لایه های متوالی توسط غیر خطی تصحیح واحد خطی (ReLU) جدا شده است. ما نرمالیزه دسته ای [20] را درست بعد از آخرین لایه خطی، اعمال می کنیم. و در پایان هر شاخه، ما نرمالیزه L2 را اضافه می کنیم. به طور کلی، هر شاخه می تواند دارای یک شماره ی مختلف از لایه ها باشد، و اگر ورودی های دو شاخه X و Y توسط شبکه های خود تولید شده باشند، آن گاه پارامترهای شبکه های آنها را می توان (یا ریز کوک) همراه با پارامترهای تعبیه لایه ها بدست آورد. با این حال، در این مقاله، ما نتایج بسیار رضایت بخشی را با استفاده از دو تعبیه لایه در هر شاخه که در بالای تصویر از پیش محاسبه شده و ویژگی های متن است، به دست آوردیم (بخش 3.1 را برای جزئیات بیشتر ببینید).

نظرات شما