یادگیری عمیق تعبیه های حفظ (قسمت چهارم)

بدست آوردن عملی

بدست آوردن عملی ما تلفات مبتنی بر حاشیه تصادفی است که شامل محدودیت های رتبه بندی نمایش متقابل دو طرفه، همراه با محدودیت های حفظ ساختار دورن نمایشی است.
محدودیت های رتبه بندی دو طرفه. با توجه به تصویر بدست آمده XI، اجازه دهید Yi+ و Yi- دلالت بر تطبیق مجموعه های خود (مثبت) و جملات غیر تطبیق (منفی) داشته باشد. ما فاصله بین xi و هر جمله مثبت YJ که کمتر از فاصله بین xi و هر جمله منفی YKکه توسط برخی از حاشیه های m تحمیل می شود را می خواهیم :

به طور مشابه، با توجه به جمله ما داریم:

 

که در آن و به معنی مجموعه از تصاویر تطبیقی (مثبت) و تصاویر غیر تطبیق (منفی) برای است.

 

شکل 2. تصویر محدودیت های ساختار حفظ پیشنهاد ی را برای یادگیری تعبیه مشترک (به متن مراجعه کنید) است. مستطیل ها نشان دهنده تصاویر و حلقه ها نمایانگر جملات است. رنگ یکسان نشان دهنده تصاویر تطبیقی و محدودیت های حفظ ساختار جملات است.
اجازه دهید N (XI) به معنی همسایگیxi که حاوی تصاویری است که معنی یکسان را به اشتراک می گذارد. در مورد ما، این مجموعه ای از تصاویر توصیفی توسط جمله یکسان به صورت xi است. پس ما می خواهیم یک حاشیه m بین N (XI) و هر نقطه ای در خارج از همسایگی تحمیل کنیم:

 

شبیه به (3)، محدودیت ها را برای طرف جمله به صورت زیر تعریف می کنیم:

 

که در آن N yi′ شامل توصیف جملات از تصویر یکسان است. شکل 2 یک تصویر بصری از چگونگی حفظ ساختار درون نمایشی ارائه می دهد که می تواند به تطبیق نمایش متقابل کمک کند. فضای تعبیه در سمت چپ ویژگی تطبیق نمایش متقابل را برآورده می کند. هر مربع (به نمایندگی از یک تصویر) به تمام دایره های با رنگ یکسان (به نمایندگی از جملات مربوط به آن) نسبت به هر دایره ای از رنگ های دیگر نزدیک تر است. به طور مشابه، برای هر دایره (جمله) نزدیکترین مربع (تصویر) دارای رنگ یکسان است. با این حال، برای پرس و جو از تصویر جدید (مربع سفید)، فضای تعبیه( جاسازی) یک نتیجه تطبیق مبهم از هر دو دایره ی قرمز و آبی ارائه می دهد که بسیار نزدیک به آن هستند. این مشکل در تعبیه در سمت راست کاهش می یابد، که در آن محدودیت های ساختار درون نمایشی اضافه می شوند، که جملات از لحاظ معنایی مشابه (دایره همان رنگ) را به یکدیگر نزدیک می کند.
توجه داشته باشید که دو مجموعه داده تصویر جمله ما، Flickr30K و MSCOCO، شامل تصاویر زوج با هر پنج جمله است. مجاورت از هر تصویر، N (XI)، به طور کلی فقط شامل خود xi است، از آنجا که آن برای دو عکس مختلف که توسط یک جمله یکسان توصیف می شود؛ نادر است. بنابراین، محدودیت های مشاهده تصویر (معادله 3) بی اهمیت هستند، در حالی مجاورت هر جمله N(yi)′ دارای پنج عضو است. با این حال، برای مجموعه داده عبارت ناحیه از بخش 3.3، بسیاری از عبارات نمونه های ناحیه ای متعدد دارند، بنابراین ما یک مجموعه غیر بدیهی از محدودیت ها برای مشاهده تصویر داریم.

نظرات شما