پلامر و همکاران [37] نتایج پایه را برای تعبیه عبارت ناحیه با استفاده از CCA در بالای ویژگی های VGG از تصویر شبکه آموزش دیده، گزارش داده اند. در ادامه Rohrbach و همکاران [38]، که در محلی سازی عبارت با استفاده از ویژگی های VGG مبتنی بر تشخیص، پیشرفت های بزرگ به دست آورده اند، ما نیز از ویژگی های سریع R-CNN [13] در تنظیم دقیق در یک اتصال از مجموعه های train-val 2012 و PASCAL 2007 استفاده می کنیم. سازگار با [37]، ما برش های متعدد را برای ویژگی های ناحیه متوسط نمی گیریم. برای متن، در این بخش ما تنها از ویژگی های FV استفاده می کنیم. بنابراین مانند قبل ، بعد ورودی X ، 4096و بعد ورودی Y، 6000 است(کاهش یافته توسط PCA از 18000-D FV اصلی). ما از ساختار شبکه دو لایه با [8192، 4096] به عنوان ابعاد لایه میانی در هر دو طرف X و Y استفاده می کنیم(توجه داشته باشید که در طرف X، لایه میانی در واقع دو برابر بعد ویژگی است). برای اولین آزمایش مان، ما تعبیه مان را بدون استخراج منفی، با استفاده از جفت های یکسان ناحیه- عبارت مثبت به صورتCCA.بدست می آوریم. برای این کار، ما از مجموعه آموزشی یکسان استفاده می کنیم [37]، که با حداکثر ده ناحیه در هر عبارت نمونه برداری مجدد شده است، برای یک مجموع از 137133 جفت ناحیه- عبارت، 70759 که منحصر بفرد هستند. همانطور که در بخش قبلی بیان شد، ما از اندازه دسته کوچک اولیه 1500 استفاده می کنیم. اما در حال حاضر، نسخه کامل هدف ما (معادله 5)، ما دسته کوچک را به روش نمونه گیری اضافه می کنیم که نه تنها عبارات مثبت اضافی برای نواحی ، بلکه همچنین نواحی مثبت اضافی برای عبارات است، مطمئن شوید که ما سه گانه های زیادی را تا حد ممکن برای محدودیت های حفظ ساختار در سمت ناحیه (معادله 3) و سمت عبارت داریم(معادله 4). نتایج حاصل از آموزش مدل ما بدون استخراج منفی برای 28 دوره در بخش بالای جدول 3. نشان داده شده است. ما از پروتکل ارزیابی پیشنهاد شده توسط [37] استفاده می کنیم. در ابتدا ، ما با محلی سازی عبارت به عنوان مساله موارد بازیابی از یک عبارت پرس و جو از مجموعه ای از طرح های پیشنهادی ناحیه استخراج تصاویر آزمون رفتار می کنیم، و Recall@K ، یا درصد پرس و جو هایی که یک تطبیق درست در اکثر K تطبیق درست رتبه بندی می کند را گزارش می دهد (یک پیشنهاد ناحیه یک تطبیق صحیح در نظر گرفته می شود اگر آن IOU در حداقل 0.5 با جعبه محدوده واقعی برای آن عبارت داشته باشد). دوم، ما دقت متوسطی (AP) از رتبه بندی جعبه محدوده را برای هر عبارت در تصاویر آزمون که شامل آن عبارت است را گزارش می دهیم. ستون آخر جدول 3، mAP را در طول همه عبارات منحصر به فرد در مجموعه آزمون نشان می دهد، که با هر عبارت منحصر به فرد به عنوان برچسب طبقاتی خود رفتار می شود.
جدول 3. نتایج محلی سازی عبارت در هویت های Flickr30K با استفاده از ویژگی های سریع RCNN. ما از 100 طرح EdgeBox پیشنهادی، که فراخوان حد بالای R @ 100 = 76.91 است، استفاده می کنیم.
جدول 3 (a-d) نشان می دهد که عملکرد رتبه بندی هدف دو جهته ما با ترکیبات مختلف از ساختار اصطلاحات است. ما می بینیم که شامل نمودن شرایط ساختار به طور کلی نتایج بهتری نسبت به استثنای آنها می دهد، هر چند اثرات تبدیل در هر جمله به طور جداگانه بیش از حد متفاوت نیست. در بخش بزرگ، دلیل این است که تعدادی از محدودیت های حفظ ساختار سه گانه برای هر مشاهده را محدود نموده است.