在image caption 这个任务中,论文“Show, Attend and Tell: Neural Image Caption Generation with Visual Attention” 中是对VGG-19的conv5_3的feature map(14*14*512)进行spatial attention。 具体来说是对196=14*14个 512维的向量进行attention。相比之下,论文“Image Captioning with Semantic Attention” 中是对图像中显示检测出的语义概念(单词)进行attention,性能有提升。 那么不禁让人产生推测,如果Visual attention 中借助 Faster RCNN中的Region Proposal Network 对conv5_3的feature map进行更加精细的语义概念(单词)区域划分,是不是可以结合Visual attention 和 Semantic attention 的优势,而不用像论文“Image Captioning with Semantic Attention”中那样需要额外的Atrribute 的显示检测???(不过只能检测名词,无法检测动词等)
再读Faster RCNN
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...