第一步，VQA LLM 先看图 I 和问题 T，尝试回答。
- 如果能回答，就直接结束；
- 如果回答不了，它就列出缺失的关键信息（比如：需要找到“红色杯子”、“猫的眼睛”这些小目标）。
第二步，初始化 VWM，把原图 I 和问题 T 加进去。
第三步，针对每一个缺失的目标：
- 用 Visual Search Model 去整个图片里搜目标（用一个优先队列 q 来管理搜索过程）；
- 如果找到了，就把对应的小图裁剪出来，加到 VWM；
- 如果找不到，就在 VWM 中记录“没找到”。
最后，基于丰富了的 VWM 信息，VQA LLM 再重新生成最终回答。

负样本数据（100k）

让模型学会识别：“我回答不了问题，因为图里没有这个目标”。模型要能明确地说出：“我需要 A 和 B 才能回答。”

图像中真的没有相关目标；或者目标太小（< 20x20像素），CLIP提不出来特征；

构造方式：

VQA数据（167k）

让模型在已有目标的基础上回答问题。

GQA 数据（70k）：使用 GT 标注的目标物，作为 VWM 的目标输入；用 GPT-3.5 把简短回答扩展成完整句子。
Object Attribute 数据（51k）：用 VAW 数据集（关于物体颜色、材质等）；把描述性信息变成问答格式，提取出相关物体作为目标。
Spatial Relationship 数据（46k）：在 COCO2017 上构造两个物体之间的空间关系问题（如“A在B的左边吗？”）；这两个物体就是搜索目标。

LLaVA 指令微调数据（120k）

维持模型的通用指令能力：

视觉搜索 Visual Search 跟指代理解（REC）很像：都是给一句文本描述，在图里找对应的目标。但视觉搜索要更灵活：

总体设计理念：

组件：

MLLM（多模态语言模型）：
- 输入图片和搜索指令：“Please locate the [object] in the image.”
- 输出一个特殊token <LOC>，包含位置相关的上下文特征；
- 基于 <LOC> 嵌入，拿到两个向量：
  - vtl → 给目标定位
  - vcl → 给搜索提示
Image Encoder + 两个Decoder：
- Dtl（Target Localization Decoder）：类似两个MLP head，预测坐标和置信度。
- Dcl（Search Cue Localization Decoder）：类似 SAM 的掩码分割头，输出热力图，指示可能的目标区域。

V* 搜索过程大致是：

直接定位：
- 用“Please locate [object]”指令
- 如果目标坐标置信度高 → 成功找到
检查热力图：
- 如果目标置信度低，看 Search Cue 热力图
- 如果热力图中有显著区域（最大值超过阈值 δ）→ 用来引导下一步搜索
使用上下文推断（contextual cue）：如果热力图也不明显
- 询问 MLLM：“目标最可能出现在图中的哪个区域？”
- 再基于上下文区域生成新的 Search Cue Heatmap
递归图像分割搜索：
- 把图像递归地按四块划分（根据图像长宽比例调整，保持patch接近正方形）；
- 基于热力图的优先级，按分数高的子图优先搜索；
- 直到找到目标或patch小到不能再切

搜索过程 example：一行代表一个过程，右边就是热力图和最后的 bbox

主要包括两个模型：

使用基础模型：Vicuna-7B-1.3

训练分两阶段：

特征对齐阶段：冻结 vision encoder 和 LLM，仅训练两个投影模块（linear projection / resampler），图像-文本对用的是 LLaVA 用的 558K LAIONCC-SBU 子集。
指令微调阶段：冻结 vision encoder，训练 Vicuna 和 projection 模块，使用构建的 387K 任务数据

推理输入格式（最终喂给 LLM）：

<Image> 
Additional visual information:
{Object name 1} <Object> at [x1, y1, x2, y2];
{Object name 2} <Object> at [x1, y1, x2, y2];
...
Question

模型结构：

MLLM：LLaVA-7B-v1.1
Vision encoder：OWL-ViT-B-16
包含两个模块：
- Dcl：Dense cue localization module → 输出热图
  - 用 BCE loss + Dice loss 训练
- Dtl：Discrete target localization module → 输出具体目标 box
  - 类似 DETR，用 set prediction loss + focal loss

训练设置：

总步数 100K，batch size 64，lr=1e-4
数据采样比例：General detection/segmentation:Referring:VQA = 15:8:15
参数冻结与可训练策略：
- 冻结：image encoder（视觉骨干）、Dtl 中的坐标 MLP
- 可训练：MLLM（用 LoRA）、word embedding、Dcl、score MLP