voxel-based spatial pruning实现细节

您好，感谢公开 StreamVLN 代码。我在复现论文时有一个实现细节上的疑惑，想请教您确认：

论文中提到使用 voxel-based spatial pruning（基于 depth 将 2D patch 回投到共享 3D 空间，按时间分桶后在同体素内保留最新 token，并生成 pruning mask (M)）。但我在当前开源代码中暂时没有定位到对应实现，看到的主要是：

固定历史采样（num_history + 历史帧抽样）
2D 特征池化（get_2dPool，average/max/bilinear）
memory token 注入（<memory> 对应 memory_features）
另外，虽然接口中传入了 depths / poses / intrinsics，但在当前 encode_rgbd(...) 里似乎没有看到这些变量参与 back-projection / voxel discretization / pruning mask 计算。

因此我想确认以下问题：

论文中的 3D voxel pruning 是否未包含在当前公开版本中？
如果已包含，是否在其他分支、私有模块或未开源脚本中？
当前仓库主分支是否等价于论文最终实验配置，还是采用了简化实现（固定历史采样 + 2D pooling）？
如果方便的话，能否提供：

voxel pruning 对应的代码位置/commit，或
一个最小可复现配置（包含关键参数 K、阈值 (\theta)、mask 生成位置）？
非常感谢！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

voxel-based spatial pruning实现细节 #87

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

voxel-based spatial pruning实现细节 #87

Description

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions