来源:机器之心 本周的重要论文包括:CVPR 各种获奖论文2022年。
Learning to Solve Hard Minimal Problems
Dual-Shutter Optical Vibration Sensing
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation
Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields
Self-supervised Transparent Liquid Segmentation for Robotic Pouring
Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization
Evolution through Large Models
ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
作者:Petr Hruby等
论文链接:https://arxiv.org/abs/2112.03424
摘要:本研究提出了一种 RANSAC 解决框架中困难的几何优化问题的方法。最小化问题源于将原始几何优化问题放松为最小化问题,解决了许多虚假解决方案。本研究提出的方法避免了计算大量虚假解决方案。
研究人员设计了选择初始问题的学习策略 - 解决方案是继续用数值方法解决原始问题。通过创建一个研究 RANSAC 求解器通过使用每个视图来演示提到的方法 4 最小松弛点计算 3 校准相机的相对位置。平均而言,这种方法可以是 70 μs、在内部解决原始问题。此外,本研究还对校准相机的相对位置进行了基准测试和研究。
内部 RANSAC 循环为数据样本 p 找到最好的解决方案。
(a) 映射到问题空间 P 解决流形问题 M;(b) 数值 HC 方法。
分类器评估。
推荐:CVPR 2022 最佳论文。
作者:Mark Sheinin 等
论文链接:https://openaccess.thecvf.com/content/CVPR2022/papers/Sheinin_Dual-Shutter_Optical_Vibration_Sensing_CVPR_2022_paper.pdf
摘要:视觉振动测量是一种非常有用的工具,可用于远程捕捉音频、材料物理属性、人体心率等。虽然视觉上可观察的振动可以通过高速相机直接捕捉,通过将激光束照射振动表面所产生的散斑图案的位移成像,可以从光学上放大微小且不易察觉的物体振动。
在本文中,研究人员提出了高速(高达) 63 kHz)同时检测多个场景源振动的新方法,额定工作频率仅为 130Hz 的传感器。他们的方法使用两个配备滚动和全球快门传感器的相机同时捕捉场景,其中滚动快门相机捕捉到编码高速物体振动的失真点图像,全球快门相机捕捉点图案的未失真参考图像,有助于解码源振动。最后,研究人员通过捕捉音频源(如扬声器、人声和乐器)引起的振动,分析音叉的振动模式,展示了它们的方法。
研究人员使用新颖的方法「看到」(seeing)声音。
(a) 散焦散斑成像;(b) 双快门成像系统示意图。
双快门相机定时。
推荐:CVPR 2022 最佳论文提名。
作者:Hansheng Chen 等
论文链接:
https://arxiv.org/pdf/2203.13254.pdf
摘要:使用透视点(PnP)基数从单个 RGB 图像中定位 3D 物体是计算机视觉领域的一个长期问题。近期的研究建议将受到端到端深度学习的推动 PnP 这样解释为可微分层 2D-3D 点对应可部分通过反向传输梯度 w.r.t. 学习物体姿势。然而,从零开始学习整套不受限制的学习 2D-3D 点在现有的方法下很难收敛,因为确定性的姿态本质上是不可微的。
本文提出了一种概率,用于估计一般端到端姿态 PnP 层 ——EPro-PnP(end-to-end probabilistic PnP),它在 SE 输出姿态在流形上的分布实质上是分类的 Softmax 带入连续域。2D-3D 通过最小化预测姿态与目标姿态分布之间的分布,坐标和相应的权值作为中间变量 KL 学习散度。其基本原理统一了现有的方法,类似于注意机制。EPro-PnP 基于其他基准的性能明显优于其他基准 PnP 方法和基础 LineMOD 6DoF 估计姿势 nuScenes 3D 具体任务方法与目标检测基准的差距。
EPro-PnP 方法概览。
学习离散分类器 vs 学习连续姿态分布。
算法 1:基于 AMIS 蒙特卡洛姿态损失。
推荐:CVPR 2022 最佳学生论文。
作者:Dor Verbin 等
论文链接:
https://arxiv.org/pdf/2112.03907.pdf
摘要:神经辐射场是一种流行的视图合成技术。它将场景表示为多层传感器参数化的连续体积函数。多层传感器为每个位置提供体积密度和与视图相关的虽然 NeRF 该方法擅长表示光滑变化的几何结构,但它们通常不能准确地捕捉和再现光泽表面的外观。
本研究提出 Ref-NeRF 为了解决这个问题,它将 NeRF 与视图相关的散发辐射参数被反射辐射的表征所取代,并利用空间变化场景属性的集合来构建函数。该研究表明,新模型显著提高了镜面反射的真实性和准确性。此外,该研究还表明,该模型可以解释辐射的内部特征,这对场景编辑非常有用。
与以往表现最好的神经视图合成模型 mip-NeRF 相比,Ref-NeRF 显着提升了法向量(最上行)和视觉真实性(余下行)。
mip-NeRF(上)和 Ref-NeRF(下)架构图比较。
Ref-NeRF 渲染出准确明亮的表面,覆盖精细的几何细节。
推荐:CVPR 2022 最佳学生论文提名。
作者:Gautham Narasimhan 等
论文链接:
https://arxiv.org/pdf/2203.01538.pdf
摘要:近期,在 CMU 和圣母大学的一篇论文中,研究者提出了一种在透明容器中感知透明液体(水)的方法。与以往方法相比,本研究提出的方法减轻了对操作域的限制。具体地,他们在单个图像上进行操作,不需要液体运动或多帧,也不需要在训练期间进行手动注释或加热液体。研究者使用一个生成模型来学习将有色液体的图像转换为透明液体的合成图像,这种做法可以用来训练透明的液体细分模型。
论文一作 Gautham Narasimhan 现为 CMU 机器人研究所的助理研究员,2020 年在 CMU 拿到了硕士学位。目前,他致力于研究用于机器人倒水任务的强化学习模型。该研究由 LG Electronics 和美国国家科学基金会提供资助,并于 5 月份发表在 IEEE 国际机器人和自动化会议上。该论文已被机器人领域国际顶会 ICRA 2022 接收。
有色液体图像转换成透明液体图像的详细流程图。
透明液体细分流程图。
推荐:将有色液体图像转换成透明液体,CMU 教机器人准确掌控向杯中倒多少水。
作者:Ruipeng Jia 等
论文链接:
https://aclanthology.org/2022.acl-long.42.pdf
摘要:抽取式文本摘要目前在英文上已经取得了很好的性能,这主要得益于大规模预训练语言模型和丰富的标注语料。但是对于其他小语种语言,目前很难得到大规模的标注数据。中国科学院信息工程研究所和微软亚洲研究院联合提出一种是基于 Zero-Shot 的多语言抽取式文本摘要模型。具体方法是使用在英文上预训练好的抽取式文本摘要模型来在其他低资源语言上直接进行摘要抽取;并针对多语言 Zero-Shot 中的单语言标签偏差问题,提出了多语言标签标注算法和神经标签搜索模型。
实验结果表明,模型 NLSSum 在多语言摘要数据集 MLSUM 的所有语言上大幅度超越 Baseline 模型的分数。其中在俄语(Ru)数据集上,零样本模型性能已经接近使用全量监督数据得到的模型。该研究发表在了 ACL 2022 会议主会长文上。
多语言 Zero-Shot 中的单语言标签偏差问题。
多语言标签。
多语言神经标签搜索摘要模型。
推荐:基于神经标签搜索,中科院 & 微软亚研零样本多语言抽取式摘要入选 ACL 2022。
作者:Joel Lehman 等
论文链接:https://arxiv.org/abs/2206.08896
摘要:很难想象,让大型语言模型辅助一下智能体机器人,它就自己成精了...... 深度学习和进化计算两种方法都适用于计算,都可以产生有用的发现和有意义的进展。不过,二者之间到底是相互竞争的模式,还是互补的模式?最近一篇论文中,来自 OpenAI 的研究者探讨了第二种情况,即互补模式的可能性。他们研究了大语言模型 (LLM; [1,2]) 在基因编程 (GP; [3,4]) 和开放性 [5-7] 上的潜在意义,发现了二者间的协同作用。
该研究选择使用 MAP-Elite 算法进行实验。
来自 OpenAI API 的模型优于论文中的 diff 模型。
一个单独的 Sodaracer 由一个大小可变的点质量(point mass)集合 (每个点质量都由其初始的 2D 位置描述) 和将质量连接在一起的振荡弹簧组成。
推荐:大型语言模型教会智能体进化,OpenAI 这项研究揭示了二者的互补关系。
在ArXiv Weekly Radiostation中,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,详情如下:
本周 10 篇 NLP 精选论文是:
1. CHEF: A Pilot Chinese Dataset for Evidence-Based Fact-Checking. (from Philip S. Yu)
2. DP-Parse: Finding Word Boundaries from Raw Speech with an Instance Lexicon. (from Abdelrahman Mohamed, Emmanuel Dupoux)
3. GODEL: Large-Scale Pre-Training for Goal-Directed Dialog. (from Jianfeng Gao)
4. GEMv2: Multilingual NLG Benchmarking in a Single Line of Code. (from Dragomir Radev)
5. Offline RL for Natural Language Generation with Implicit Language Q Learning. (from Sergey Levine)
6. BenchCLAMP: A Benchmark for Evaluating Language Models on Semantic Parsing. (from Jason Eisner)
7. The Problem of Semantic Shift in Longitudinal Monitoring of Social Media: A Case Study on Mental Health During the COVID-19 Pandemic. (from Mark Dredze)
8. Theory-Grounded Measurement of U.S. Social Stereotypes in English Language Models. (from Hal Daumé III)
9. Questions Are All You Need to Train a Dense Passage Retriever. (from Joelle Pineau)
10. Hierarchical Context Tagging for Utterance Rewriting. (from Daniel Gildea)
本周 10 篇 CV 精选论文是:
1. MaskViT: Masked Visual Pre-Training for Video Prediction. (from Li Fei-Fei)
2. CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation. (from Alan Yuille, Liang-Chieh Chen)
3. PromptPose: Language Prompt Helps Animal Pose Estimation. (from Dacheng Tao)
4. Rectify ViT Shortcut Learning by Visual Saliency. (from Dinggang Shen)
5. Design of Supervision-Scalable Learning Systems: Methodology and Performance Benchmarking. (from C.-C. Jay Kuo)
6. Parallel Pre-trained Transformers (PPT) for Synthetic Data-based Instance Segmentation. (from Ming Li, Jie Wu)
7. Improving Generalization of Metric Learning via Listwise Self-distillation. (from Zheng Wang)
8. SATBench: Benchmarking the speed-accuracy tradeoff in object recognition by humans and dynamic neural networks. (from Denis G. Pelli)
9. The ArtBench Dataset: Benchmarking Generative Models with Artworks. (from Kurt Keutzer)
10. Scaling Autoregressive Models for Content-Rich Text-to-Image Generation. (from Vijay Vasudevan, Yonghui Wu)
本周 10 篇 ML 精选论文是:
1. AutoML Two-Sample Test. (from Bernhard Schölkopf)
2. Variational Causal Dynamics: Discovering Modular World Models from Interventions. (from Bernhard Schölkopf)
3. The Role of Depth, Width, and Activation Complexity in the Number of Linear Regions of Neural Networks. (from Michael Unser)
4. Channel-wise Mixed-precision Assignment for DNN Inference on Constrained Edge Nodes. (from Luca Benini)
5. LED: Latent Variable-based Estimation of Density. (from Michael J. Black)
6. $\texttt{FedBC}$: Calibrating Global and Local Models via Federated Learning Beyond Consensus. (from Dinesh Manocha)
7. How robust are pre-trained models to distribution shift?. (from Philip H.S. Torr)
8. FINGER: Fast Inference for Graph-based Approximate Nearest Neighbor Search. (from Inderjit S. Dhillon)
9. Optimally Weighted Ensembles of Regression Models: Exact Weight Optimization and Applications. (from Thomas Bäck)
10. Fighting Fire with Fire: Avoiding DNN Shortcuts through Priming. (from Yang Gao)
编辑:王菁
校对:龚力