首页 热点资讯 义务教育 高等教育 出国留学 考研考公
您的当前位置:首页正文

过去一周内值得关注的多媒体、计算机视觉开源项目与论文

2024-12-20 来源:化拓教育网

OpenVSLAM:日本先进工业科技研究所新开源视觉SLAM框架

  • 兼容多种相机类型,通过简单的自定义,也可以快速兼容其他类型相机;

  • 可以存储和加载创建好的地图,从而可以基于预先构建的地图定位新图像;

  • 系统完全模块化,对外提供简单易懂的API;

  • 提供了丰富的代码示例来帮助开发人员理解该系统的核心功能;

原理上,OpenVSLAM是基于具有稀疏特征的间接SLAM算法构建的,例如ORB-SLAM,ProSLAM和UcoSLAM。 效果很酷:

image

表情包黑科技:三星新研究从一张图像中生成人物开口说话的动图

image image

看完这篇被CVPR2019接收的论文之后我的第一想法就是:以后不愁没有表情包了!研究人员的脑洞真是深不可测。

以往类似的研究都要在大量个人数据上进行训练,本文的方法则只需要一张图片就能搞定,这得益于研究人员利用的Few-shot learning等技术。研究人员使用 VoxCeleb2 视频数据集进行元训练(meta trainning)。在元学习过程中,系统创建了三种神经网络:将帧映射到向量的嵌入器网络、在合成视频中映射面部特征点的生成器网络以及评估生成图像真实性和姿态的判别器网络。联合三种网络,该系统能在大型视频数据集上执行长时间的元学习过程。待元学习收敛后,就能构建 few-shot 或 one-shot 的神经头像特写模型。该模型将未见过的目标任务视为对抗学习问题,这样就能利用已学习的高质量生成器与判别器。

ICRA2019: 利用视觉信号预测驾驶员意图

image

通过检测驾驶员的意图,来预测变道和停车事件,是自动驾驶领域的一个课题。本文的角度很新颖,解决了转弯信号分类这一重要而尚未探索的问题,提出了一种能够端到端的训练方法。他们提出的神经网络通过意图、卷积和递归来推断空间和时间特征,从而在帧级对一系列观测信号的转弯信号状态进行分类。该实验使用包含120多万张实况图像的数据集来训练和评估的方法。 在北京开过车的朋友可能都知道,你要是在变道之前打灯,后车大概率会故意加速,专门恶心你。希望自动驾驶时代早日来临,专治这种奇葩。

CVPR2019: 边窗滤波(Side Window Filter)

image

基于这一分析,为什么不把窗口的边缘直接放在待处理像素的位置呢?这就切断了可能的法线方向的扩散,如上图所示,在图像的边缘附近,相邻的两个像素a和b。虽然他们物理上相邻,但是他们选择的半窗口却是朝向两个不同的方向。从而不会出现边缘的模糊。

image

基于这种side window的思想,可以把传统的Box Filter,Gaussian Filter,median Filter,Bilateral Filter,Guided Filter等等都变成Side Window版本。不管原来的滤波器保不保边,Side Window版本都让它保边。在除噪,平滑,HDR应用,结构纹理分解,深度估计,上颜色的场景下,Side Window也都能带来更好的效果。 在遍地深度学习的背景下,这篇文章的简单与实用堪称一股清流。


关注公众号,掌握更多多媒体领域知识与资讯

image
显示全文