破解机器人抓取透明物体难题,地瓜机器人 &CASIA新方案发布

boyanx3个月前技术教程14

IT之家 3 月 5 日消息,全球机器人领域顶会 ICRA 2025(IEEE 机器人与自动化国际会议)日前公布了论文录用结果,地瓜机器人主导研发的 DOSOD 开放词汇目标检测算法与 MODEST 单目透明物体抓取算法成功入选。

作为机器人执行各项任务中绕不开的操作对象,水杯、试管、窗户等透明物体在人类生活中无处不在。然而,透明物体复杂的折射和反射特性给机器人感知造成了很大困难。在大多数 RGB 图像中的透明物体往往缺乏清晰的纹理,而容易与背景混为一体。此外,商用深度相机也难以准确捕捉这些物体的深度信息,导致深度图缺失或噪声过多,从而限制了机器人在多个领域的广泛应用。

为了解决透明物体的抓取问题,地瓜机器人联合中科院自动化所(简称:CASIA)多模态人工智能系统全国重点实验室,推出了针对透明物体的单目深度估计和语义分割的多任务框架(简称:MODEST)。该框架借助创新性的语义和几何融合模块,结合独特的特征迭代更新策略,提升了深度估计和语义分割的效果,尤其在抓取成功率和系统泛化性方面取得了突破性进展。

MODEST 算法框架作为通用抓取模型的前置模块,即插即用,且无需依赖额外传感器,仅靠单张 RGB 图像,便可实现透明物体的抓取,效果上甚至要优于其它双目和多视图的方法,可以应用于智能工厂、实验室自动化、智慧家居等场景,降低设备成本并提升机器人对透明物体的操作能力。

MODEST 主要聚焦于透明物体的深度估计,通过设计的语义和几何结合的多任务框架,获取物体准确的深度信息,之后结合基于点云的抓取网络实现透明物体的抓取。相当于在通用抓取网络前面增加一个针对透明物体的增强模块。

MODEST 模型的整体架构如图所示,输入为单目 RGB 图像,输出为透明物体的分割结果和场景深度预测。网络主要由编码、重组、语义几何融合和迭代解码四个模块组成。输入图像首先经过基于 ViT 的编码模块进行处理,随后重组为对应分割和深度两个分支的多尺度特征。在融合模块中对两组特征进行混合和增强,最后通过多次迭代逐步更新特征,并获得最终预测结果。

地瓜机器人将算法迁移到真实机器人平台,开展了透明物体抓取实验。平台主要由 UR 机械臂和深度相机构成,在借助 MODEST 方法进行透明物体精确感知的基础之上,采用 GraspNet 进行抓取位姿的生成。在多个透明物体上的实验结果表明,MODEST 方法在真实平台上具有良好的鲁棒性和泛化性(IT之家注:鲁棒性是指系统在面对内部结构或外部环境变化时,仍能保持其功能稳定运行的能力)。

  • 论文地址:
    https://arxiv.org/pdf/2502.14616

  • 代码地址:
    https://github.com/D-Robotics-AI-Lab/MODEST

标签: pdfobject.js

相关文章

PDF文件处理:PDFPlumberLoader 对象和 PyPDFLoader对象

pdfplumber包中的 PDFPlumberLoader 对象和 langchain_community 包中的 PyPDFLoader 对象都用于加载和处理 PDF 文档,但它们有不同的实现和功...

jscanify:支持 Node.js/浏览器/React 移动文档扫描仪

大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发,您的支持是我不断创作的动力。什么是 jscanifyOpe...

PDF格式发明人去世:享年81岁

来源:快科技美国当地时间4月17日周五,PDF格式发明人、Adobe公司联合创始人查尔斯格什克(Charles“Chuck”Geschke)不幸去世,享年81岁。PDF格式诞生于1992年,全程“Po...

前端黑科技:一键将网页变 PDF,so easy!

在数字化办公时代,PDF以其跨平台、易于打印和分享等优点,成为了文档格式的首选。而今天,我们要学习一项超实用的前端黑科技,无需任何插件,就能将网页内容转化为PDF并下载,轻松提升工作效率!告别繁琐,三...

如何使用 PDFKit 在 Node.js 中创建 PDF文件

借助 PDFKit 的强大功能,只需使用几个简单的命令即可制作精美的 PDF 文档。PDFKit 是一个 Node.js 库,可让开发人员轻松创建和使用 PDF 文件。 它提供了简单而有效的 API,...

【分享】教你如何使用 Java 读取 Excel、docx、pdf 和 txt 文件

在 Java 开发中,我们经常需要读取不同类型的文件,包括 Excel 表格文件、"doc" 和 "docx" 文档文件、PDF 文件以及纯文本文件。其中最常用的是 Apache POI 库。Apac...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。