数据防泄漏大讲堂
威斯尼斯人官方登录
威斯尼斯人官方登录|包卜nba录像|百万真机数据只是杯水车薪数据匮乏成为具身智能
·目前具身智能领域正处在类似于从GPT-1到GPT-2的过渡阶段★✿◈,连最基础的物理世界的数据都还十分匮乏威斯尼斯人官方登录★✿◈。遥操作方式获取的数据成本过于高昂且采集效率低★✿◈,导致行业内很难获取★✿◈。除了缺乏高质量数据★✿◈,徐良威认为★✿◈,具身智能数据服务行业内面临的首要难题是缺乏统一的数据集定义标准★✿◈。
过去的一年★✿◈,具身智能网路安全★✿◈!★✿◈、人形机器人引发的关注与日俱增★✿◈,但喧嚣过后★✿◈,这一行业的发展也正面临着艰巨的挑战★✿◈,其中训练具身智能大模型所需要的高质量数据在哪的问题成为眼下行业的一大共同的困扰★✿◈。
日前澳门尼斯人游戏电玩网站★✿◈,★✿◈,上海机器人初创公司智元机器人正式开源百万真机数据集AgiBot World使得数据缺乏问题再次被提起★✿◈。智元机器人联合创始人★✿◈、首席技术官彭志辉(网名为“稚晖君”)表示威斯尼斯人官方登录★✿◈,★✿◈,在具身智能领域★✿◈,真机数据的采集成本和门槛非常高★✿◈,此次开源希望众多科研团队基于真实数据进行具身智能算法的训练★✿◈,加速技术创新和产品应用★✿◈。但在业内人士看来★✿◈,“百万条真机数据量”对于行业来说只是杯水车薪★✿◈,“只能训练一个动作的泛化★✿◈,譬如分拣★✿◈,对实现理想状态中的具身智能还远不够★✿◈。”
不同于语言大模型的训练得益于互联网上海量的数据澳门威尼斯★✿◈!威斯尼斯人官方网站★✿◈!★✿◈,具身智能“大脑”的训练则需要更多来自物理世界即真实世界动态环境中的交互数据包卜nba录像★✿◈,如何解决物理世界数据匮乏问题★✿◈,成为眼下人形机器人技术演进路上最大的难题★✿◈。
人形机器人创业企业之一——银河通用的创始人兼CTO包卜nba录像★✿◈、北京大学助理教授王鹤此前在不同场合多次提及具身智能领域面临数据集短缺的难题★✿◈。王鹤认为★✿◈,通用机器人背后的技术一定是具身大模型★✿◈,要用数据驱动基础机器人大模型★✿◈,让机器人能够有极高的泛化性和跨行业应用能力★✿◈。但现有数据量不足以支持通用机器人的发展★✿◈。
泛化性是指模型经过训练后★✿◈,能够将一项行为应用到陌生的应用场景中的能力★✿◈,在陌生场景中能自主识别任务并采取行动★✿◈。国家地方共建人形机器人创新中心(以下简称“国地中心”)相关数据负责人在接受澎湃科技()采访时表示★✿◈,行业内对于机器人泛化数据的获取始终是一大难题★✿◈,现阶段★✿◈,特斯拉的Optimus仍需要人为远程操作来帮助机器人完成任务★✿◈,还不具备泛化能力★✿◈。
北京航空航天大学机器人研究所名誉所长王田苗此前在接受澎湃科技采访时也指出★✿◈,数据的匮乏让人形机器人很难具备泛化性★✿◈。当前★✿◈,机器人任务泛化★✿◈、感知泛化和运动操作的三个泛化数据很难获取★✿◈,比如让机器人叠衣服★✿◈、骑自行车等这些数据很难得到★✿◈。
王鹤团队从2023年开始探索大规模的灵巧手数据合成和大规模的泛化★✿◈,2024年合成了10亿规模的数据体量★✿◈,用于训练机器人的灵巧手★✿◈。
总部位于深圳的一家向具身智能机器人提供基础场景数据和解决方案的创业公司艾欧智能联合创始人徐良威告诉澎湃科技★✿◈,经过一年多对于机器人技术路径的探索发现★✿◈,“只有通过海量数据训练才能够真正地通向具身智能”已经成为行业共识★✿◈,通过仿真数据实现智能的可能性远远小于使用真实数据★✿◈。然而★✿◈,目前具身智能领域正处在类似于从GPT-1到GPT-2的过渡阶段★✿◈,连最基础的物理世界的数据都还十分匮乏★✿◈。
在徐良威看来★✿◈,对于训练具身智能泛化能力来说★✿◈,AgiBot World这种百万量级的数据集虽然已经取得明显的进步★✿◈,但只是“杯水车薪★✿◈,洒洒水而已”★✿◈,达到理想的效果需要更大量的数据包卜nba录像★✿◈。
澎湃科技记者了解到★✿◈,在具身智能领域实践中发展出四种具身智能采集训练数据★✿◈:第一种是遥操作机器人数据★✿◈,即需要一位人工数据采集员戴着遥操作手套★✿◈,手把手示教★✿◈,获取真机操作数据★✿◈。通过这种方式获取的数据质量最高★✿◈,但成本昂贵★✿◈。第二种是仿线D仿真环境里从无到有地积累训练数据★✿◈,这类训练数据以生成数据为主★✿◈,与真实世界仍有较大差异★✿◈。第三种是通过人类动作捕捉数据★✿◈,也称为动作捕捉或动作追踪数据★✿◈,是通过传感器★✿◈、摄像头或其他设备★✿◈,精确记录和分析人体运动的技术★✿◈。这类方式获取的数据质量较高★✿◈,但通过人类动作捕捉获取的数据★✿◈,与机器人能否适配仍存在一定差异★✿◈,需要后期继续做构型对齐相关工作★✿◈。第四种数据来源是通过互联网获取人类动作视频或图像数据★✿◈。这类方式的特点是能获得海量数据★✿◈,但都是单一模态★✿◈、非结构化且无标注的二维图像或视频信息包卜nba录像★✿◈,质量很差澳门尼威斯人★✿◈,★✿◈。
国地中心数据负责人指出★✿◈,目前行业内最匮乏的是通过遥操作方式获取的高质量数据★✿◈,仿真合成类数据获取成本低★✿◈,但仍需要弥合仿真与现实世界的差距★✿◈。然而★✿◈,遥操作方式获取的数据成本过于高昂且采集效率低★✿◈,导致行业内很难获取★✿◈。
“一台遥操设备投入约35万元★✿◈,再加上人工数据采集员的成本★✿◈,每人每天大约采集500条数据★✿◈,人工成本至少需要300元★✿◈,即便长期投入也无法保证成功★✿◈。”国地中心数据负责人估算★✿◈,特斯拉的人形机器人Optimus至少需要数百万小时的数据才能完全准备好在特斯拉工厂工作★✿◈,这期间可能需要至少5亿美元的数据采集成本★✿◈。
上述国地中心数据负责人向澎湃科技透露★✿◈,即便银河通用专注于强化机器人大脑模型★✿◈,强调仿真合成数据的使用★✿◈,但仍面临一定挑战★✿◈。“在仿真环境中参数看似正确★✿◈,但在物理世界中★✿◈,即使是微小的偏差也会导致完全不同的结果★✿◈。比如★✿◈,人形机器人执行蹲下起身这类动作时威斯尼斯人官方登录★✿◈,不同机器人可能会有不同表现★✿◈,电机参数任何微小变化可能会导致机器人出现完全不同的行为★✿◈,很难控制★✿◈。”
由于泛化数据采集成本高★✿◈、获取难度大★✿◈,国地中心数据负责人透露★✿◈,现阶段行业内大部分按照1:9或者1:10的数据比例训练机器人★✿◈,即一条遥操作机器人数据配以9条或者10条仿真合成数据★✿◈,但这个比例目前还没有定论★✿◈。
徐良威认为★✿◈,另一个关键问题是如何实现高效的数据采集★✿◈。虽然通过人工操作机器人可以获取高质量的数据★✿◈,但这种方式的效率极低★✿◈。徐良威称★✿◈,智元对外称一周可采集50万条数据★✿◈,综合一年数据量也不过只能达到千万量级★✿◈,这对具身智能训练效率非常低★✿◈,难以提速★✿◈。
除了缺乏高质量数据★✿◈,徐良威认为★✿◈,具身智能数据服务行业内面临的首要难题是缺乏统一的数据集定义标准★✿◈。尽管海外有Google这类科技巨头已开源部分数据集★✿◈,国内也有智元机器人开源百万条真机数据集等★✿◈,但不同公司开放的数据集格式能否兼容★✿◈、能否保持数据质量的一致性很难说★✿◈。
“北京和上海的开源数据集能否兼容★✿◈、数据格式是否一致★✿◈,以及数据托管的方式有哪些不同★✿◈,这些还有待出台统一的数据标准★✿◈。”徐良威说★✿◈,目前国内众多机器人公司正处于“百花齐放”的状态威斯尼斯人官方登录★✿◈,在数据管理上也各自为政★✿◈,这导致公司之间沟通成本非常高★✿◈。
在数据处理上★✿◈,目前行业内也缺少统一的数据处理标准★✿◈。“不同公司★✿◈、机构或平台对处理数据的方法不一★✿◈,机器人如果要有效利用这些数据★✿◈,还需进一步处理★✿◈。”徐良威说★✿◈,每个团队或公司可能都需要从头开始处理标注数据★✿◈,这会浪费大量时间和资源★✿◈,且无法保证训练结果的通用性★✿◈。
近期★✿◈,国家地方共建具身智能机器人创新中心牵头立项的《人工智能具身智能数据采集规范》工信部行业标准★✿◈,规范了具身智能数据集采集的格式★✿◈,使不同公司采集的数据可以互相共享开源★✿◈,加速模型“涌现”★✿◈,在徐良威看来★✿◈,对从业者来说无疑是一个积极的信号★✿◈。
世界模型的出现似乎给人形机器人带来一些新的希望澳门尼斯人游戏★✿◈。去年12月★✿◈,李飞飞的世界模型开启了从数字世界向物理世界的跨越征程★✿◈,实现了从一维数字智能向三维空间智能的重大转变★✿◈。2025年1月6日★✿◈,英伟达创始人兼首席执行官黄仁勋在2025CES(国际消费类电子产品展览会)期间★✿◈,推出了涵盖生成世界基础模型的Cosmos世界基础模型平台★✿◈,旨在加速自动驾驶汽车★✿◈、机器人等物理AI系统开发★✿◈。黄仁勋认为★✿◈,“机器人的ChatGPT时刻即将到来★✿◈。与大语言模型一样★✿◈,世界基础模型对于推进机器人和自动驾驶汽车的开发至关重要★✿◈。”
徐良威称★✿◈,这一类世界模型为通用智能提供空间★✿◈、时间★✿◈、物理★✿◈、语义等各方面的模型表征★✿◈。理论上来说★✿◈,一方面★✿◈,世界模型的成功使得机器人“理解世界”具备可能性★✿◈;另一方面★✿◈,世界模型能够在各维度下生成符合世界规律的数据★✿◈,有潜力成为机器人合成数据的新范式澳门尼威斯人网站★✿◈,★✿◈。不过★✿◈,虽然世界已经有一些阶段性的成果推出★✿◈,但真正在机器人上应用★✿◈,直至能够商业落地也还需要进一步发展★✿◈。
数据缺乏在成为业内共识的同时★✿◈,各方也在采取解决方案★✿◈。2024年8月★✿◈,特斯拉对外高薪招募“数据采集员”★✿◈;2024年12月27日包卜nba录像★✿◈,北京国地共建具身智能机器人创新数据采集基地亮相★✿◈。
据了解★✿◈,从2024年下半年开始★✿◈,位于上海张江的国家地方共建人形机器人创新中心也在搭建基于自己平台的数据采集训练场★✿◈,目前★✿◈,训练场的场地搭建工作以及数据采集机器人设备也基本到位★✿◈,2025年计划招聘一些数据采集员来配合遥操作数据采集★✿◈。2025年预期量产机器人的数量会上升★✿◈,随之带来的数据采集量也会大幅增长威斯尼斯人官方登录★✿◈,在数据采集成本方面也会下降★✿◈。“今后可能会有一批便携式数据采集工具出现★✿◈,这样会进一步降低数据采集成本★✿◈。”相关人士透露★✿◈。
在徐良威看来★✿◈,北京★✿◈、上海相继表示要共建具身智能机器人创新数据采集基地和搭建实训★✿◈、模拟应用场景建设★✿◈,核心价值远不止数据采集本身威斯尼斯人官方登录★✿◈,更重要的是能够集中资源★✿◈、缩短数据积累的时间★✿◈,也相应地缩短了具身智能市场准入时间★✿◈。他预测★✿◈,2025年不同地区会加快建设数据采集训练场★✿◈,以便从0到1的过程中尽快实现机器人的落地应用★✿◈,此外数据采集方式将更加多样化★✿◈。
大皖新闻讯 据中国福彩网★✿◈,中国福利彩票“双色球”第2025031期开出18注一等奖★✿◈,单注中奖金额6040821元★✿◈。
【没别的意思★✿◈!解放军大型无人机亮剑台海】 近日★✿◈,台军炒作拍到解放军“无侦-10”和“攻击-2”无人机画面★✿◈;专家称★✿◈,“就是有意让台军看的”★✿◈。
3月23日★✿◈,上海★✿◈,全球三大家电展之一AWE展会★✿◈,不少观众进门直奔国产新兴品牌★✿◈,有的门口甚至排起了长队★✿◈,“国产新势力崛起★✿◈,洋品牌不香了”
3月22日★✿◈,一名网友发布视频称★✿◈,出去海钓时偶遇一个“小孩哥”在海上漂流★✿◈,并称其是划船出海钓鱿鱼★✿◈,夜里遇到风浪★✿◈,从陵水赤岭村漂到了三亚★✿◈。视频发布后★✿◈,引发大量网友关注★✿◈。
福耀科技大学公布了★✿◈:首届招100人以内★✿◈,年学费5460元★✿◈!大四到境外名校学习一年★✿◈,与剑桥★✿◈、牛津★✿◈、斯坦福等合作
据《福州晚报》3月22日消息★✿◈,今年该校计划招收100名以内学生★✿◈,学费每年5460元★✿◈,采取本硕博贯通培养模式★✿◈,本科阶段将获得双学位★✿◈。
来源★✿◈:【天府融媒】要把一座寺庙与印钞厂联系在一起★✿◈,确实需要极其丰富的想象力★✿◈。然而威斯尼斯人官方登录★✿◈,这件看似离奇的事却真实地发生了★✿◈,且就发生在成都★✿◈。成都自古以来便是文化与经济交汇的沃土★✿◈,当这种多元性与北宋开明的风气相遇时★✿◈,便如同化学反应般迸发出无限可能★✿◈。
但凡有一点儿素质的家长都会教育孩子★✿◈:公共场所里的花不能薅★✿◈,那是给大家看的★✿◈。但是★✿◈,人和人哪能一样呢?有些家长看到孩子薅花不但不管★✿◈,被其他游客制止后★✿◈,更是拿出一副厚颜无耻的姿态和人吵架★✿◈,真是太不要脸了★✿◈!这起事件发生在江苏省南京市★✿◈。3月23号恰逢周末★✿◈,南京市某公园里游人如织★✿◈。
韩国政坛再次上演戏剧性一幕★✿◈,在野党代表朴赞大启动对代总统崔相穆的弹劾程序★✿◈,而这背后实则是各方利益与权力的激烈博弈★✿◈。弹劾时间的选择极为巧妙★✿◈,正值尹锡悦案子即将出结果之际★✿◈,且国会中在野党占据56%的席位★✿◈,优势明显★✿◈。