【开发者周报第1期】2025/06/23-06/27

更多精彩内容请访问www.qiniu.com

刚刚,AI大模型的参数规模可能又突破了某个量级,具身智能机器人或许刚学会更自然的「手眼协调」,多模态交互的应用场景正从实验室走向真实生活……我们为你筛出了最值得关注的5件大事,带你穿透信息泡沫,直抵技术内核。开发者的故事,从这里开始:

Fast Reading:

快速抓重点

1、谷歌发布“自家最强”VLA模型

2、Claude 让每个人都能开发 AI 应用

3、小米首款AI眼镜正式发布

4、最高683分!大模型“高考”出分

5、多指标超GPT-4o!月之暗面Kimi-VL新版开源

内容详情

1、给机器人装上“离线大脑”+“安卓系统”,谷歌端上“自家最强”VLA模型

近日,谷歌DeepMind正式发布Gemini家族新成员——Gemini Robotics On-Device,这是其首个可直接部署于机器人的视觉-语言-动作(VLA)模型,旨在通过本地高效运行,助力机器人快速适应新任务与环境,无需依赖持续互联网连接。

该模型基于Gemini 2.0多模态推理能力构建,属Gemini Robotics系列(今年3月首次发布),经优化可在机器人本体上实现低延迟推理,尤其适用于延迟敏感型或断网场景。实验显示,其具备强大任务泛化与跨具身适应能力:仅需50-100个演示即可微调适应新任务,能完成拉开袋子拉链、折叠衣物等高度灵巧操作;且可跨ALOHA、Franka FR3双臂机器人及Apollo人形机器人等不同机型泛化,处理未见过的物体与场景。

针对开发者,DeepMind将同步推出Gemini Robotics SDK,支持在MuJoCo物理模拟器中快速测试与适配新领域(注:MuJoCo Playground联合团队近期获机器人科学与系统会议RSS 2025杰出演示论文奖)。

DeepMind表示,此模型标志着机器人模型向“更易获取、更易适应”迈出关键一步,推动具身智能技术迈向新阶段。

2、Anthropic 重磅更新:Claude 让每个人都能开发 AI 应用

人工智能公司 Anthropic 宣布其 Claude 聊天机器人新增一项重磅功能,允许用户直接在应用内构建由 AI 驱动的应用程序。该功能目前已正式上线,是基于去年推出的 Artifacts 功能的全面升级。

在官方博客中,Anthropic 表示:"通过启用这项新的交互功能,用户可以在 Claude 应用中开始构建自己的应用程序。只需简单描述你想要创建的内容,Claude 就会为你编写代码。"这意味着,即使完全不懂编程的用户,也能通过自然语言对话的方式,让 AI 帮你开发出功能完整的应用程序。

据 Anthropic 介绍,早期使用该功能的用户已经成功构建了多种类型的 AI 驱动应用程序:

  • AI 游戏:带有智能 NPC 的互动游戏

  • 学习工具:个性化教学应用和智能单词卡

  • 数据分析应用:上传表格就能自然语言查询

  • 写作助手:针对特定需求的创作工具

  • 智能体工作流:协调多次调用 Claude 的复杂任务应用

这些应用程序都能通过 API 与 Claude 进行实时交互,实现真正的智能化体验。

3、小米首款AI眼镜正式发布,售价1999元起

6月26日晚,小米创办人、董事长兼CEO雷军在小米人车家全生态发布会上,正式发布首款AI眼镜,售价1999元起并已开售。该产品定位“面向下个时代的个人智能设备”,支持实时语音问答(唤醒小爱同学)、第一人称视角拍摄(健身/骑行等场景)、第三方APP视频通话/直播,专为亚洲脸型优化(仅重40g),兼具开放式耳机功能,强调全天佩戴舒适性。


这是小米在AI硬件领域的一次关键突破,标志着个人智能设备向“随身AI入口”形态进阶:通过轻量化设计(40g)、场景化交互(实时问答+第一视角记录)及多模态能力(语音+视觉+音频),重新定义了“人机交互”的便捷性与实用性,推动AI从“工具”向“日常陪伴者”升级,也为消费电子行业探索AI硬件的新形态提供了参考样本。

对开发者而言,小米AI眼镜的第三方APP适配(如视频通话、直播)将催生更多针对“第一视角交互”的场景化应用开发需求;其“随身AI入口”的定位,可能推动开发者围绕“实时语音交互+场景感知”优化算法与服务;此外,轻量化设计与开放式耳机的融合,或引导开发者关注AI设备在“日常穿戴”场景下的用户体验,加速AI技术与消费硬件的深度协同创新。

4、高考出分!5款大模型考「山东卷」,Gemini、豆包分别获文理第一名

近日字节跳动 Seed 团队集结了五款主流推理模型—— Seed 1.6-Thinking、DeepSeek-R1-0528,以及国外大模型 Gemini-2.5-Pro-0605、Claude-Sonnet-4、OpenAI-o3-high-0416,用 2025 年山东高考真题(主科全国 Ⅰ 卷 + 副科自主命题)进行全科闭卷测评,以高考 750 分制对 AI 的「应试能力」展开硬核比拼。

按照传统的文理分科方式统计得分:

文科成绩:

豆包Seed1.6-Thinking以683分夺冠,其地理(94分)和历史(92分)表现尤为突出,展现了强大的逻辑推理和文本分析能力。相比之下,Claude Sonnet-4(633分)和OpenAI-o3(625分)在政治科目存在明显短板,主要因教材观点关联不足导致失分。

理科成绩:

Gemini2.5-Pro以655分位居榜首,物理(89分)和化学(82分)优势显著,尤其在图像类题目中表现稳定。豆包虽以648分紧随其后,但通过高清图像重测后理科总分可提升至676分,显示多模态能力的潜力。DeepSeek-R1虽数学接近满分(145分),但物理科目仅得62分,拉低总分。

技术突破与挑战:

  • 多模态能力成关键:图像题占比达36%,豆包通过图文交织输入法在生化科目提升30分,验证了全模态推理的价值;

  • 理科差距显著:头部模型理科总分(约650分)仍低于文科(680+分),反映图像处理和复杂公式推导仍是难点;

  • 迭代速度惊人:对比去年媒体公开的大模型高考评测数据,豆包今年理科成绩暴涨181.5分,文科提升140.5 分,显示大模型学习效率的大幅提升。

此次测评表明,大模型已超越普通考生水平(山东一段线441分),部分模型达到清北录取线(预估赋分后超690分)。未来随着多模态技术的深化,AI在复杂问题解决领域的应用前景值得期待。

5、3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o

日前,月之暗面开源多模态模型Kimi-VL-A3B-Thinking-2506,这是其首个开源多模态推理模型Kimi-VL-A3B-Thinking发布两个月后的更新版本,可凭借2.8B激活参数(16B总参数)在多项测评中超越GPT-4o、Qwen2.5-VL-7B等模型。

这一突破标志着轻量化多模态模型进入新阶段:通过混合专家架构(MoE)、原生高分辨率视觉编码器(MoonViT)及多模态深度融合机制,模型实现了“小参数、强性能”的高效推理,重新定义了模型能效标准;同时,其在数学推导、长视频分析等复杂任务中的表现,验证了多模态技术与大模型学习的快速迭代能力,推动技术向普惠化发展。

对开发者而言,模型支持Hugging Face、VLLM双平台快速部署,且MIT协议允许商用,大幅降低了接入成本;行业层面,其轻量化特性适配边缘设备,可快速落地智能客服(屏幕指令执行准确率92.8%)、医疗影像(病灶识别超90%)等场景;此外,开源生态衍生出法律文书分析、工业质检等20+应用案例,加速多模态技术在千行百业的普及。