«

StreetReaderAI:通过情境感知多模态AI实现街景无障碍访问

qimuai 发布于 阅读:4 一手编译


StreetReaderAI:通过情境感知多模态AI实现街景无障碍访问

内容来源:https://research.google/blog/streetreaderai-towards-making-street-view-accessible-via-context-aware-multimodal-ai/

内容总结:

近日,谷歌研究院发布了一项名为StreetReaderAI的创新技术原型,旨在通过多模态人工智能技术为视障群体构建无障碍街景导航系统。该研究成果已于10月29日在UIST'25学术会议上正式亮相。

当前主流地图服务虽已提供沉浸式街景功能,但屏幕阅读器始终无法解析街景图像内容。StreetReaderAI通过整合动态地理数据与实时图像分析,首次实现了对街景环境的智能语音描述。系统搭载两大核心模块:能自动生成环境描述的AI解说器,以及支持实时对话的AI聊天助手。用户可通过语音指令或键盘快捷键实现全景图像间的无缝移动与视角调整,获得类似第一人称游戏的音频交互体验。

在实验室测试中,11位视障测试者通过系统完成了超过350个全景地点探索,累计发起千余次AI交互请求。数据显示,AI聊天功能使用频率是自动解说功能的6倍,反映出用户对个性化交互的强烈需求。系统对用户提问的整体回答准确率达到86.3%,但在障碍物识别等方面仍需优化。

研究还首次系统分析了视障人群对街景图像的关注焦点:空间方位(27%)、物体存在性(26.5%)、环境概览(18.4%)及目标定位(14.9%)构成四大核心需求。未来研发方向包括开发能自主探索街景的智能体、实现全路径无障碍规划,以及构建沉浸式三维音效环境。

这项由盲人及明眼研究者共同设计的原型系统,标志着街景服务向普惠化迈出关键一步,为重塑数字导航的无障碍标准提供了重要技术范本。

中文翻译:

StreetReaderAI:通过情境感知多模态AI实现街景无障碍访问
2025年10月29日
Jon E. Froehlich(访问 faculty 研究员)与 Shaun Kane(研究科学家),Google Research

我们推出 StreetReaderAI——一款基于情境感知实时人工智能与无障碍导航控制的新型无障碍街景原型系统。

快速链接

如今,各大主流地图服务中的交互式街景工具已彻底改变了人们虚拟导航与探索世界的方式:从预览路线、查看目的地到远程游览世界级景点。但迄今为止,屏幕阅读器仍无法解读街景图像,替代文本也尚未普及。如今,我们有机会通过多模态AI与图像理解技术,重新定义这种沉浸式街景体验,使其包容所有人。未来,像谷歌街景这样覆盖110多个国家地区、拥有超过2200亿张图像的服务,或将能为视障群体提供沉浸式视觉体验,开拓探索的新可能。

在UIST'25大会上发表的论文《StreetReaderAI:利用情境感知多模态AI实现街景无障碍化》中,我们介绍了这一概念验证原型。StreetReaderAI由盲人与明眼研究者组成的团队迭代开发,借鉴了《Shades of Doom》《BlindSquare》《SoundScape》等无障碍第一人称游戏与导航工具的经验。其核心功能包括:

在StreetReaderAI中导航
StreetReaderAI提供沉浸式第一人称探索体验,类似以音频为主要交互界面的电子游戏。用户可通过键盘或语音无缝导航:左右方向键切换视角,系统会实时播报朝向(如“正对:北方”或“东北方”)并提示前方是否可通行、是否存在地标。按上箭头可“虚拟步进”,下箭头后退。移动时系统会描述行进距离与关键地理信息(如周边场所)。用户还可使用“跳跃/传送”功能快速定位。

AI虚拟导览核心
系统依托Gemini驱动的两大AI子系统:

  1. AI描述器:结合用户虚拟位置的动态地理数据与当前街景图像分析,生成实时音频描述。含两种模式:侧重盲人出行安全的“默认模式”,以及提供历史建筑等旅游信息的“导览模式”。系统还会预判视障用户可能提出的场景相关问题。
  2. AI对话器:在描述器基础上,支持用户对当前/过往视角及周边地理提问。该代理基于谷歌多模态实时API,具备会话记忆功能(最多约等效4000张输入图像的上下文容量)。例如用户走过公交站后询问“刚才的公交站在哪?”,系统能结合历史定位数据回答“在您身后约12米处”。

盲人用户测试反馈
我们对11位盲人屏幕阅读用户进行实地实验,参与者通过StreetReaderAI探索多地并评估步行路线。总体评分6.4分(7分量表,中位数7),用户特别肯定虚拟导航与AI的协同、无缝对话界面及信息价值。定性反馈指出该系统显著提升了街景工具的无障碍水平,AI对话功能使地理探索更具吸引力。

测试中用户访问超350个全景节点,发起超1000次AI请求。值得注意的是,AI对话器使用频率是描述器的6倍,显示用户更倾向个性化交互。现存挑战包括:空间定向困难、判断AI回答准确性、明确AI能力边界。

首项街景无障碍系统研究洞察
我们首次系统分析了盲人对街景图像的提问类型。对917次AI对话标注的23类问题中,前四类为:

AI准确率分析
在816次有效提问中:

未来方向
本研究揭示了多模态AI应答盲人街景需求的潜力,后续可拓展:

尽管仍是概念验证原型,StreetReaderAI已展现出使沉浸式街景环境实现无障碍化的广阔前景。

致谢
研究团队:Jon E. Froehlich, Alexander J. Fiannaca, Nimer Jaber, Victor Tsaran, Shaun K. Kane, Philip Nelson。感谢Project Astra、谷歌地理团队及所有参与者。图示图标来源:Noun Project(创作者:Firdaus Faiz, Kawalan Icon, Didik Darmanto, Funtasticon)。

英文来源:

StreetReaderAI: Towards making street view accessible via context-aware multimodal AI
October 29, 2025
Jon E. Froehlich, Visiting Faculty Researcher, and Shaun Kane, Research Scientist, Google Research
We introduce StreetReaderAI, a new accessible street view prototype using context-aware, real-time AI and accessible navigation controls.
Quick links
Interactive streetscape tools, available today in every major mapping service, have revolutionized how people virtually navigate and explore the world — from previewing routes and inspecting destinations to remotely visiting world-class tourist locations. But to date, screen readers have not been able to interpret street view imagery, and alt text is unavailable. We now have an opportunity to redefine this immersive streetscape experience to be inclusive for all with multimodal AI and image understanding. This could eventually allow a service like Google Street View, which has over 220 billion images spanning 110+ countries and territories, to be more accessible to people in the blind and low-vision community, offering an immersive visual experience and opening up new possibilities for exploration.
In “StreetReaderAI: Making Street View Accessible Using Context-Aware Multimodal AI”, presented at UIST’25, we introduce StreetReaderAI, a proof-of-concept accessible street view prototype that uses context-aware, real-time AI and accessible navigation controls. StreetReaderAI was designed iteratively by a team of blind and sighted accessibility researchers, drawing on previous work in accessible first-person gaming and navigation tools, such as Shades of Doom, BlindSquare, and SoundScape. Key capabilities include:

谷歌研究进展

文章目录


    扫描二维码,在手机上阅读