本篇文章1724字,读完约4分钟

Qq空正在刘表中使用。(信息无障碍研究会议)

好船员

刘彪打开他的手机QQ空并触摸了他的朋友发来的照片。

过去,在他耳边响起的是阅读提示“图片”。现在,他听到了更多-"图片:一个长头发的女孩在夕阳下的照片。"

这是新安卓版QQ空客户端基于人工智能技术推出的“图片语音即时描述”功能。

“这种感觉很不寻常。”刘彪是一名视障人士,也是公益组织信息无障碍研究所的技术负责人。虽然声音只描述了画面的主要信息,但对于刘表来说,这次经历与现在大不相同。“在朋友发送图片之前,他们只能‘绕过’。现在我知道他可能发送了什么,我可以在评论区与他互动。”在人工智能的帮助下,视觉障碍者成功地在动态画面下拂去了存在感。

人工智能描述图片来帮助视障人士“看”更多

让技术在社交场合落地

很久以前,信息可访问性研究协会与QQ空建立了合作关系,以帮助他们进行软件可访问性优化。

所谓的无障碍信息仅仅意味着所有用户,包括视力障碍者、听力障碍者和阅读障碍者,都可以顺利使用互联网。它是互联网世界的无障碍设施,就像路上的盲道和地铁站的无障碍电梯一样。

视障人士也是互联网产品的用户。他们依靠语音辅助程序或屏幕阅读软件来阅读新闻、订购外卖、购物、乘坐出租车...

社交。

刘彪说,现在越来越多的人喜欢打印图片和发送小视频,但他们看不见,只能问——你发了什么?“我们刚刚在QQ空这个痛点之间告诉工程师——如果照片能被识别该有多好。”

QQ空的产品开发技术人员告诉《科技日报》记者,现在QQ空用户发布的动态中,超过60%都包含图片。如果图片不能被阅读,这确实是视觉障碍者相当缺乏的信息。双方都认为这个功能很酷,所以他们开始优化它。QQ空还与腾讯的人工智能团队沟通,寻找科技解决方案。这次,腾讯的人工智能实验室技术被用于即时图像和语音描述功能。

人工智能描述图片来帮助视障人士“看”更多

腾讯人工智能实验室图片描述生成技术一般是基于编解码框架的。这项技术的难点在于设计一个能够完全理解图像内容的模型,然后将相应的编码图像内容“翻译”成自然句子。”腾讯的人工智能实验室技术人员解释说,这样的模型不仅需要深入理解图像,还需要自然语言,更重要的是,学习图像和自然语言之间的多模态交互。

人工智能描述图片来帮助视障人士“看”更多

要真正登陆,这项技术必须解决一个大问题,即用户上传的图片高度多样化。他们把星星送到海里,也把生活的细节发送出去。由于图片种类繁多,腾讯人工智能实验室的技术人员坦率地承认,有时候图片的自然句子描述并不特别准确。“这需要不断积累数据和不断提高算法的性能。两者相互促进,提高了算法的准确性。”

易接近性的锦上添花

事实上,就在几年前,“信息无障碍”对国内互联网公司来说还是一个奇怪的概念。

当时,《科技日报》的一名记者采访了信息无障碍产品联盟秘书长梁振宇。他说,对于互联网产品团队来说,每个问题都有优先权。“无障碍优化”似乎有一些次要的需求,有时被搁置一边。

“在过去的两年里,社会各界都更加关注信息的可获取性。”刘彪表示,信息无障碍研究会已经与百度、腾讯以及阿里旗下的各种产品建立了合作关系。至少,主流互联网公司现在知道什么是无障碍,如果条件允许,他们愿意为之努力。

QQ空的产品团队表示,从2014年开始,在信息无障碍技术方面,手机QQ空不断优化其在朋友动态、新闻和个人主页等核心场景的体验。它视信息无障碍为每个功能发布的必要特征,坚持解决每个版本中的一些问题,从内部测试阶段就邀请视障用户参与产品评估,然后根据反馈的建议和意见不断优化版本。"让QQ空更好地服务于残疾用户,为残疾人提供舒适的社交体验."

人工智能描述图片来帮助视障人士“看”更多

为了使信息无障碍,事实上,它不需要尖端技术。刘彪表示,如果开发商了解用户的需求,并按照一定的规格设计和开发APP,产品将“信息无障碍”,从而惠及视障用户。另一方面,人工智能可能是锦上添花。

“语音输入使我们的输入更加高效。光学字符识别文本识别使我们能够“识别”药瓶上的文字。那些改变你生活的应用程序也提高了我们的生活质量。”刘彪也在使用智能家居产品,如智能扬声器。“当我们过去使用诸如空音频和洗衣机等家用电器时,我们习惯于按记忆按钮。有了人工智能技术,我们就可以进行语音控制,省去这些麻烦。”他警告说,“一些智能家庭有手机应用程序控制功能,这些应用程序也应该注意无障碍优化。”(张格伦)

来源:联合新闻网

标题:人工智能描述图片来帮助视障人士“看”更多

地址:http://www.longtansi.com.cn/news/892.html