人工智能描述图片来帮助视障人士“看”更多-联合新闻网

Qq空正在刘表中使用。(信息无障碍研究会议)

好船员

刘彪打开他的手机QQ空并触摸了他的朋友发来的照片。

过去，在他耳边响起的是阅读提示“图片”。现在，他听到了更多-"图片:一个长头发的女孩在夕阳下的照片。"

这是新安卓版QQ空客户端基于人工智能技术推出的“图片语音即时描述”功能。

“这种感觉很不寻常。”刘彪是一名视障人士，也是公益组织信息无障碍研究所的技术负责人。虽然声音只描述了画面的主要信息，但对于刘表来说，这次经历与现在大不相同。“在朋友发送图片之前，他们只能‘绕过’。现在我知道他可能发送了什么，我可以在评论区与他互动。”在人工智能的帮助下，视觉障碍者成功地在动态画面下拂去了存在感。

人工智能描述图片来帮助视障人士“看”更多

让技术在社交场合落地

很久以前，信息可访问性研究协会与QQ空建立了合作关系，以帮助他们进行软件可访问性优化。

所谓的无障碍信息仅仅意味着所有用户，包括视力障碍者、听力障碍者和阅读障碍者，都可以顺利使用互联网。它是互联网世界的无障碍设施，就像路上的盲道和地铁站的无障碍电梯一样。

视障人士也是互联网产品的用户。他们依靠语音辅助程序或屏幕阅读软件来阅读新闻、订购外卖、购物、乘坐出租车...

社交。

刘彪说，现在越来越多的人喜欢打印图片和发送小视频，但他们看不见，只能问——你发了什么？“我们刚刚在QQ空这个痛点之间告诉工程师——如果照片能被识别该有多好。”

QQ空的产品开发技术人员告诉《科技日报》记者，现在QQ空用户发布的动态中，超过60%都包含图片。如果图片不能被阅读，这确实是视觉障碍者相当缺乏的信息。双方都认为这个功能很酷，所以他们开始优化它。QQ空还与腾讯的人工智能团队沟通，寻找科技解决方案。这次，腾讯的人工智能实验室技术被用于即时图像和语音描述功能。

人工智能描述图片来帮助视障人士“看”更多

腾讯人工智能实验室图片描述生成技术一般是基于编解码框架的。这项技术的难点在于设计一个能够完全理解图像内容的模型，然后将相应的编码图像内容“翻译”成自然句子。”腾讯的人工智能实验室技术人员解释说，这样的模型不仅需要深入理解图像，还需要自然语言，更重要的是，学习图像和自然语言之间的多模态交互。

人工智能描述图片来帮助视障人士“看”更多

要真正登陆，这项技术必须解决一个大问题，即用户上传的图片高度多样化。他们把星星送到海里，也把生活的细节发送出去。由于图片种类繁多，腾讯人工智能实验室的技术人员坦率地承认，有时候图片的自然句子描述并不特别准确。“这需要不断积累数据和不断提高算法的性能。两者相互促进，提高了算法的准确性。”

易接近性的锦上添花

事实上，就在几年前，“信息无障碍”对国内互联网公司来说还是一个奇怪的概念。

当时，《科技日报》的一名记者采访了信息无障碍产品联盟秘书长梁振宇。他说，对于互联网产品团队来说，每个问题都有优先权。“无障碍优化”似乎有一些次要的需求，有时被搁置一边。

“在过去的两年里，社会各界都更加关注信息的可获取性。”刘彪表示，信息无障碍研究会已经与百度、腾讯以及阿里旗下的各种产品建立了合作关系。至少，主流互联网公司现在知道什么是无障碍，如果条件允许，他们愿意为之努力。

QQ空的产品团队表示，从2014年开始，在信息无障碍技术方面，手机QQ空不断优化其在朋友动态、新闻和个人主页等核心场景的体验。它视信息无障碍为每个功能发布的必要特征，坚持解决每个版本中的一些问题，从内部测试阶段就邀请视障用户参与产品评估，然后根据反馈的建议和意见不断优化版本。"让QQ空更好地服务于残疾用户，为残疾人提供舒适的社交体验."

人工智能描述图片来帮助视障人士“看”更多

为了使信息无障碍，事实上，它不需要尖端技术。刘彪表示，如果开发商了解用户的需求，并按照一定的规格设计和开发APP，产品将“信息无障碍”，从而惠及视障用户。另一方面，人工智能可能是锦上添花。

“语音输入使我们的输入更加高效。光学字符识别文本识别使我们能够“识别”药瓶上的文字。那些改变你生活的应用程序也提高了我们的生活质量。”刘彪也在使用智能家居产品，如智能扬声器。“当我们过去使用诸如空音频和洗衣机等家用电器时，我们习惯于按记忆按钮。有了人工智能技术，我们就可以进行语音控制，省去这些麻烦。”他警告说，“一些智能家庭有手机应用程序控制功能，这些应用程序也应该注意无障碍优化。”(张格伦)

标题：人工智能描述图片来帮助视障人士“看”更多

地址：http://www.longtansi.com.cn/news/892.html