家人智能:AI+音频弥补视频监控短板,“耳闻目睹”守护安全

2020-11-03 11:05:17 作者: 家人智能:A

   2017年12月14日下午6:00左右,乐山女子王某如往常一样外出夜跑,但并未按时回家。让人没有想到的是7天后,警方在绿心公园一处偏僻的竹林下面发现了遇害的王某。警方勘察后发现,通过街边的监控录像显示,王某最后在唐湾附近出现过,当时时间是6:23,此后便再无录像记录。

  2020年9月14日晚,广东揭阳普宁市发生一起抢劫猥亵单身女高中生事件。男子欲对一名独自骑车回家的女高中生实施抢劫,因天色较晚,路上车辆以及行人并没有回应女孩呼救。案件发生后,普宁警方通过调取监控,锁定了犯罪嫌疑人。

  社会安全问题正如人性的弱点一样不可琢磨、不可完全压制,但家人智能认为,在当今不计其数的社会安全解决方案中,一种让人们在遇到危险的时候用于自救求助,并可以在最短时间内获得帮助的方法将在生活中挽救更多身处于危险的人们。

  社会百态——遇到危险喊救命还管用么?

  自媒体行业兴起,有太多的公众号文章、视频告诉我们:走夜路要尽量走在有摄像头的马路上,要学会防身术招式以备一招制敌,被歹徒拖拽要挣扎并破坏路边门市店铺的设施以求帮助。为什么传统的“喊救命”,放在现在好像“没那么好用“了?

  而从个人能力的角度出发,施救者并不足以有对抗歹徒的能力,所以选择先保护好自己再帮助报警,等待警察到来的方式,久而久之,就会产生就算喊“救命”也不会获得帮助的感觉。总结多起社会安全事件的发生地点来看,很多案件都是发生在较为偏僻的城市角落,人烟稀少,受害者大声呼喊也许真的不会被路人听见。并且,绝大多数的视频监控,并没有音频收音的功能,大喊救命,回应者寥寥。

  在当下的智慧城市建设中,虽然视频监控仍然是社会安全保护的“主力军”,但能够听取到呼救声的音频设备作为智慧城市中的空白,已暴露出单一视频监控的短板:在危险突发时,单一视频监控的后台工作人员往往因不能够实时监控屏幕及时发现情况,导致监控视频只能起到记录现场状况、用于事后追溯的用途。因此,搭载音频功能的监控设备将及时收取到现场声音,在第一时间引起安防人员重视,再配合视频监控查看现场状况迅速处理,才能够全方位的监控现场。

  家智哨卫——耳闻目睹,守护安全

  虽然路边的“天眼”、“监控摄像头”能快速地为侦查破案提供帮助,但是为了更进一步从源头上有效遏制犯罪行为的发生,视频监控设备已经不能满足需求。因此,家人智能专注深耕户外场景,基于自主采集的户外声音数据和自主研发的多重户外深度学习算法,首度研发出通过AI技术识别异常声音并自动报警的设备,将AI能力赋予治安防控工程前端设备。这种户外AI音频识别设备与已成熟建设的视频监控设施联动,最大程度遏制暴力事件发生,真正做到没有漏报。

  家人智能“哨卫”系列AI音频报警设备全天候监控5-10米范围内声音,一旦监测到“救命”、“抢劫”、“报警”等呼救类关键词,设备立刻自动报警并声光震慑,同时安保人员可通过设备实时对讲驱离歹徒并与报警人沟通,不仅可以实时报警还能及时中止犯罪行为,可有效解决传统监控手段下,呼救听不到、报警按键按不到、监控视频看不全的“三不”难题,将事后追溯转变为事前预警及事中干涉。

  

 

  市场上有众多关于音频的电子智能设备,但是几乎无人去做针对于户外报警的音频设备,说明其中暗藏的“玄机”具备了极大的技术挑战。家人智能户外AI+音频报警设备——哨卫,直面“户外”、“远距离”、“短词”三大音频识别研发难点。

  1. 短词

  无论是从训练还是从识别的角度来说,识别目标词越长,特征信息越丰富,越容易获得较高的唤醒率和准确度。相比市场上绝大多数的智能音频产品的唤醒词,比如Amazon的“Alexa”,Apple的“Hey Siri”,百度的“小度小度”,小米的“小爱同学”等来说,在户外安防场景中,“救命”关键词是一个相对短促的多的人声信号,被侵犯人可能只有一次喊“救命”的机会,从复杂的户外声音环境中去准确识别,对于声音处理和算法来说是一个极大的技术挑战。

  

 

  2. 远距离

  在智能家居场景中,考虑到房屋格局等因素,智能音箱的识别距离大多在5米以内。所以我们通常认为的“远场声音识别”,通常是指这个距离范畴。然而对于户外音频识别场景来说,5米是一个相对来说刚刚够用的距离。更远的10米,甚至20米距离才是户外音频识别最期待的距离范畴。例如,已经在很多城市商业化落地的“非法鸣笛识别抓拍”场景中,产品的有效识别距离参数一般都在20-30米。

  但根据家人智能模拟测试结果表明:被侵犯人倾尽全力的一声“救命”,分贝值90db左右,经过长达10-20米的传播之后,声音的能量呈几何指数级下降,信噪比大幅降低。在城市路面周边、公园滨河路线、校园门口等底噪较大场所,声音远距离衰减尤为明显。因此想要在如此低的信噪比情况下准确识别出短促的“救命”等关键报警词语,是对算法和场景数据收集的双重挑战。

  3. 户外

  人工智能三大要素之一的“数据”,一直以来都是AI训练的瓶颈难题。如何精准的收集正样本数据,这对于户外音频识别来说,也是一个需要从0做起的工作。这里的正样本数据采集困难,不仅是必须采集来自于户外的“救命”等短促人声,还要覆盖尽可能多的户外场景。

  户外场景的多样性,包含位置的多样性,如路边、学校、车站等;包含发声者的多样性,如各个年龄段男女老幼、各地口音方言的发音等;包含环境的多样性,风雨雷电等声音;包含与拾音设备相对位置的多样性,距离、角度、高度等的不同声音数据。行业里没有任何一家公司拥有这样丰富和全面的语料数据库,这就需要尽可能多的覆盖所有场景去收集正样本,因此,这对户外音频识别来说,又是一个巨大挑战。

 1/2    1 2 下一页 尾页