谷歌AudioSet旨在发出声音,从咆哮到boings,搜索

谷歌研究人员希望AudioSet可以是“声音事件的一个全面的词汇表的起点”

肖像历史

谷歌研究人员已经发布了旨在促进创新的声音搜索的面积200万加标记音频片段的集合。

该公司本月早些时候公布的一份题为“AudioSet:一个本体论和人标记的数据集音频事件”它希望将与图像识别相结合,强化,可以在各种各样的机器学习应用,包括视频字幕,其中包括声音效果的自动化中全面搜索和识别能力。谷歌在该项目从去年开始工作。

谷歌已经开发了YouTube上的业务,收集标有500个多音类别,以创造200万个十秒钟的YouTube摘录(共计5800小时音频)其AudioSet。分类在较高水平,如人的声音和音乐开始,进而得到更具体的,比如吹口哨,音乐流派。

丹埃利斯,谷歌科学家,解释在一篇博客文章“我们决定使用10个第二声音片段作为我们单位,任何短变得非常困难隔离,以确定我们收集了我们每个班的候选片段由来自YouTube的视频,其元数据表示,他们可能包含有问题的声音采取随机摘录。(“狗吠声10小时”)。每个片段呈献给一个人的贴标机与一小部分类别名称进行确认(“你听到巴克?”)。随后,我们提出的片段,其内容是相似的例子这已经手动验证包含类,从而发现并没有从元数据发现的例子。”

埃利斯补充说:“通过发布AudioSet,我们希望能为音频事件检测常见的,现实的大规模评估任务,以及为声音事件的全面词汇的起点。”

更多:黑客可以使用隐藏的MAL-音频攻击谷歌现在

加入对网络世界的社足球竞猜app软件区Facebook的LinkedIn对那些顶级心态的话题发表评论。

版权所有©2017年足球竞彩网下载

IT薪资调查:结果是