Искусственный ум научился хорошо распознавать речь посреди шума

    Виртуальные помощники и системы определения голоса довольно ладно научились «узнавать» то, что им же разговаривает человек, и делать его команды. Однако для корректной работы тамошних же Siri и Cortana сторонний шум готов стать объемной неувязкой. Совладать с данной технической недоработкой умеют посодействовать специалисты предприятия Митсубиши Electric, кои предположили новейшую технологию выделения речи единого человека из общего шума.

    Разработка японской предприятия получила заглавие Deep Clustering, функционирование которой возведено на принципах машинного исследования. Искусственный ум для начала научился без помощи других выделять речь единого человека из общего потока разнообразных звуков и шумов. Нейронная паутину делит входящие аудиоданные на разнообразные элементы и анализирует каждый в отдельности, после этого уже может возделывать глас человека. Аналогичная работа наблюдается и при «присоединении» двух и поболее собеседников.

    В процессе демонстрации технологии японской предприятия система сумела удачно поделить речь двух человек, говорящих в один микрофон одно и то же предложение на различных языках. Вся обработка выполнялась в режиме настоящего времени, а уж заминка и не превосходила трех секунд. Точность определения составила 90 процентов, а уж когда в микрофон начали твердить три человека, процент «попадания» свалился перед началом 80, что тоже является оптимальным результатом. Как только говорят создатели проекта Энтони Ветро и Йохеи Окато,

    «В отличие от выделения речи из фоновых шумов, выделение речи единого человека из «голосового» шума говорящих сразу граждан является сложнейшей задачей, потому что у звуков голоса различных граждан имеется толпа индивидуальностей. В большинстве систем задачка зонирования голоса решается с помощью инсталляции двух либо заглавного количества микрофонов, однако в случае пользования всего единого микрофона, с задачей зонирования голоса может совладать лишь искусственный ум. Применять эту технологию можно там, где требуется высочайшая точность определения голосовых сообщений. К примеру, в системах голосового руководства авто, лифтами, бытовыми и иными электрическими устройствами».