Можно ли отфильтровать «междометия» / «жужжание» в MS Speech-to-Text?

Мы экспериментируем с транскрибированием видеоматериалов, используя (среди прочего) Microsoft Speech-to-Text (в частности, используя C # API). Результаты, которые мы получаем от Microsoft, часто содержат много «междометий» / «гудения» (неуверенных в правильности здесь термина), таких как «хмм», «гм» ​​и т. Д., В то время как другие провайдеры, кажется, отфильтровывают их автоматически , В некоторых случаях может быть целесообразно включить их в результаты, но в других настройках было бы неплохо, если бы был способ настроить SpeechRecognizer для их исключения. Есть ли способ сделать это?

Всего 1 ответ


Наш бэкэнд-движок обладает этой способностью. Однако в настоящее время это не публично задокументировано, и я не уверен, как вы отправите этот выбор от клиента в службу. Прямо сейчас это настройка по умолчанию для некоторых конечных точек, но не для других («поиск в интернете» в отличие от «диктовки»).

Мне нужно будет поговорить с одним из наших сервисных инженеров, чтобы узнать, возможно ли динамически изменить это с клиента, и получить ответ с лучшими ответами.

Благодарность,

Брайан.


Есть идеи?

10000