terça-feira, 27 de novembro de 2012

Como funciona o reconhecimento de voz


O processo de conversão de palavras faladas em uma forma que é legível por máquina é denominado como o reconhecimento de voz. O sistema de reconhecimento de voz tem encontrado muitas aplicações no mundo de hoje techno-savvy. Ela é usada em vários campos, como saúde, militar, comercial, transcrição jurídica, etc, sobre a base do vocabulário e do número de usuários, sistemas de reconhecimento de voz são classificados em pequeno vocabulário / muitos usuários e vocabulário Grande / limitada usuários. A tecnologia de reconhecimento de voz é também classificada como o reconhecimento de voz discreto e sistemas de reconhecimento de fala contínua. Nos sistemas de reconhecimento de fala discretos, o ditador tem que fazer uma pausa depois de cada palavra pronunciada. O sistema de reconhecimento de voz contínua entende as palavras que são ditas de uma maneira normal.

Como funciona o reconhecimento de voz

Quando uma pessoa fala, as vibrações são criadas. A tecnologia de reconhecimento de voz converte estas vibrações, isto é, os sinais analógicos em forma digital por meio de um conversor analógico-para-digital (ADC). Digitalização de som tem lugar por sua medição em intervalos regulares. O som é filtrado em bandas de frequências diferentes e normalizados, de modo que ela atinge um nível de volume constante. É verificado se os jogos de som com os modelos de som já armazenados.

O próximo passo no procedimento de reconhecimento de fala, divide os sinais analógicos em segmentos que vão desde alguns centésimos de milésimos de segundo. Estes segmentos são combinados com os fonemas que já estão armazenados no sistema. Fonemas são sons específicos que são entendidos por pessoas que falam uma língua particular.

Os sistemas de modelagem estatística, que utiliza sistemas matemáticos e probabilidade, desempenham um papel importante nos sistemas atuais de reconhecimento de fala. Estes sistemas são utilizados para determinar ou prever o resultado após um fonema. Torna-se mais fácil de prever onde uma determinada palavra começa e termina. O modelo oculto de Markov e Redes Neurais são os dois sistemas de modelagem estatística, fora que o primeiro é o comumente usado.

O resultado depois de uma determinada palavra em uma frase depende do vocabulário do sistema de reconhecimento de voz. É difícil mesmo para um computador para determinar o resultado possível depois de um fonema, devido ao grande número de palavras em um idioma. Assim, é necessário "treinar" o sistema de reconhecimento de fala. Falando no sistema de ajuda no treinamento. Uma vez que o utilizador começa usado com o sistema, torna-se fácil para o sistema para determinar o resultado possível depois de uma determinada palavra ou um fonema.

Gramática Reconhecimento de Fala

Ela é um conjunto de padrões de palavras que dirigem o sistema de reconhecimento de fala para responder a uma voz humana. Gramática de reconhecimento de voz responde às chamadas feitas por seres humanos de uma forma pré-definida.

Reconhecimento de Fala discretas e contínuas

No software discreto de reconhecimento de fala, o usuário tem que falar que uma pausa entre cada palavra. O software de reconhecimento de fala contínua no entanto, detecta palavras que são ditas a uma taxa normal. Os arquivos de voz que são armazenados no software discreto de reconhecimento de fala contêm informações sobre os estilos de pronúncia do usuário.

É importante para familiarizar o sistema de reconhecimento de voz com a voz do usuário para obter melhores resultados. No entanto, não se deve esperar 100% de precisão com essas tecnologias, porque os tons e da forma como uma pronuncia uma palavra em particular, as mudanças de região para região. A tecnologia de reconhecimento de voz é uma invenção útil e atende às necessidades de muitas pessoas, incluindo pessoas com deficiência e uma tecnologia só pode melhorar com o tempo....

Nenhum comentário:

Postar um comentário