Como mandar áudio para o Memo (transcrição automática)

3 min de leitura·Atualizado em maio/2026

O Memo aceita mensagens de áudio. O sistema transcreve automaticamente para texto usando IA especializada e responde como se você tivesse digitado.

A transcrição é feita pelo Whisper, modelo de IA da OpenAI especializado em reconhecimento de voz, com excelente qualidade em português brasileiro. Você pode usar áudio livremente — não há custo adicional para sua loja.

Quando usar áudio

Áudio funciona melhor para:

Perguntas longas com vários detalhes ("vendi quanto essa semana? como ficou comparado com a semana retrasada? em que dia a venda foi melhor?")
Ideias soltas que você quer organizar ("estou pensando em fazer uma campanha de Dia das Mães com foco em joias e cosméticos, quero começar segunda da semana que vem")
Brainstorming de campanha
Quando você está em deslocamento e digitar não é prático

Texto funciona melhor para:

Perguntas curtas ("vendas hoje", "ticket médio")
Comandos rápidos ("me lembra amanhã 9h")
Quando você precisa de resposta em segundos

Como funciona internamente

Quando você envia um áudio:

O WhatsApp entrega o arquivo de áudio para o ShopIA
O Memo transcreve para texto via Whisper (latência típica: 2 a 5 segundos)
O texto transcrito passa pelo mesmo fluxo de uma mensagem de texto comum
A resposta é enviada normalmente

O áudio original fica armazenado pelo WhatsApp. O ShopIA guarda apenas a transcrição em texto, junto ao histórico de conversa.

Boas práticas para áudios mais bem transcritos

A qualidade da transcrição é alta, mas algumas práticas ajudam:

Grave em ambiente silencioso quando possível. Ruído de moto, mercado ou multidão dificulta a transcrição.
Fale em ritmo natural. Não precisa pronunciar devagar ou em tom artificial.
Evite trechos longos sem pausa. Áudios acima de 2 minutos podem perder precisão. Prefira dividir em mensagens menores.
Diga nomes próprios com clareza. Nomes de produtos, marcas e categorias específicas se beneficiam de pronúncia explícita.

Limitações

Idioma. A transcrição é otimizada para português brasileiro. Outros idiomas podem ser transcritos com qualidade reduzida.
Tamanho do áudio. Áudios acima de 5 minutos são truncados em 5 minutos. Prefira mensagens mais curtas e diretas.
Conteúdo musical ou efeitos sonoros. O Whisper transcreve apenas voz humana. Se você gravar áudio com música de fundo alta, a fala pode ser captada com ruído.

Como saber se a transcrição saiu correta

O Memo nunca exibe a transcrição literal antes de responder — para manter a conversa fluida. Se você notar que a resposta dele não bate com o que você pediu, pode acontecer uma das duas situações:

A transcrição saiu com erro (reformule a pergunta em texto)
A pergunta foi ambígua (esclareça com mais contexto)

Em qualquer caso, basta enviar uma mensagem de texto explicando o que você queria de fato.

Privacidade

O áudio é processado pela OpenAI (provedora do Whisper) sob contrato de privacidade.
A transcrição não é usada para treinar modelos da OpenAI (cláusula contratual aplicada pela ShopIA).
O áudio original fica no WhatsApp; o ShopIA guarda apenas a transcrição em texto, junto à mensagem.

Áudio no Otto

Esta página cobre apenas o Memo (Canal 1, ShopIA → você). O Otto, que envia automações para seus compradores, não recebe áudios — automações são templates de texto previamente configurados.

Veja também

Este artigo foi útil?

Sua resposta ajuda a melhorar a Central de Ajuda.

Tenho outra dúvida →