Guia Técnico: Instalação Local do SoniTranslate com Aceleração por GPU (Linux e Windows)
Este guia apresenta os passos para configurar e executar o SoniTranslate, incluindo aceleração por GPU e preparação do ambiente tanto no Linux quanto no Windows.
Pré-requisitos para Instalação
Antes de iniciar a instalação do SoniTranslate, certifique-se de que os seguintes softwares e cadastros estejam concluídos:
- Miniconda – Gerenciador de ambientes Python (não é necessário instalar o Python manualmente)
- Git – Controle de versões para clonar o repositório do projeto
- Drivers NVIDIA CUDA 11.8 – Requeridos para uso de aceleração por GPU (NVIDIA)
- Conta Hugging Face – Crie uma conta para obter o token de acesso e aceitar termos obrigatórios
- Aceitar Termos do Pyannote - Speaker Diarization – Necessário para uso do modelo de separação de falantes
- Aceitar Termos do Pyannote - Segmentation – Necessário para uso do modelo de segmentação de áudio
- FFmpeg – Utilitário de linha de comando para processamento de áudio e vídeo
Observação: o Miniconda já instala o Python automaticamente, não é necessário baixar o Python separadamente do site oficial.
Passo a Passo da Instalação
1️⃣ Criar e ativar ambiente Conda
conda create -n sonitr python=3.10 -y
conda activate sonitr
python -m pip install pip==23.1.2
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
2️⃣ Clonar o repositório e acessar a pasta
git clone https://github.com/r3gm/SoniTranslate.git
cd SoniTranslate
3️⃣ Instalar dependências obrigatórias
pip install -r requirements_base.txt -v
pip install -r requirements_extra.txt -v
pip install onnxruntime-gpu
4️⃣ Instalar o FFmpeg (manipulação de áudio e vídeo)
No Windows:
- Acesse: https://ffmpeg.org/download.html
- Clique em Windows Builds by gyan.dev
- Baixe o arquivo ZIP da versão mais recente
- Extraia o conteúdo para
C:\ffmpeg
Configurar o PATH do Windows:
- Acesse: Editar variáveis de ambiente do sistema
- Na seção Variáveis do sistema, selecione Path e clique em Editar
- Clique em Novo e adicione:
C:\ffmpeg\bin
Abra o Prompt de Comando e teste:
ffmpeg -version
No Linux:
conda install -y ffmpeg
Executando o SoniTranslate
conda activate sonitr
export YOUR_HF_TOKEN="SEU_TOKEN_HUGGING_FACE"
python app_rvc.py
Acesse http://127.0.0.1:7860
no navegador.
Configuração Permanente do Token (Windows)
conda activate sonitr
conda env config vars set YOUR_HF_TOKEN="SEU_TOKEN"
Argumentos Adicionais
Exemplo de execução personalizada:
Execução Automática via Arquivo .bat (Windows)
No Windows, você pode criar um script de atalho para executar o SoniTranslate com as configurações corretas, sem precisar digitar comandos manualmente toda vez.
Passos para Criar o Arquivo .bat:
- Abra o Bloco de Notas ou outro editor de texto
- Copie o conteúdo abaixo e cole no editor:
@echo off
REM ===============================================
REM Script de inicialização do SoniTranslate
REM Autor: Rafael Saraiva
REM ===============================================
REM Ativa o ambiente Conda "sonitr"
call "C:\miniconda3\condabin\conda.bat" activate sonitr
REM Garante o uso do FFmpeg correto (com libmp3lame)
set "PATH=C:\ffmpeg\bin;%PATH%"
REM Acessa a pasta onde o projeto SoniTranslate está localizado
cd /d "C:\Users\Rafael Saraiva\SoniTranslate"
REM Aguarda 10 segundos (tempo para carregar dependências, opcional)
timeout /t 10 >nul
REM Abre o navegador no endereço local da interface web (Gradio)
start "" http://127.0.0.1:7860
REM Executa o script principal com modo CPU e idioma português
python app_rvc.py --cpu_mode --language portuguese
REM Mantém o terminal aberto após a execução
pause
pause
- Salve o arquivo com o nome, por exemplo:
Iniciar_SoniTranslate.bat
- Dê um duplo clique no arquivo sempre que quiser iniciar o SoniTranslate automaticamente
Este script realiza:
- Ativação do ambiente Conda
sonitr
- Configuração do
FFmpeg
no caminho do sistema - Abertura automática do navegador no endereço
http://127.0.0.1:7860
- Execução do SoniTranslate já configurado no idioma português e em modo CPU
O terminal permanecerá aberto após o término, útil para visualizar logs ou mensagens.
Parar, Desativar e Desinstalar o SoniTranslate
🛑 Parar a Aplicação Temporariamente
Para encerrar a execução do SoniTranslate, pressione Ctrl + C
no terminal onde o script app_rvc.py
estiver rodando:
Ctrl + C
conda deactivate
Isso irá interromper a execução atual e desativar o ambiente sonitr
, mas os arquivos e configurações continuarão salvos no sistema.
♻️ Reinstalação Completa (Remover o ambiente Conda)
Se você deseja apagar completamente o ambiente virtual com todas as bibliotecas instaladas:
conda deactivate
conda env remove -n sonitr
Esse comando remove o ambiente sonitr
, mas a pasta do projeto SoniTranslate
ainda estará no seu disco.
🧹 Desinstalar Tudo (inclusive arquivos do projeto)
Para apagar completamente o projeto e o ambiente virtual:
conda deactivate
conda env remove -n sonitr
rmdir /s /q "C:\Users\Rafael Saraiva\SoniTranslate"
⚠️ Atenção: o comando rmdir
remove a pasta inteira do projeto permanentemente, sem confirmação.
Após isso, será como se o SoniTranslate nunca tivesse sido instalado em sua máquina. Ideal para começar do zero em caso de problemas na instalação ou testes.
🔊 Instalação Opcional: Recursos de Voz (TTS)
Se desejar adicionar recursos de síntese de voz (TTS - Text To Speech) ao SoniTranslate, siga as instruções abaixo. Esses recursos permitem gerar vozes realistas a partir de texto e até mesmo realizar clonagem de voz.
✔️ Piper TTS
O Piper TTS é um sistema de síntese de voz rápido e local. Embora seja otimizado para dispositivos como o Raspberry Pi 4, também funciona em computadores convencionais.
pip install -q piper-tts==1.2.0
✔️ Coqui XTTS
O Coqui XTTS permite gerar vozes realistas em diversos idiomas e até clonar vozes com apenas um pequeno trecho de áudio. Ideal para personalizar saídas de áudio ou experimentar diferentes estilos de fala.
pip install -q -r requirements_xtts.txt
✔️ TTS Biblioteca Principal
Para que o Coqui XTTS funcione corretamente, é necessário instalar a biblioteca principal de TTS na versão recomendada:
pip install -q TTS==0.21.1 --no-deps
Observação: Essas etapas são opcionais e não afetam o funcionamento básico do SoniTranslate. Instale apenas se deseja utilizar funcionalidades de geração ou clonagem de voz.
Requisitos Mínimos e Recomendados de Hardware
Para obter bom desempenho com o SoniTranslate, especialmente ao utilizar aceleração por GPU, recomenda-se o seguinte:
✔️ Requisitos Mínimos
- Processador (CPU): Intel Core i5 de 6ª geração ou equivalente
- Memória RAM: 8 GB
- Placa de Vídeo (GPU): NVIDIA com suporte a CUDA 11.8 (ex: GTX 1060 ou superior)
- Espaço em Disco: 5 GB livres para instalação e arquivos temporários
✔️ Requisitos Recomendados
- Processador (CPU): Intel Core i7 ou AMD Ryzen 5/7
- Memória RAM: 16 GB ou mais
- Placa de Vídeo (GPU): NVIDIA RTX série 20xx, 30xx ou superior (com drivers CUDA 11.8)
- Espaço em Disco: SSD com pelo menos 10 GB livres
⚠️ Observações Importantes
- O uso sem GPU (modo CPU) é possível, porém o processamento será consideravelmente mais lento.
- Placas AMD não são compatíveis diretamente devido à exigência do CUDA da NVIDIA.
- Para áudio em alta qualidade ou projetos longos, recomenda-se o hardware acima do mínimo.