A Meta lançou um gerador de música alimentado por inteligência artificial, chamado de MusicGen. A ferramenta pode transformar uma descrição de texto em cerca de 12 segundos de áudio e, também, pode opcionalmente ser “dirigida” com áudio de referência, como uma música existente.
A Meta diz que o MusicGen foi treinado em 20 mil horas de música, incluindo 10 mil faixas licenciadas de “alta qualidade” e 390 mil faixas somente de instrumentos do ShutterStock e Pond5, uma grande biblioteca de mídia.
Leia Mais:
- Google lança ‘AI experimental’ para gerar músicas
- TuneCore fecha parceria com Grimes e estúdio de inteligência artificial
- Deezer desenvolve recursos para detectar músicas feitas por inteligência artificial
Segundo o TechCrunch, a empresa não forneceu o código usado para treinar o modelo, mas disponibilizou modelos pré-treinados que qualquer pessoa com o hardware certo – principalmente GPU com cerca de 16 GB de memória – pode executar.
Mas, como funciona o MusicGen?
De acordo com o TechCrunch, as suas músicas são razoavelmente melódicas, pelo menos para prompts básicos como “música ambiente” e no mesmo nível do gerador de música AI do Google, MusicLM.
O TechCrunch ainda ressalta que as principais questões éticas e legais ainda precisam ser resolvidas. IA como o MusicGen “aprende” com a música existente a produzir efeitos semelhantes, um fato com o qual nem todos os artistas – ou usuários de IA generativa – se sentem confortáveis.
A Meta, que não está impondo restrições sobre como o MusicGen pode ser usado. A empresa diz que todas as músicas nas quais a ferramenta foi treinada estavam “cobertas por acordos legais com os detentores dos direitos”, incluindo um acordo com a Shutterstock.
MusicLM do Google
A entrada da Meta no mundo da inteligência artificial de conversão de texto em música marca um momento significativo neste espaço em rápida evolução, com a empresa se tornando a mais recente gigante da tecnologia, depois do Google, a desenvolver seu próprio modelo de linguagem que pode gerar novas músicas a partir de prompts de texto.
O Google lançou o MusicLM, uma ferramenta de ‘inteligência experimental‘ que pode gerar música de alta fidelidade a partir de prompts de texto e zumbidos, em janeiro, e a disponibilizou no mês passado.
O Google explica que, no nível de uso público, sua ferramenta MusicLM funciona digitando um prompt como “jazz cheio de alma para um jantar”.
Segundo o Music Business Worldwide, o modelo MusicLM criará então duas versões da música solicitada para a pessoa que inseriu o prompt, que o usuário pode escolher a que prefere. O modelo do Google foi treinado em cinco milhões de clipes de áudio, totalizando 280 mil horas de música a 24 kHz.