A startup Modulate está testando algoritmos que são capazes de alterar a voz de uma pessoa em chats por voz. Apesar de ter sido criada com o objetivo de funcionar como um recurso de entretenimento em jogos online, ela passou a ser vista como uma potencial ferramenta de privacidade.
Além do estilo do jogo e a história por trás dele, um dos recursos que mais atrai o público e gera receita para as empresas desenvolvedoras são as skins. A ideia da Modulate foi ir além das roupas e itens para incrementar um personagem e oferecer “voice skins”.
Por enquanto, a tecnologia ainda está sendo testada com algumas empresas e jogadores. Uma das propostas é que cada participante em um jogo ou comunidade receba uma voice skin de acordo com seu personagem, seja um monstro ou uma guerreira. A outra opção seria atribuir as vozes de forma aleatória.
Em junho deste ano, a Modulate lançou duas vozes em um preview do aplicativo Animaze, que transforma os usuários em avatares digitais durante livestreams ou chamadas de vídeo.
Segundo a Holotech Studios, desenvolvedora do app, o novo recurso permite que a sua voz se adapte melhor a um personagem de acordo com diferentes características, como idade e gênero, além de funcionar como uma ferramenta de privacidade.
Deepfakes podem ajudar a reduzir hostilidades em bate-papo por voz
Durante os testes do novo recurso de voice skins realizados pela Modulate, mais de 100 participantes questionaram a empresa se a tecnologia poderia reduzir a disforia causada pela incompatibilidade entre suas vozes e identidades de gênero.
A partir desse feedback, a empresa percebeu o potencial dos algoritmos para proteger jogadores que são vítimas frequentes de ofensas e assédio em comunidades online.
De acordo com um estudo da organização Anti-Defamation League, quase metade dos jogadores sofrem algum tipo de agressão por chats de voz, mais do que por mensagens de texto. Além disso, os ataques costumam ser direcionados a grupos e indivíduos específicos.
Cerca de 53% dos jogadores que sofreram algum tipo de assédio foram alvos de ataques devido a sua raça/etnia, religião, deficiência, gênero ou orientação sexual. Mais especificamente, 41% das jogadoras mulheres e 37% dos gamers LGBTQ foram vítimas de agressões com base em seu gênero e orientação sexual.
Diante desse cenário, embora a tecnologia da Modulate não possa solucionar o problema, ela ajudaria esses grupos a participar de salas de bate-papo por áudio sem o receio de sofrerem ataques devido à sua voz.
Por outro lado, a tecnologia também pode ser utilizada com propósitos contrários ao que a empresa deseja. Ao mascarar a voz de uma pessoa, os algoritmos podem servir como uma ferramenta para proteger a identidade de fraudadores e aqueles responsáveis por assédio e outros tipos de agressão.
A Modulate afirma que está ciente deste risco e que está levando isso em consideração durante os testes. Atualmente, a empresa já oferece às desenvolvedoras de jogos um software que identifica sinais de abusos em chats de voz e notifica automaticamente os moderadores.
Como funciona a tecnologia de deepfake
O termo “deepfake” é a junção de “deep learning” e “fake”. Ou seja, refere-se ao uso da tecnologia de deep learning para criar vídeos, imagens ou áudios falsos.
Da mesma forma, as voice skins da Modulate utilizam algoritmos de machine learning para ajustar os padrões de áudio da voz de uma pessoa para que ela pareça alguém diferente ao falar.
Os algoritmos da empresa são treinados a partir de áudios de centenas de atores lendo roteiros que foram criados com o objetivo de fornecer uma ampla variedade de entonações e emoções.
A partir da coleta desses dados, os algoritmos são ajustados a fim de replicar o som de um ator específico e, assim, é criada uma voice skin.