O post de hoje talvez soe um pouquinho diferente.
Talvez tenha um texto um pouco diferente, mas tem uma boa razão para isso.
Acontece que eu quero que ele seja um pouquinho autodemonstrativo.
Veja bem. Artrite é uma coisa, né? É… Bem, eu escrevo tanto por hobby quanto por ocupação. Eu sou um artista no meu tempo livre. E eu também jogo muito videogame. Todas as coisas que eu amo fazer causam artrite.
E os meus dedos estão lentamente desistindo de mim, apesar de eu ter somente 30 anos.
… Mas nós vivemos em um mundo de tecnologia, e existem recursos. E eu já fiz muitos artigos sobre como inteligência artificial é “perigosa”, sobre como ela é uma ferramenta “amada por regimes repressivos“, e sobre como ela é um “golpe de marketing”, etc. etc.
Hoje eu queria dar uma chance a um dos usos da inteligência artificial que eu considero positivos, que é o reconhecimento de voz.
Esse artigo foi inteiro escrito ditando para inteligências artificiais diferentes, que realizam reconhecimento de voz e transcrição para texto, e depois só revisado no teclado.
Eu não acho que seja necessário descrever por que essa tecnologia é benéfica: ela não só ajuda pessoas como eu, que só abusaram demais dos dedos delas ao longo de vários anos – Mas pessoas com certas deficiências, que não têm os movimentos completos das mãos (seja em caráter permanente ou temporário, nem toda deficiência é permanente, ter um braço quebrado é uma ‘deficiência’ temporária), ou pessoas cegas.
É claro, se você tem acompanhado minha coluna, você sabe que eu não confio em corporações tecnológicas. Então, o meu primeiro instinto foi caçar um modelo de inteligência artificial que eu podia rodar localmente no meu computador, sob o meu controle total.
E de fato, encontrei dois aplicativos que que rodam inteligências artificiais de reconhecimento de voz localmente, um para computadores rodando Linux, um para celulares rodando Android.
Para celular Android, o aplicativo se chama FUTO keyboard. No Linux, o aplicativo se chama Speech Note, e ele age como uma interface gráfica para o modelo de inteligência artificial Whisper CPP.
A intenção também é testar como essas inteligências artificiais independentes se comparam com o reconhecimento de voz da Google, que vem integrado em todo o celular Android (e ao qual eu tinha acesso desde o começo, mas simplesmente não queria usar).
Afinal, para a maioria das pessoas, não faz muita diferença você estar se expondo a uma corporação. Então se a versão do Google é melhor, para que se incomodar em rodar uma versão local? Mas era um interesse meu, então eu tinha que testar… E eu fui positivamente surpreso pelo que eu descobri.
A intenção sendo testar a qualidade dessas tecnologias de reconhecimento de voz, eu também vou disponibilizar um link no final da coluna para uma versão não revisada dos textos, com todos os erros, todas as falhas minhas e da IA em dizer algo de valor, e faltando coisas nas quais eu só pensei depois.
Anglocentrismo, placas de vídeo e gigabytes, os testes com o WhisperCPP.
Eu imaginei que, naturalmente, a versão que roda em um computador de torre, com todo o poder computacional a que ele teria acesso, seria melhor do que a versão que roda em um celular, certo?
Bem, esta foi talvez a maior surpresa desta pequena experiência que fiz. Porque, na verdade, a versão do computador é infinitamente mais difícil de usar, é menos confiável, e além disso é mais lenta.
Sobre a dificuldade de usar, eu não só precisei instalar o aplicativo. Eu também tive que baixar os modelos de inteligência artificial separadamente – Pacotes de vários gigabytes que tinham de ser baixados e então colocados na pasta certa para serem detectados pelo programa. – Esse é o tipo de coisa que é fácil para mim, mas uma pessoa pessoa com menos experiência com computadores não teria nenhuma chance de fazer funcionar; Ou seja, se fosse para usar, iria depender de outra pessoa para configurar para ela.
Não que isso signifique que o WhisperCPP não funciona ou não cumpre o que promete:
Ele funciona sim! Não só reconhece o que estou dizendo, mas detecta as minhas pausas e estrutura das frases, e automaticamente adiciona pontuação e parágrafos.
Claro, ele segue a própria lógica para fazer isso, então eu provavelmente vou ter que revisar um monte de coisas nesse sentido também, e independentemente disso, o texto vai ter uma personalidade diferente de um texto escrito por mim no teclado, porque a cadência de como eu falo é completamente diferente de como eu escrevo(e isso é verdade para todo mundo).
Mas então vem a parte frustrante. WhisperCPP é leeeeeeeeeeeeeeeeeeeento.
Ele é muito lento. Depois de ouvir o que eu digo, ele fica cerca de 40, 50 segundos só mostrando uma mensagem de “processando, aguarde” antes de cuspir o texto.
E tudo isso em um processador de 12 núcleos, com aceleração de hardware habilitada na GPU.
Talvez as coisas fossem diferentes se minha placa VGA fosse da NVIDIA. Ouvi dizer que as placas NVIDIA são melhores para IA do que as da AMD.
Mas eu não compraria outra placa de vídeo para um experimento como este, obviamente. É literalmente a peça mais cara do computador.
E talvez a coisa mais bizarra seja a obsessão da IA com a língua inglesa. Eu já esperava que fosse melhor em entender o inglês. Os modelos treinados na língua inglesa são muito mais “experientes”, por assim dizer.
Eles têm muito mais horas de treinamento, muitos mais milhões de frases processadas, então eles são, de fato, mais inteligentes.
Aliás, quando eu falo em inglês. Ele entende tudo o que eu digo, mesmo com o meu sotaque estrangeiro e pronuncia de pessoa-cujo-inglês-é-a-segunda-língua.
Ele de fato comete muito mais erros em português, precisando de muito mais “atenção”. Especialmente considerando que eu estou falando de tecnologia: Ou seja, tem muitos estrangeirismos no meio. E ele as vezes se confunde quando encontra uma palavra em inglês no meio das palavras em português.
Tudo isso eu já estava esperando – O que eu certamente não imaginava que fosse acontecer, é que aleatoriamente ele começaria a traduzir tudo o que eu falava para inglês, sem eu pedir(!). Isso mesmo, eu falava em português, e ele entendia, mas cospia o texto que eu havia falado, só que traduzido para o inglês. Muito estranho. E mais estranho ainda, eu ditei para ele um discurso raivoso sobre eu ter que traduzir tudo de volta pro português e ter um trampo do cacete…
… E essa parte ele escreveu em português (ainda que com vários erros) – E em seguida botou um “thank you” em inglês, que ninguém tinha falado.
… Sabe. Eu às vezes digo, meio-brincando, que toda máquina que é operada pela mesma pessoa por dez ou mais anos desenvolve uma “alma”, uma vontade própria. Eu acho que meu computador está me trolando nesse momento.
Então, em outras palavras, eu baixei 6 Gigabytes e passei uma tarde configurando coisas – E vou ter que passar mais tempo revisando esse texto do que teria passado escrevendo ele se fosse escrever ele manualmente.
Decepcionante. Mas vamos agora à uma surpresa positiva que eu tive.
Boas coisas em pequenos pacotes. Futo Keyboard.
A vida às vezes é irônica. Um computador que custou uma fortuna, que eu tenho mantido com carinho faz uns 10 anos – E ele me decepcionou nesse quesito.
Mas o meu celular que cabe na palma da minha mão, funcionou, tipo, muito melhor.
O sistema de ditado do Futo Keyboard baixou um pouco mais de 1 gigabyte pro meu celular – O que não é pouca coisa, mas também não é nada insano nos dias de hoje, o aparelho tendo 128Gb de armazenamento. E ele parece funcionar muito melhor do que o WhisperCPP, que ocupou seis vezes o espaço. O processamento é mais rápido, e ele comete menos erros (e não aleatoriamente traduz coisas sem eu pedir).
É claro, ele também tem suas limitações: A principal sendo que você só pode ditar de 30 em 30 segundos. A cada 30 segundos ele para de te escutar para ter que processar o que você falou.
… Mas isso é um defeito pequeno na prática, porque na verdade, ninguém fala por um minuto sem parar nenhuma vez (exceto locutores esportivos e TikTokers).
Todo mundo faz uma pequena pausa para respirar. E quando você faz essa pausa, é a hora certinha para você dizer para o celular: “Eu vou ficar quieto um pouquinho. Você pode pensar aí.” – Inclusive porque o processamento do FUTO keyboard é rapidinho. Você fala 30 segundos, e em menos de 3 ele te dá o resultado por escrito.
Eu ainda vou ter que revisar muita coisa do que foi escrito pelo FUTO keyboard. Especialmente coisas tipo pontuação, capitalização, etc.
…. Mas ainda assim – nossa! – Foi uma surpresa positiva enorme.
E ele funciona tão bem em português quando funcionem em inglês, e não aleatoreamente começa a traduzir minhas coisas pro inglês (sério, eu não vou superar isso tão cedo).
… E além de tudo ele foi fácil de instalar, eu só tive que baixar um APK e mandar instalar no celular. Fazer umas configurações básicas para ativar o aplicativo… E ele só. Funcionou, não tive que fazer mais nada.
A “pílula mágica”? A inteligência artificial do Google
É claro, eu tinha prometido que eu ia testar a inteligência artificial do Google contra as inteligências artificiais locais que eu estava testando. E eu estava pronto para dizer “é, mas para pessoas normais que não têm a mesma paranóia que eu, vale só usar o Google, ele funciona igual”.
Não foi isso que aconteceu. Essa sessão é escrita usando a inteligência artificial do Google. E ela é… Decepcionante.
A principal vantagem da Inteligência Artificial do Google é que todo o processamento acontece no servidor deles, então independente se você tem um computador bom, ou um celular bom (eu não especifiquei, mas bem, meu celular é um modelo desse ano, imagino que num celular de 2014, como muita gente ainda usa, a experiência do FUTO keyboard deve ser bem pior) – Você não precisa baixar nada. Tudo acontece lá, e é mandado de volta pronto.
Mas a verdade observada é que a inteligência artificial deles é menos esperta do que a inteligência artificial usada pelo FUTO keyboard.
Isso mesmo! Apesar dela acertar 99% das palavras que eu falo… Ela não detecta pontuação, não detecta quebra de parágrafo, nada. Ela simplesmente escreve tudo que você fala como uma enorme sentença não-formatada – E aleatoriamente insere umas letras maiúsculas no meio (não parece haver nenhuma lógica para quais palavras são escritas começando com letra maiúscula)
A promessa das corporações tecnológicas – É de transformar a tecnologia numa espécie de “pílula mágica”. Você não precisa pensar no que está acontecendo. Toda a magia da ciência acontece lá no servidor deles. Você só pede para o computador fazer as coisas para você e espera o resultado.
… E apesar disso, o que melhor funcionou para mim foi uma inteligência artificial desenvolvida num Fundo de Quintal, por uma meia dúzia de pessoas aleatórias, que roda em um aparelho celular, e cuja licença de uso tem exatamente uma cláusula – que proíbe que você use ela para propósitos comerciais. Fora isso permitindo a alteração, modificação, e redistribuição livre do código.
E ela precisou de relativamente pouca configuração pra sair usando (… Enquanto uma outra, também feita comunitariamente, levou horas pra configurar e me decepcionou enormemente)
Eu novamente falei/escrevi um monte e eu não tenho uma conclusão satisfatória para fazer aqui.
Eu só queria mostrar os resultados do meu experimento, compartilhar as surpresas que eu tive – E lembrar que, apesar de tudo que eu falo em outros posts, realmente existem usos positivos para a inteligência artificial, se operada direito.
E como prometido, um link para a versão não-revisada do texto, mostrando exatamente o que as diferentes IAs expeliram (aviso: Contém vários erros, formatação ruim que dificulta leitura, e inglês aleatório)
Escrito por Vitor Germano para o Maringá Post
Sugestões? Críticas? Perguntas? Fale comigo no e-mail [email protected]
Comentários estão fechados.