
Felipe Iszlaji, CEO e fundador da Clarice.ai
Os dados funcionam como combustível das IAs, e o fato é que quase não existem mais dados para treiná-las, sendo uma barreira significativa para o seu progresso. Apesar de todos os avanços, a tecnologia precisa superar as limitações de dados para conseguir oferecer todo o seu potencial. Empresas como OpenAI, Google e Anthropic já enfrentam desafios de escassez de dados de qualidade para treinar seus modelos de Large Language Model (LLM). É esperado que em algum momento entre 2026 e 2028, a demanda por dados ultrapasse a oferta.
- Siga o tecflow no Google News!
- Participe dos nossos canais no Twitter,Telegram ou Whatsapp!
- Confira nossos stories no Instagram e veja notícias como essa!
- Siga o tecflow no Google Podcast e Spotify Podcast para ouvir nosso conteúdo!
- Anuncie conosco aqui ou apoie o tecflow clicando neste link.
É incoerente falar em falta de dados quando na verdade nunca houve tantos no mundo, mas eles não estão organizados e nem prontos para serem usados. Para superar esse entrave, é preciso entender que a maioria disponíveis na web não são adequados para o treinamento de IA, pois muitas vezes incluem apenas fragmentos de texto ou não oferecem novos conhecimentos para aperfeiçoar os modelos.
Além disso, as crescentes preocupações com a privacidade e a segurança vêm fazendo com que várias plataformas como redes sociais e veículos de mídia restrinjam o acesso a seus dados para treinamento de IA.
Portanto, há desafios tanto técnicos quanto éticos ao utilizar esses dados para treinar modelos de IA que estão cada vez mais sofisticados. Diversas estratégias estão sendo estudadas para mitigar esse problema, entre elas a criação de um mercado de dados, onde eles são comprados e vendidos de forma segura e eficiente.
Evoluímos muito, mas não a ponto de conseguir dispensar a intervenção do homem. A relação entre dados e humanos na IA abrange diversos aspectos que vão desde a coleta e utilização dos dados até o impacto do homem na criação, interpretação e uso dos sistemas. Milhões de horas humanas continuam sendo importantes para aperfeiçoar modelos de IA. Se os dados que alimentam esses modelos não forem bons, os resultados também não serão.
C6 Bank, XP Inc e PagBank abrem vagas em Cibersegurança:
Você está em busca de uma virada na sua carreira em 2026? O setor financeiro está fervendo e os maiores…
Conta de luz em risco? Entenda a guerra bilionária que
Um “puxadinho” na nova lei do setor elétrico colocou gigantes da energia e o Governo em pé de guerra. Entenda…
Oportunidade de ouro: IFSP libera 4.500 vagas em cursos de
Quer entrar no mercado de TI sem pagar nada? O Instituto Federal de São Paulo (IFSP) acaba de abrir inscrições…
O fim do Windows? Google e Samsung unem forças e
Prepare o monitor: a nova atualização do Android 16 acaba de transformar seu celular em um computador completo. Entenda a…
Apple choca o mercado e lança MacBook Neo por preço
Em estratégia inédita para driblar a crise dos chips, gigante de Cupertino aposta em notebook “popular” com bateria de 16…
Samsung lança no Brasil tela 3D que dispensa óculos e
Nova tecnologia Spatial Signage transforma imagens comuns em experiências 3D realistas para revolucionar lojas e escritórios; conheça o display de…
Empresas como a Scale AI, contrata milhares de pessoas no mundo todo para ajudar a OpenAI, Meta e outras gigantes de IA na fase de Human Reinforcement Feedback (HRF), que envolve as etapas de coleta e análise de feedback e ajuste do modelo. Com base no feedback, o modelo é ajustado com novos dados ou ajustes nos parâmetros. Se o feedback for feito de maneira estruturada, os próprios dados do feedback podem ser utilizados para fazer o refinamento no modelo.
Na Clarice.ai estamos criando um conjunto de dados de qualidade, estruturado e validado por humanos, inicialmente para o português e recentemente também para o espanhol. Os usuários editam e revisam seus textos na ferramenta, ao mesmo tempo em que geram dados de qualidade aceitando ou rejeitando as sugestões de melhoria da nossa IA.
Desta forma, estamos construindo um dataset com trechos ‘ruins’ e seus equivalentes melhorados que foram aceitos, e portanto validados, por humanos. Em apenas 3 meses foram coletadas 100 mil entradas nesse padrão, e a análise por amostragem confirma a qualidade dos dados.
Incluir inteligência linguística nessa arquitetura é a chave para gerar dados de qualidade, consistentes, possibilitando ainda economizar custos computacionais e financeiros. Além disso, usamos a inteligência coletiva dos nossos usuários para validar esses dados, o que nos proporciona uma vantagem competitiva em relação a potenciais concorrentes.
Faça como os mais de 10.000 leitores do tecflow, clique no sino azul e tenha nossas notícias em primeira mão! Confira as melhores ofertas de celulares na loja parceira do tecflow.
Redação tecflow
Tecflow é um website focado em notícias sobre tecnologia com resenhas, artigos, tutoriais, podcasts, vídeos sobre tech, eletrônicos de consumo e mercado B2B.

