Felipe Iszlaji, CEO e fundador da Clarice.ai
Os dados funcionam como combustível das IAs, e o fato é que quase não existem mais dados para treiná-las, sendo uma barreira significativa para o seu progresso. Apesar de todos os avanços, a tecnologia precisa superar as limitações de dados para conseguir oferecer todo o seu potencial. Empresas como OpenAI, Google e Anthropic já enfrentam desafios de escassez de dados de qualidade para treinar seus modelos de Large Language Model (LLM). É esperado que em algum momento entre 2026 e 2028, a demanda por dados ultrapasse a oferta.
- Siga o tecflow no Google News!
- Participe dos nossos canais no Twitter,Telegram ou Whatsapp!
- Confira nossos stories no Instagram e veja notícias como essa!
- Siga o tecflow no Google Podcast e Spotify Podcast para ouvir nosso conteúdo!
- Anuncie conosco aqui ou apoie o tecflow clicando neste link.
É incoerente falar em falta de dados quando na verdade nunca houve tantos no mundo, mas eles não estão organizados e nem prontos para serem usados. Para superar esse entrave, é preciso entender que a maioria disponíveis na web não são adequados para o treinamento de IA, pois muitas vezes incluem apenas fragmentos de texto ou não oferecem novos conhecimentos para aperfeiçoar os modelos.
Além disso, as crescentes preocupações com a privacidade e a segurança vêm fazendo com que várias plataformas como redes sociais e veículos de mídia restrinjam o acesso a seus dados para treinamento de IA.
Portanto, há desafios tanto técnicos quanto éticos ao utilizar esses dados para treinar modelos de IA que estão cada vez mais sofisticados. Diversas estratégias estão sendo estudadas para mitigar esse problema, entre elas a criação de um mercado de dados, onde eles são comprados e vendidos de forma segura e eficiente.
Evoluímos muito, mas não a ponto de conseguir dispensar a intervenção do homem. A relação entre dados e humanos na IA abrange diversos aspectos que vão desde a coleta e utilização dos dados até o impacto do homem na criação, interpretação e uso dos sistemas. Milhões de horas humanas continuam sendo importantes para aperfeiçoar modelos de IA. Se os dados que alimentam esses modelos não forem bons, os resultados também não serão.
Quando dados e humanos se tornam gargalos na IA
Felipe Iszlaji, CEO e fundador da Clarice.ai Os dados funcionam como combustível das IAs, e o fato é que quase não…
gamescom latam anuncia painel sobre Honor of Kings na CCXP24,
A gamescom latam já está começando os preparativos para a edição 2025 do evento e anuncia hoje (22) que estará presente, também,…
Novo programa gratuito da Amazon em parceria com a Nexa
A parceria entre a Amazon (AWS), Nexa e DIO lança um novo bootcamp que transforma a forma como desenvolvedores e…
OpenAI a um passo do futuro: Novo agente de IA
O Operator traz uma série de capacidades que podem transformar a eficiência no trabalho e na vida cotidiana. Entre os…
Black Friday: Algar Telecom lança promoções para consumidores e empresas
A Algar Telecom, uma das principais empresas de telecomunicações e TI do país, aproveita a Black Friday para oferecer condições…
Home office: 53 vagas para trabalho remoto internacional
A Remotar vai te ajudar a encontrar o trabalho dos seus sonhos! São vagas 100% remotas em diversas áreas como…
Empresas como a Scale AI, contrata milhares de pessoas no mundo todo para ajudar a OpenAI, Meta e outras gigantes de IA na fase de Human Reinforcement Feedback (HRF), que envolve as etapas de coleta e análise de feedback e ajuste do modelo. Com base no feedback, o modelo é ajustado com novos dados ou ajustes nos parâmetros. Se o feedback for feito de maneira estruturada, os próprios dados do feedback podem ser utilizados para fazer o refinamento no modelo.
Na Clarice.ai estamos criando um conjunto de dados de qualidade, estruturado e validado por humanos, inicialmente para o português e recentemente também para o espanhol. Os usuários editam e revisam seus textos na ferramenta, ao mesmo tempo em que geram dados de qualidade aceitando ou rejeitando as sugestões de melhoria da nossa IA.
Desta forma, estamos construindo um dataset com trechos ‘ruins’ e seus equivalentes melhorados que foram aceitos, e portanto validados, por humanos. Em apenas 3 meses foram coletadas 100 mil entradas nesse padrão, e a análise por amostragem confirma a qualidade dos dados.
Incluir inteligência linguística nessa arquitetura é a chave para gerar dados de qualidade, consistentes, possibilitando ainda economizar custos computacionais e financeiros. Além disso, usamos a inteligência coletiva dos nossos usuários para validar esses dados, o que nos proporciona uma vantagem competitiva em relação a potenciais concorrentes.
Faça como os mais de 10.000 leitores do tecflow, clique no sino azul e tenha nossas notícias em primeira mão! Confira as melhores ofertas de celulares na loja parceira do tecflow.
Redação tecflow
Tecflow é um website focado em notícias sobre tecnologia com resenhas, artigos, tutoriais, podcasts, vídeos sobre tech, eletrônicos de consumo e mercado B2B.