Melhor IA com menos dados: como dados específicos de domínio podem superar grandes conjuntos de dados
Apenas 15% de todos os projetos de IA ter sucesso na produção, enquanto pesquisas mostram que ROI médio de implementações de IA dentro da empresa é um % insuficiente de 1.3 . Embora essas estatísticas sejam preocupantes, elas levantam a questão de por que tantas organizações continuam a investir recursos — dinheiro, horas de trabalho e computação — na coleta de dados e no desenvolvimento de modelos sem um caminho claro para justificar o ROI.
Não me interpretem mal. Nós da Solix sabemos o potencial transformador que a IA pode trazer se usada corretamente. No entanto, aqui está o que diferencia nossa tese sobre IA bem-sucedida. No fundo, acreditamos mais dados nem sempre são melhores–a chave é ter o conjuntos de dados corretos de alta qualidade e na quantidade corretaSe você investir dados ilimitados e de baixa qualidade (e muito dinheiro) em um projeto sem uma estratégia ou relevância clara, acabará com retornos decrescentes. Idealmente, um gráfico de linhas da precisão do modelo versus o tamanho do conjunto de treinamento deve apresentar uma tendência crescente até atingir um ponto de retornos decrescentes. Na prática, mesmo o dobro do tamanho dos dados após um ponto provavelmente resultaria em um aumento de apenas alguns pontos percentuais na precisão.
Lei dos Retornos Decrescentes na IA
Gostaria de pensar na IA como algo semelhante à economia clássica. Conforme explicado pela lei da utilidade marginal decrescente, a utilidade de cada unidade adicional diminui à medida que o consumo aumenta, até que a equação atinja um estado de equilíbrio, onde qualquer aumento adicional resulta em utilidade marginal zero ou até mesmo negativa.
A IA é muito semelhante. Cada ponto de dados adicional aumenta drasticamente a precisão nos estágios iniciais do treinamento de um modelo. À medida que o volume de dados aumenta, esse efeito diminui, e mais dados não fornecem necessariamente novos insights sobre como modelar melhor o problema.
Por exemplo, ao treinar um modelo de classificação de imagens, aumentar o número de imagens rotuladas e marcadas de 100 para 1,000 pode melhorar significativamente a precisão do modelo. No entanto, ao passar de 50,000 para 100,000 imagens, provavelmente não haverá um aumento de 100% na precisão do modelo. Se a capacidade do modelo for limitada, inserir muitos dados nele pode até prejudicar um pouco o desempenho, pois o modelo pode se ajustar excessivamente ao ruído em vez do sinal. Modelos de IA e aprendizado de máquina têm seus "pontos ideais", além dos quais qualquer ganho de volume resultaria em um desempenho menos do que marginalmente melhorado. Dependendo da complexidade do modelo, alguns modelos atingem esse patamar mais rapidamente do que outros que atendem a casos de uso mais complexos.
Embora, na maioria dos casos, seja muito raro ter o problema de gerenciar "dados em excesso", coletar dados aleatórios de forma desnecessária ainda pode ser custoso. Além do volume, o que está nos dados importa muito mais.
Qualidade vs. Quantidade: Dados específicos de domínio vencem!
A frase popular – “entra lixo, sai lixo”, quando aplicado à IA, torna-se “lixo na entrada, lixo ao quadrado”Isso enfatiza que o uso de dados ruidosos, irrelevantes ou não representativos não leva a insights úteis e pode até ser enganoso. Na prática, dados limpos, rotulados e específicos de um domínio geralmente superam um corpus genérico.
Dados ricos em contexto superam o volume. Mesmo que os volumes sejam significativamente menores, dados que refletem diretamente a tarefa teriam um desempenho melhor do que um modelo amplamente treinado com dados coletados da internet. Empresas que buscam implementar IA para resolver um problema específico podem se beneficiar da construção de um "modelo de linguagem reduzida" com dados focados em domínio. Isso ajudaria a aumentar a precisão específica do domínio e o ROI. As empresas que criam modelos personalizados devem se perguntar: “Esses dados realmente representam o domínio e o problema que precisa ser resolvido?”. Caso contrário, refinar conjuntos de dados pode ser mais valioso do que simplesmente adicionar mais dados.
Definindo seu escopo: como decidir quais dados você precisa?
Todo projeto de IA deve começar pela definição abrangente de seu escopo e métricas de sucesso. Os dados necessários dependerão de:
- Complexidade do caso de uso/problema:Qual a complexidade do problema que você está tentando resolver? Para uma regressão logística simples, isso pode significar um conjunto de dados amostrais de 1000 a 10000 exemplos, enquanto aplicações como questionamento de domínio aberto ou a criação de um serviço de táxi autônomo como o da Waymo exigiriam amostras muito grandes, na casa dos milhões.
- Capacidade e tipo do modeloVocê está ajustando um modelo de linguagem pequena e específico de domínio ou construindo o próximo grande LLM baseado em transformadores? Modelos de linguagem pequena (SLMs) específicos de domínio podem ser altamente precisos, desde que os dados de treinamento sejam de alta qualidade. Por outro lado, um modelo maior exigiria significativamente mais dados.
- Riscos de negócios associados e ROIVocê atua em um setor altamente regulamentado? Você protegeu dados sensíveis e informações de identificação pessoal (PII)? Seu modelo de IA possui controles de acesso adequados para impedir acesso não autorizado? Quais são as perdas potenciais se o seu modelo cometer erros? Para setores como saúde e serviços financeiros, você deve ter dados de validação adicionais para evitar alucinações do modelo e, ao mesmo tempo, garantir a conformidade com as regulamentações aplicáveis.
Obtendo mais valor com menos dados
Com o avanço da tecnologia, as equipes de IA agora contam com ferramentas e técnicas mais recentes para superar a coleta de dados por força bruta. Aqui estão alguns métodos que podem ajudar a ampliar o valor dos conjuntos de dados que você já possui:
- Crie uma camada semântica com contexto estruturado:Saber quais dados você possui é essencial para o sucesso de qualquer projeto de IA. Muitas organizações, grandes ou pequenas, coletaram grandes quantidades de dados ao longo dos anos, muitas vezes com pouco ou nenhum contexto comercial claro. Adicionar uma camada semântica aos seus dados pode ajudar a identificar dados obscuros e permite que modelos de IA e aprendizado de máquina interpretem os dados de forma mais inteligente. Em vez de apenas analisar tabelas planas, seu modelo agora pode entender as relações entre conjuntos de dados, lógica de negócios e restrições.
- Aprendizagem Ativa e Classificação Inteligente de DadosDeixe que seu modelo decida quais dados rotular em seguida. O aprendizado ativo concentra-se nas amostras mais informativas, geralmente em áreas onde o modelo é menos confiável. Combinando isso com a classificação inteligente de dados, você pode agrupar e organizar os dados com base em relevância, novidade e sensibilidade. Isso ajuda a concentrar seus esforços de rotulagem, ao mesmo tempo em que otimiza o processo de o que, quando e por que os conjuntos de dados são rotulados, garantindo que cada anotação agregue valor.
- Aprendizagem por transferênciaNa maioria dos casos, treinar um modelo de linguagem do zero pode ser impraticável e consumir muitos recursos. Em vez disso, começar com um modelo comercialmente disponível e ajustá-lo de acordo com as necessidades do seu negócio reduz a quantidade de dados rotulados necessários para atingir um desempenho com qualidade de produção.
- Geração de Dados SintéticosPara casos de uso de nicho, reunir conjuntos de dados relevantes pode ser desafiador. Em vez disso, as organizações podem gerar conjuntos de dados sintéticos que reproduzam as características originais pertinentes ao seu domínio. Essa abordagem pode ajudar a impulsionar protótipos iniciais ou complementar casos extremos raros para obter a aprovação inicial das partes interessadas.
Pensamentos de Encerramento
Não se trata de mais dados, mas de ter acesso aos dados certos!
Como enfatizado ao longo do blog, a qualidade dos seus dados importa muito mais do que a quantidade. O segredo é focar no desenvolvimento de produtos de dados prontos para negócios/casos de uso, que sejam limpos, rotulados e específicos para cada domínio. A estratégia de dados para IA deve sempre se concentrar na complexidade dos casos de uso, nas necessidades computacionais, na seleção de modelos e nas métricas de sucesso do negócio. Definir isso permitiria que as empresas chegassem a um roteiro claro que poderia levar ao sucesso da IA.
Outro aspecto importante a considerar são as práticas gerais de conformidade adotadas em toda a empresa. Ter as proteções adequadas de conformidade e governança de dados é quase tão crucial quanto tudo o mais discutido acima. Como a conformidade e a governança de dados para IA são altamente complexas, elas merecem uma discussão à parte, que pretendo abordar no meu próximo blog, então fique ligado!
Na Solix, capacitamos empresas orientadas por dados a maximizar seus ativos de dados. Com a Solix Enterprise IA suíte, fornecemos soluções abrangentes para preparação de dados, desenvolvimento de produtos de dados específicos para domínio e prontos para negócios, e habilitação de governança com tecnologia de IA em escala.
Classificação Inteligente de Dados Solix, parte essencial do pacote Solix EAI, é uma camada semântica inteligente que permite definir regras de negócios, enriquecer metadados, aprimorar o contexto e redescobrir dados. Usando o Solix IDC, as empresas podem marcar conjuntos de dados automaticamente com metadados aprimorados por IA e classificá-los com base em relevância, sensibilidade e requisitos de conformidade.
Se você achou isso interessante, por favor entre em contato conosco para agendar uma sessão para saber mais sobre como a Solix pode ajudar a aprimorar sua estratégia de dados existente.
