(48) 99997-9868 carcasa@carcasa.com.br

A inteligência artificial (IA) generativa explodiu na consciência pública

mar 19, 2024 | Blog, Tecnologia

2022 foi o ano em que a inteligência artificial (IA) generativa explodiu na consciência pública, e 2023 foi o ano em que começou a se enraizar no mundo dos negócios. 2024, portanto, deve ser um ano crucial para o futuro da IA, à medida que pesquisadores e empresas buscam estabelecer como esse salto evolutivo na tecnologia pode ser mais praticamente integrado em nossas vidas cotidianas.

A evolução da IA generativa espelhou a dos computadores, embora em uma linha do tempo dramaticamente acelerada. Computadores mainframe massivos e operados centralmente de alguns players deram lugar a máquinas menores e mais eficientes, acessíveis a empresas e instituições de pesquisa. Nas décadas que se seguiram, avanços incrementais renderam computadores domésticos com os quais os entusiastas podiam mexer. Com o tempo, computadores pessoais poderosos com interfaces intuitivas sem código tornaram-se onipresentes.

A IA generativa já atingiu sua fase “hobbyst” e, assim como acontece com os computadores, o progresso adicional visa alcançar maior desempenho em pacotes menores. 2023 viu uma explosão de modelos de fundação cada vez mais eficientes com licenças abertas, começando com o lançamento da família LlaMa da Meta de modelos de linguagem grande (LLMs) e seguido por nomes como StableLM, Falcon, Mistral e Llama 2. O DeepFloyd e o Stable Diffusion alcançaram relativa paridade com os principais modelos proprietários. Aprimorados com técnicas de ajuste fino e conjuntos de dados desenvolvidos pela comunidade de código aberto, muitos modelos abertos agora podem superar todos, exceto os modelos de código fechado mais poderosos na maioria dos benchmarks, apesar de contagens de parâmetros muito menores.

À medida que o ritmo do progresso se acelera, as capacidades em constante expansão dos modelos de última geração atrairão a maior atenção da mídia. Mas os desenvolvimentos mais impactantes podem ser aqueles focados em governança, middleware, técnicas de treinamento e pipelines de dados que tornam a IA generativa mais confiável, sustentável e acessível, tanto para empresas quanto para usuários finais.

Aqui estão algumas tendências atuais importantes de IA para observar no próximo ano.

  • Verificação da realidade: expectativas mais realistas
  • IA multimodal
  • Modelos de linguagem menores e avanços de código aberto
  • Escassez de GPU e custos de nuvem
  • A otimização de modelos está ficando mais acessível
  • Modelos locais personalizados e pipelines de dados
  • Agentes virtuais mais poderosos
  • Regulamentação, direitos autorais e preocupações éticas com IA
  • Shadow AI (e políticas corporativas de IA)
  • Verificação da realidade: expectativas mais realistas

Quando a IA generativa atingiu a conscientização em massa pela primeira vez, o conhecimento de um líder de negócios típico veio principalmente de materiais de marketing e cobertura de notícias sem fôlego. A experiência tangível (se houver) limitou-se a mexer com o ChatGPT e o DALL-E. Agora que a poeira baixou, a comunidade empresarial agora tem uma compreensão mais refinada das soluções alimentadas por IA.

O Gartner Hype Cycle posiciona a IA generativa diretamente no “Pico das Expectativas Inflacionadas”, à beira de uma queda para o “Calha da Desilusão”[1] – em outras palavras, prestes a entrar em um período de transição (relativamente) abaixo do esperado – enquanto o relatório “State of Generated AI in the Enterprise” da Deloitte do 1º trimestre de 2024 indicou que muitos líderes “esperam impactos transformadores substanciais no curto prazo”. [2] A realidade provavelmente cairá no meio: a IA generativa oferece oportunidades e soluções únicas, mas não será tudo para todos.

Como os resultados do mundo real se comparam ao hype é parcialmente uma questão de perspectiva. Ferramentas autônomas como o ChatGPT normalmente ocupam o centro do palco no imaginário popular, mas a integração suave em serviços estabelecidos geralmente produz mais poder de permanência. Antes do atual ciclo de hype, ferramentas generativas de aprendizado de máquina como o recurso “Smart Compose” lançado pelo Google em 2018 não eram anunciadas como uma mudança de paradigma, apesar de serem precursoras dos serviços de geração de texto atuais. Da mesma forma, muitas ferramentas de IA generativa de alto impacto estão sendo implementadas como elementos integrados de ambientes corporativos que aprimoram e complementam, em vez de revolucionar ou substituir, as ferramentas existentes: por exemplo, recursos “Copilot” no Microsoft Office, recursos “Generative Fill” no Adobe Photoshop ou agentes virtuais em aplicativos de produtividade e colaboração.

Onde a IA generativa primeiro cria impulso nos fluxos de trabalho diários terá mais influência no futuro das ferramentas de IA do que a hipotética vantagem de quaisquer recursos específicos de IA. De acordo com uma pesquisa recente da IBM com mais de 1.000 funcionários em empresas de escala empresarial, os três principais fatores que impulsionaram a adoção de IA foram os avanços nas ferramentas de IA que as tornam mais acessíveis, a necessidade de reduzir custos e automatizar processos-chave e a quantidade crescente de IA incorporada em aplicativos de negócios padrão prontos para uso.

IA multimodal (e vídeo)
Dito isso, a ambição da IA generativa de última geração está crescendo. A próxima onda de avanços se concentrará não apenas em melhorar o desempenho dentro de um domínio específico, mas em modelos multimodais que podem tomar vários tipos de dados como entrada. Embora os modelos que operam em diferentes modalidades de dados não sejam um fenômeno estritamente novo – modelos de texto para imagem como o CLIP e modelos de fala para texto como o Wave2Vec existem há anos – eles normalmente operam apenas em uma direção e foram treinados para realizar uma tarefa específica.

A nova geração de modelos interdisciplinares, compreendendo modelos proprietários como o GPT-4V da OpenAI ou o Gemini do Google, bem como modelos de código aberto como LLaVa, Adept ou Qwen-VL, pode se mover livremente entre tarefas de processamento de linguagem natural (PNL) e visão computacional. Novos modelos também estão trazendo o vídeo para o mercado: no final de janeiro, o Google anunciou o Lumiere, um modelo de difusão de texto para vídeo que também pode realizar tarefas de imagem para vídeo ou usar imagens para referência de estilo.

O benefício mais imediato da IA multimodal são aplicativos de IA mais intuitivos e versáteis e assistentes virtuais. Os usuários podem, por exemplo, perguntar sobre uma imagem e receber uma resposta em linguagem natural, ou pedir em voz alta instruções para reparar algo e receber recursos visuais junto com instruções de texto passo a passo.

Em um nível superior, a IA multimodal permite um modelo para processar entradas de dados mais diversas, enriquecendo e expandindo as informações disponíveis para treinamento e inferência. O vídeo, em particular, oferece um grande potencial para a aprendizagem holística. “Há câmeras que estão ligadas 24 horas por dia, 7 dias por semana, e estão capturando o que acontece exatamente como acontece sem qualquer filtragem, sem qualquer intencionalidade”, diz Peter Norvig, Distinguished Education Fellow do Stanford Institute for Human-Centered Artificial Intelligence (HAI). [3] “Os modelos de IA não tinham esse tipo de dados antes. Esses modelos só terão uma melhor compreensão de tudo.”

Modelos de linguagem menores e avanços de código aberto
Em modelos específicos de domínio, particularmente LLMs, provavelmente chegamos ao ponto de diminuir os retornos de contagens de parâmetros maiores. Sam Altman, CEO da OpenAI (cujo modelo GPT-4 tem rumores de ter cerca de 1,76 trilhão de parâmetros), sugeriu o mesmo no evento Imagination in Action do MIT em abril passado: “Acho que estamos no final da era em que serão esses modelos gigantes, e vamos torná-los melhores de outras maneiras”, previu. Acho que houve muito foco na contagem de parâmetros.”

Os modelos massivos deram início a esta era de ouro da IA, mas não estão isentos de inconvenientes. Apenas as maiores empresas têm fundos e espaço no servidor para treinar e manter modelos famintos de energia com centenas de bilhões de parâmetros. De acordo com uma estimativa da Universidade de Washington, o treinamento de um único modelo do tamanho GPT-3 requer o consumo anual de eletricidade de mais de 1.000 residências; um dia padrão de consultas ChatGPT rivaliza com o consumo diário de energia de 33.000 residências dos EUA. [4]

Modelos menores, por sua vez, consomem muito menos recursos. Um influente artigo de março de 2022 da Deepmind demonstrou que treinar modelos menores em mais dados produz melhor desempenho do que treinar modelos maiores em menos dados. Grande parte da inovação em curso em LLMs tem, portanto, se concentrado em produzir maior produção a partir de menos parâmetros. Como demonstrado pelo progresso recente de modelos na faixa de 3 a 70 bilhões de parâmetros, particularmente aqueles construídos sobre modelos de fundação LLaMa, Llama 2 e Mistral em 2023, os modelos podem ser reduzidos sem muito sacrifício de desempenho.

O poder dos modelos abertos continuará a crescer. Em dezembro de 2023, a Mistral lançou o “Mixtral”, uma mistura de modelos de especialistas (MoE) integrando 8 redes neurais, cada uma com 7 bilhões de parâmetros. Mistral afirma que o Mixtral não apenas supera a variante de parâmetro 70B do Llama 2 na maioria dos benchmarks em velocidades de inferência 6 vezes mais rápidas, mas que ele até mesmo iguala ou supera o GPT-3.5 muito maior da OpenAI na maioria dos benchmarks padrão. Pouco tempo depois, a Meta anunciou em janeiro que já começou o treinamento dos modelos Llama 3, e confirmou que eles serão de código aberto. Embora detalhes (como o tamanho do modelo) não tenham sido confirmados, é razoável esperar que o Llama 3 siga a estrutura estabelecida nas duas gerações anteriores.

Esses avanços em modelos menores têm três benefícios importantes:

Eles ajudam a democratizar a IA: modelos menores que podem ser executados a um custo mais baixo em hardware mais acessível capacitam mais amadores e instituições a estudar, treinar e melhorar os modelos existentes.
Eles podem ser executados localmente em dispositivos menores: isso permite IA mais sofisticada em cenários como computação de borda e internet das coisas (IoT). Além disso, executar modelos localmente — como no smartphone de um usuário — ajuda a contornar muitas preocupações de privacidade e segurança cibernética que surgem da interação com dados pessoais ou proprietários confidenciais.
Eles tornam a IA mais explicável: quanto maior o modelo, mais difícil é identificar como e onde ela toma decisões importantes. A IA explicável é essencial para entender, melhorar e confiar na saída dos sistemas de IA.
Escassez de GPU e custos de nuvem
A tendência para modelos menores será impulsionada tanto pela necessidade quanto pelo vigor empresarial, já que os custos de computação em nuvem aumentam à medida que a disponibilidade de hardware diminui.

“As grandes empresas (e mais delas) estão todas tentando trazer recursos de IA internamente, e há um pouco de corrida em GPUs”, diz James Landay, vice-diretor e diretor de pesquisa da Stanford HAI. “Isso criará uma enorme pressão não apenas para o aumento da produção de GPUs, mas para que os inovadores criem soluções de hardware mais baratas e fáceis de fazer e usar.”1

Como explica um relatório da O’Reilly do final de 2023, os provedores de nuvem atualmente arcam com grande parte do fardo da computação: relativamente poucos adotantes de IA mantêm sua própria infraestrutura, e a escassez de hardware só aumentará os obstáculos e os custos de configurar servidores locais. No longo prazo, isso pode pressionar para cima os custos de nuvem, à medida que os provedores atualizam e otimizam sua própria infraestrutura para atender efetivamente à demanda de IA generativa. [5]

Para as empresas, navegar nesse cenário incerto requer flexibilidade, tanto em termos de modelos – apoiando-se em modelos menores e mais eficientes quando necessário ou modelos maiores e com mais desempenho quando prático – quanto de ambiente de implantação. “Não queremos restringir onde as pessoas implantam [um modelo]”, disse o CEO da IBM, Arvind Krishna, em uma entrevista à CNBC em dezembro de 2023, em referência à plataforma watsonx da IBM. “Então, [se] eles quiserem implantá-lo em uma grande nuvem pública, faremos isso lá. Se eles quiserem implementá-lo na IBM, nós o faremos na IBM. Se eles quiserem fazer isso por conta própria, e por acaso tiverem infraestrutura suficiente, nós faremos isso lá.”

A otimização de modelos está ficando mais acessível
A tendência de maximizar o desempenho de modelos mais compactos é bem servida pela recente saída da comunidade de código aberto.

Muitos avanços importantes foram (e continuarão sendo) impulsionados não apenas por novos modelos básicos, mas por novas técnicas e recursos (como conjuntos de dados de código aberto) para treinamento, ajuste, ajuste fino ou alinhamento de modelos pré-treinados. Técnicas notáveis independentes de modelos que se consolidaram em 2023 incluem:

Adaptação de Baixo Posto (LoRA): Em vez de ajustar diretamente bilhões de parâmetros do modelo, o LoRA envolve o congelamento de pesos de modelo pré-treinados e a injeção de camadas treináveis — que representam a matriz de mudanças nos pesos do modelo como 2 matrizes menores (de menor classificação) — em cada bloco de transformador. Isso reduz drasticamente o número de parâmetros que precisam ser atualizados, o que, por sua vez, acelera drasticamente o ajuste fino e reduz a memória necessária para armazenar atualizações de modelo.
Quantização: Como reduzir a taxa de bits de áudio ou vídeo para reduzir o tamanho e a latência do arquivo, a quantização reduz a precisão usada para representar pontos de dados do modelo — por exemplo, de ponto flutuante de 16 bits para inteiro de 8 bits — para reduzir o uso de memória e acelerar a inferência. As técnicas de QLoRA combinam quantização com LoRA.
Otimização de Preferência Direta (DPO): Os modelos de bate-papo normalmente usam o aprendizado por reforço a partir do feedback humano (RLHF) para alinhar as saídas do modelo às preferências humanas. Apesar de poderoso, o RLHF é complexo e instável. O DPO promete benefícios semelhantes, ao mesmo tempo em que é computacionalmente leve e substancialmente mais simples.
Ao lado de avanços paralelos em modelos de código aberto no espaço de 3 a 70 bilhões de parâmetros, essas técnicas em evolução podem mudar a dinâmica do cenário de IA, fornecendo a players menores, como startups e amadores, recursos sofisticados de IA que antes estavam fora de alcance.

Modelos locais personalizados e pipelines de dados
As empresas em 2024 podem, portanto, buscar a diferenciação por meio do desenvolvimento de modelos sob medida, em vez de construir invólucros em torno de serviços reempacotados da “Big AI”. Com a estrutura certa de dados e desenvolvimento, os modelos e ferramentas de IA de código aberto existentes podem ser adaptados a quase qualquer cenário do mundo real, desde o uso do suporte ao cliente até o gerenciamento da cadeia de suprimentos e a análise complexa de documentos.

Os modelos de código aberto oferecem às organizações a oportunidade de desenvolver poderosos modelos personalizados de IA — treinados em seus dados proprietários e ajustados para suas necessidades específicas — rapidamente, sem investimentos proibitivos em infraestrutura. Isso é especialmente relevante em domínios como jurídico, saúde ou finanças, onde vocabulário e conceitos altamente especializados podem não ter sido aprendidos por modelos de fundação na pré-formação.

Jurídico, finanças e saúde também são exemplos primordiais de indústrias que podem se beneficiar de modelos pequenos o suficiente para serem executados localmente em hardware modesto. Manter o treinamento, inferência e recuperação de IA de geração aumentada (RAG) local evita o risco de dados proprietários ou informações pessoais confidenciais serem usados para treinar modelos de código fechado ou passar pelas mãos de terceiros. E usar o RAG para acessar informações relevantes em vez de armazenar todo o conhecimento diretamente no próprio LLM ajuda a reduzir o tamanho do modelo, aumentando ainda mais a velocidade e reduzindo os custos.

À medida que 2024 continua a nivelar o campo de jogo do modelo, a vantagem competitiva será cada vez mais impulsionada por pipelines de dados proprietários que permitem o melhor ajuste fino do setor.

Agentes virtuais mais poderosos
Com ferramentas mais sofisticadas e eficientes e um ano de feedback do mercado à sua disposição, as empresas estão preparadas para expandir os casos de uso para agentes virtuais para além de chatbots simples de experiência do cliente.

À medida que os sistemas de IA aceleram e incorporam novos fluxos e formatos de informação, eles expandem as possibilidades não apenas de comunicação e acompanhamento de instruções, mas também de automação de tarefas. “2023 foi o ano de poder conversar com uma IA. Várias empresas lançaram algo, mas a interação sempre foi você digitar algo e digitar algo de volta”, diz Norvig, de Stanford. “Em 2024, veremos a capacidade de os agentes fazerem as coisas por você. Faça reservas, planeje uma viagem, conecte-se a outros serviços.”

A IA multimodal, em particular, aumenta significativamente as oportunidades de interação perfeita com agentes virtuais. Por exemplo, em vez de simplesmente pedir receitas a um bot, um usuário pode apontar uma câmera para uma geladeira aberta e solicitar receitas que podem ser feitas com ingredientes disponíveis. O Be My Eyes, um aplicativo móvel que conecta indivíduos cegos e com baixa visão com voluntários para ajudar em tarefas rápidas, está testando ferramentas de IA que ajudam os usuários a interagir diretamente com seus arredores por meio de IA multimodal em vez de esperar por um voluntário humano.

Explore o IBM watsonx™ Assistant: IA conversacional líder de mercado com integração perfeita para as ferramentas que alimentam seus → de negócios

Regulamentação, direitos autorais e preocupações éticas com IA
Capacidades multimodais elevadas e barreiras reduzidas à entrada também abrem novas portas para abusos: deepfakes, questões de privacidade, perpetuação de preconceitos e até evasão de salvaguardas CAPTCHA podem se tornar cada vez mais fáceis para maus atores. Em janeiro de 2024, uma onda de deepfakes explícitos de celebridades chegou às redes sociais; Uma pesquisa de maio de 2023 indicou que houve 8 vezes mais deepfakes de voz postados online em comparação com o mesmo período de 2022. [6]

A ambiguidade no ambiente regulatório pode retardar a adoção, ou pelo menos uma implementação mais agressiva, a curto e médio prazo. Há um risco inerente a qualquer investimento importante e irreversível em uma tecnologia ou prática emergente que possa exigir uma reformulação significativa – ou até mesmo se tornar ilegal – após nova legislação ou mudanças políticas nos próximos anos.

Em dezembro de 2023, a União Europeia (UE) chegou a um acordo provisório sobre a Lei de Inteligência Artificial. Entre outras medidas, proíbe a raspagem indiscriminada de imagens para criar bancos de dados de reconhecimento facial, sistemas de categorização biométrica com potencial de viés discriminatório, sistemas de “pontuação social” e o uso de IA para manipulação social ou econômica. Também busca definir uma categoria de sistemas de IA de “alto risco”, com potencial para ameaçar a segurança, os direitos fundamentais ou o Estado de Direito, que estarão sujeitos a supervisão adicional. Da mesma forma, estabelece requisitos de transparência para o que chama de sistemas de “IA de uso geral (GPAI)” – modelos de fundação – incluindo documentação técnica e testes sistêmicos contraditórios.

Mas, embora alguns atores-chave, como Mistral, residam na UE, a maioria do desenvolvimento inovador de IA está acontecendo nos Estados Unidos, onde a legislação substantiva de IA no setor privado exigirá ação do Congresso – o que pode ser improvável em um ano eleitoral. Em 30 de outubro, o governo Biden emitiu uma ordem executiva abrangente detalhando 150 requisitos para o uso de tecnologias de IA por agências federais; meses antes, o governo garantiu compromissos voluntários de desenvolvedores proeminentes de IA para aderir a certos guardrails para confiança e segurança. Notavelmente, tanto a Califórnia quanto o Colorado estão buscando ativamente sua própria legislação em relação aos direitos de privacidade de dados dos indivíduos em relação à inteligência artificial.

A China se moveu de forma mais proativa em direção a restrições formais de IA, proibindo a discriminação de preços por algoritmos de recomendação nas mídias sociais e exigindo a rotulagem clara de conteúdo gerado por IA. As regulamentações prospectivas sobre IA generativa buscam exigir que os dados de treinamento usados para treinar LLMs e o conteúdo subsequentemente gerado pelos modelos sejam “verdadeiros e precisos”, o que os especialistas tomaram para indicar medidas para censurar a produção de LLM.

Enquanto isso, o papel do material protegido por direitos autorais no treinamento de modelos de IA usados para geração de conteúdo, de modelos de linguagem a geradores de imagem e modelos de vídeo, continua sendo uma questão muito contestada. O resultado do processo de alto perfil movido pelo New York Times contra a OpenAI pode afetar significativamente a trajetória da legislação de IA. Ferramentas adversárias, como Glaze e Nightshade, ambas desenvolvidas na Universidade de Chicago, surgiram no que pode se tornar uma espécie de corrida armamentista entre criadores e desenvolvedores de modelos.

Saiba como o IBM® watsonx.governance™ acelera fluxos de trabalho de IA responsáveis, transparentes e explicáveis →

Shadow AI (e políticas corporativas de IA)
Para as empresas, esse potencial crescente de consequências legais, regulatórias, econômicas ou reputacionais é agravado pelo quão populares e acessíveis as ferramentas de IA generativa se tornaram. As organizações devem não apenas ter uma política corporativa cuidadosa, coerente e claramente articulada em torno da IA generativa, mas também desconfiar da IA sombra: o uso pessoal “não oficial” da IA no local de trabalho pelos funcionários.

Também apelidada de “shadow IT” ou “BYOAI”, a shadow AI surge quando funcionários impacientes que buscam soluções rápidas (ou simplesmente querem explorar novas tecnologias mais rápido do que uma política cautelosa da empresa permite) implementam IA generativa no local de trabalho sem passar pela TI para aprovação ou supervisão. Muitos serviços voltados para o consumidor, alguns gratuitos, permitem que até mesmo indivíduos não técnicos improvisem o uso de ferramentas de IA generativas. Em um estudo da Ernst & Young, 90% dos entrevistados disseram que usam IA no trabalho. [7]

Esse espírito empreendedor pode ser ótimo, no vácuo – mas funcionários ansiosos podem não ter informações relevantes ou perspectiva sobre segurança, privacidade ou conformidade. Isso pode expor as empresas a uma grande quantidade de riscos. Por exemplo, um funcionário pode, sem saber, alimentar segredos comerciais para um modelo de IA voltado para o público que treina continuamente a entrada do usuário ou usar material protegido por direitos autorais para treinar um modelo proprietário para geração de conteúdo e expor sua empresa a ações legais.

Como muitos desenvolvimentos em andamento, isso ressalta como os perigos da IA generativa aumentam quase linearmente com suas capacidades. Com grande poder vem grande responsabilidade.

Avançar
À medida que avançamos por um ano crucial em inteligência artificial, entender e se adaptar às tendências emergentes é essencial para maximizar o potencial, minimizar riscos e escalar de forma responsável a adoção de IA generativa.

Loading