Trazendo valores humanos para a Inteligência Artificial

Velocidade e eficiência costumavam ser a prioridade. Agora, questões como segurança e privacidade também importam.

Quando lançou o GPT-4, em março de 2023, a OpenAI anunciou sua superioridade em relação ao seu já impressionante predecessor, afirmando que a nova versão era melhor em termos de precisão, capacidade de raciocínio e pontuações em testes — todos esses são métricas de desempenho de IA que são utilizadas há algum tempo.

No entanto, o mais impressionante foi a caracterização da OpenAI do GPT-4 como “mais alinhado” — talvez a primeira vez que um produto ou serviço de IA foi comercializado em termos de sua alinhamento com os valores humanos. A ideia de que a tecnologia deve estar sujeita a alguma forma de barreiras éticas está longe de ser nova.

Norbert Wiener, o pai da cibernética, propôs uma ideia semelhante em um artigo seminal de 1960 na Science, lançando uma disciplina acadêmica inteira focada em garantir que as ferramentas automatizadas incorporassem os valores de seus criadores. Mas somente hoje, mais de meio século depois, estamos vendo produtos incorporados de IA sendo comercializados de acordo com o quanto eles incorporam valores como segurança, dignidade, justiça, meritocracia, inofensividade e utilidade, além de medidas tradicionais de desempenho, como velocidade, escalabilidade e precisão. Esses produtos incluem desde carros autônomos até soluções de segurança, software que resume artigos, eletrodomésticos inteligentes que podem coletar dados sobre a vida diária das pessoas, e até robôs companheiros para idosos e brinquedos inteligentes para crianças.

Conforme o alinhamento de valores de IA se torna não apenas um requisito regulatório, mas um diferencial de produto, as empresas precisarão ajustar os processos de desenvolvimento de seus produtos e serviços habilitados para IA.

Este artigo foi publicado no início de 2024 pela HBR (Harvard Business Review) e busca identificar os desafios que empreendedores e executivos enfrentarão ao trazer para o mercado ofertas que sejam seguras e alinhadas com valores.

Empresas que se anteciparem para abordar esses desafios ganharão uma vantagem competitiva importante. Os desafios se enquadram em seis categorias, correspondentes às etapas-chave em um processo de inovação típico. Para cada categoria, apresentamos uma visão geral dos frameworks, práticas e ferramentas que os executivos podem usar. Essas recomendações derivam de nossa pesquisa conjunta e individual sobre métodos de alinhamento de IA e de nossa experiência em ajudar empresas a desenvolver e implementar produtos e serviços habilitados para IA em múltiplos domínios, incluindo mídia social, saúde, finanças e entretenimento.

1 – DEFINIR VALORES PARA SEU PRODUTO

A primeira tarefa é identificar as pessoas cujos valores devem ser levados em consideração. Dado o impacto potencial da IA na sociedade, as empresas precisarão considerar um grupo mais diversificado de partes interessadas do que fariam ao avaliar outras características do produto. Estes podem incluir não apenas funcionários e clientes, mas também organizações da sociedade civil, legisladores, ativistas, associações industriais e outros. A situação pode se tornar ainda mais complexa quando o mercado do produto abrange geografias com culturas ou regulamentações diferentes. As preferências de todas essas partes interessadas devem ser compreendidas e os desacordos entre elas devem ser resolvidos. Este desafio pode ser abordado de duas maneiras.

Incorporar princípios estabelecidos.

Nesta abordagem, as empresas se baseiam diretamente nos valores de sistemas morais e teorias estabelecidas, como o utilitarismo, ou naqueles desenvolvidos por instituições globais, como os princípios de IA da OCDE.

Por exemplo, a startup financiada pela Alphabet, Anthropic, baseou os princípios que orientam seu assistente de IA, Claude, na Declaração Universal dos Direitos Humanos da ONU. Outras empresas fizeram algo semelhante; os princípios da BMW, por exemplo, se assemelham aos desenvolvidos pela OCDE.

Articular seus próprios valores.

Algumas empresas montam uma equipe de especialistas — tecnólogos, éticos, especialistas em direitos humanos e outros — para desenvolver seus próprios valores. Essas pessoas podem ter uma boa compreensão dos riscos (e oportunidades) inerentes ao uso da tecnologia.

A Salesforce adotou essa abordagem. No preâmbulo de sua declaração de princípios, a empresa descreve o processo como “uma jornada de um ano para obter feedback de contribuidores individuais, gerentes e executivos de toda a empresa em todas as organizações, incluindo engenharia, desenvolvimento de produtos, UX, ciência de dados, jurídico, igualdade, assuntos governamentais e marketing”.

Outra abordagem foi desenvolvida por uma equipe de cientistas do DeepMind, um laboratório de pesquisa em IA adquirido pelo Google em 2014. Esta abordagem envolve consultar clientes, funcionários e outros para elicitar princípios e valores de IA de maneiras que minimizem o viés de interesse próprio. Ela se baseia no “véu da ignorância”, um experimento mental concebido pelo filósofo John Rawls, no qual as pessoas propõem regras para uma comunidade sem qualquer conhecimento de sua posição relativa nessa comunidade — o que significa que elas não sabem como as regras as afetarão.

Os valores produzidos usando a abordagem DeepMind são menos orientados pelo interesse próprio do que seriam de outra forma, focam mais em como a IA pode ajudar os mais desfavorecidos e são mais robustos, porque as pessoas geralmente os aceitam mais facilmente.

2 – INSERIR OS VALORES NO PROGRAMA

Além de estabelecer valores orientadores, as empresas precisam pensar em limitar explicitamente o comportamento de sua IA. Práticas como privacidade por design, segurança por design e similares podem ser úteis nesse esforço. Ancoradas em princípios e ferramentas de avaliação, essas práticas incorporam o valor-alvo na cultura e no processo de desenvolvimento de produtos de uma organização.

Os funcionários das empresas que aplicam essas práticas são motivados a avaliar cuidadosamente e mitigar os riscos potenciais no início do processo de design de um novo produto; a criar loops de feedback pelos quais os clientes podem relatar problemas; e a avaliar e analisar continuamente esses relatórios. Plataformas online geralmente utilizam essa abordagem para fortalecer a confiança e a segurança, e alguns reguladores são receptivos a isso. Uma defensora líder dessa abordagem é Julie Inman Grant, a comissária de e-safety na Austrália e veterana de políticas públicas no setor.

Sistemas de IA generativos precisarão de guardrails formais escritos nos programas para que não violem valores definidos ou ultrapassem linhas vermelhas, por exemplo, cedendo a solicitações impróprias ou gerando conteúdo inaceitável.

Empresas como Nvidia e OpenAI estão desenvolvendo frameworks para fornecer tais guardrails. O GPT-4, por exemplo, é comercializado como sendo 82% menos propenso do que o GPT-3.5 a responder a solicitações de conteúdo proibido, como discurso de ódio ou código para malware.

Linhas vermelhas também são definidas por regulamentações, que evoluem. Em resposta, as empresas precisarão atualizar sua conformidade com IA, que divergirá cada vez mais entre os mercados.

Considere um banco europeu que deseja lançar uma ferramenta de IA generativa para melhorar as interações com os clientes. Até recentemente, o banco precisava cumprir apenas o Regulamento Geral de Proteção de Dados da UE, mas em breve precisará cumprir também o AI Act da UE. Se quiser implantar IA na China ou nos Estados Unidos, terá que observar as regulamentações locais. À medida que as regras locais mudam e o banco se torna sujeito a regulamentações em várias jurisdições, ele precisará adaptar sua IA e gerenciar requisitos potencialmente incompatíveis.

Valores, linhas vermelhas, guardrails e regulamentações devem ser integrados e incorporados à programação da IA para que mudanças nas regulamentações, por exemplo, possam ser inseridas e automaticamente comunicadas a todas as partes do programa de IA afetadas por elas. Em seguida, vem a identificação do que significa estar em conformidade com os valores e acompanhar o progresso em direção a isso.

Por exemplo, as redes sociais e os marketplaces online tradicionalmente se concentraram no desenvolvimento de algoritmos de recomendação que maximizam o engajamento do usuário. Mas, à medida que as preocupações com confiança e segurança aumentaram tanto para os usuários quanto para os reguladores, as plataformas de mídia social, como o Facebook (agora Meta) e o Snapchat, acompanham não apenas o tempo gasto em suas plataformas, mas também o que os clientes estão vendo e fazendo lá, para limitar o abuso do usuário e a propagação de material extremista ou terrorista. E as empresas de jogos online acompanham o comportamento dos jogadores, pois o comportamento agressivo pode ter um impacto negativo na atratividade de seus jogos e comunidades.

3 – AVALIAR OS TRADE-OFFS

Nos últimos anos, temos visto empresas lutarem para equilibrar privacidade com segurança, confiança com segurança, utilidade com respeito à autonomia dos outros e, é claro, valores com métricas financeiras de curto prazo. Por exemplo, empresas que oferecem produtos para auxiliar idosos ou educar crianças devem considerar não apenas a segurança, mas também a dignidade e autonomia: Quando a IA não deve auxiliar os usuários idosos para fortalecer sua confiança e respeitar sua dignidade? Quando deve ajudar uma criança para garantir uma experiência de aprendizado positiva?

Uma maneira de abordar esse desafio é segmentar um mercado de acordo com seus valores. Por exemplo, uma empresa pode decidir focar em um mercado menor que valoriza princípios como privacidade mais do que, digamos, precisão algorítmica. Esse é o caminho escolhido pelo mecanismo de busca DuckDuckGo, que limita a publicidade direcionada e prioriza a privacidade. A empresa se posiciona como uma alternativa para usuários da internet que não desejam ser rastreados online.

O trade-off entre tempo de lançamento no mercado e o risco de desalinhamento de valores é particularmente difícil de gerenciar. Alguns comentaristas argumentaram que, para obter uma vantagem de pioneirismo, a OpenAI se apressou em lançar o ChatGPT no mercado em novembro de 2022, apesar dos guardrails possivelmente fracos na época. Tais movimentos podem se voltar contra a empresa: O Google perdeu quase US $170 bilhões em valor após seu chatbot Bard cometer um erro público em um evento de lançamento em Paris. Embora todos os chatbots tendam a cometer erros semelhantes, relatórios internos sugeriram posteriormente que a pressa do Google em um lançamento rápido pode ter levado a falhas precoces no produto.

Dadas as dificuldades que enfrentam, os gerentes são forçados a fazer julgamentos muito sutis. Por exemplo, como decidem se determinado conteúdo gerado ou recomendado pela IA é prejudicial? Se um veículo autônomo quase atinge um pedestre, isso é uma falha de segurança ou um sinal de que o sistema de segurança do veículo está funcionando? Nesse contexto, as organizações precisam estabelecer processos e canais de comunicação claros com os stakeholders desde cedo, para garantir feedback, alinhamento e aprendizado contínuos.

Um bom exemplo do que as empresas podem fazer, embora não especificamente focado em IA, é fornecido pelo Meta. Em 2020, diante da crescente preocupação pública sobre como as plataformas online moderam o conteúdo, a empresa estabeleceu seu Conselho de Supervisão para ajudá-la a tomar decisões orientadas por valores. O conselho é um grupo de pessoas independentes e experientes de diversos países e origens que não apenas tomam algumas decisões difíceis, mas também ajudam a empresa a ouvir os pontos de vista de seus diversos stakeholders.

O gigante farmacêutico Merck e a empresa de telecomunicações francesa Orange, entre outras, agora também estão criando conselhos de supervisão para supervisionar seus esforços em IA. Em alguns casos, pode ser necessário estabelecer equipes formais de política de IA que monitorarão e atualizarão princípios, políticas e métricas relacionadas aos valores para o comportamento da IA.

Para uma discussão sobre algumas das dificuldades que esses conselhos e comitês podem enfrentar, consulte “A Ética da gestão dos dados das pessoas“, HBR, julho-agosto de 2023.

 

4 – ALINHAR OS VALORES DOS PARCEIROS

Sam Altman, CEO da OpenAI, compartilhou um desafio no podcast In Good Company: Quanta flexibilidade sua empresa deveria conceder às pessoas de culturas e sistemas de valores diferentes para personalizar os produtos da OpenAI? Ele estava se referindo a uma tendência em que empresas pegam modelos pré-treinados, como GPT-4, PaLM, LaMDA e Stable Diffusion, e os ajustam para construir seus próprios produtos. Como Altman observou, o problema com isso é que os proprietários dos modelos fundamentais têm pouco ou nenhum controle sobre o que é feito com seus produtos.

As empresas que adaptam os modelos têm um problema semelhante: Como podem garantir que os novos produtos criados com modelos de terceiros estejam alinhados com valores desejáveis, especialmente considerando as limitações sobre o quanto podem ajustá-los? Somente os desenvolvedores dos modelos originais sabem quais dados foram usados em seu treinamento, então as empresas precisarão selecionar cuidadosamente seus parceiros de IA. Elas também devem se alinhar a outros parceiros, como os fornecedores de dados de treinamento, que podem ter todo tipo de vieses indesejáveis que podem infectar o produto final.

Para lidar com essas questões, os desenvolvedores de IA podem precisar estabelecer processos para avaliar modelos e dados de IA externos e descobrir os valores dos parceiros e os sistemas técnicos subjacentes antes de lançar novas parcerias. (Isso pode ser semelhante à forma como as empresas gerenciam os riscos potenciais dos parceiros em relação à sustentabilidade e às práticas para medir e gerenciar as emissões do Escopo 3.)
Este não é um jogo de uma só vez. Conforme a corrida entre modelos fundamentais poderosos se desenrola, as empresas podem mudar os modelos que usam para seus produtos ao longo do tempo. Elas descobrirão que as capacidades de teste de IA e a devida diligência eficaz em torno dos valores podem ser fontes de vantagem competitiva.

5 – GARANTIR O FEEDBACK HUMANO

Incorporar valores na IA requer enormes quantidades de dados – grande parte dos quais será gerada ou rotulada por humanos, como mencionado anteriormente. Na maioria dos casos, isso ocorre em dois fluxos: dados usados para treinar a IA e dados do feedback contínuo sobre seu comportamento.

Para garantir o alinhamento de valores, novos processos para feedback devem ser estabelecidos. Uma prática comum para fazer isso é chamada de “aprendizado por reforço a partir do feedback humano” (RLHF), um processo pelo qual saídas indesejáveis – como linguagem abusiva – podem ser minimizadas pela entrada humana. Humanos revisam a saída de um sistema de IA, como sua classificação do currículo de alguém, sua decisão de realizar uma ação de navegação ou o conteúdo que ele gera, e o classificam de acordo com o quão desalinhado com certos valores pode ser.

A classificação é usada em novos dados de treinamento para melhorar o comportamento da IA. Claro, uma decisão-chave nessa abordagem é quem deve fornecer feedback e como. O RLHF pode ocorrer em várias etapas do ciclo de vida da IA, tanto antes quanto após o lançamento de um produto. Nas primeiras etapas, os engenheiros podem fornecer feedback enquanto testam a saída da IA.

Outra prática é criar “equipes vermelhas” cujo mandato é levar a IA em direção a comportamentos indesejáveis. As equipes vermelhas são amplamente utilizadas em outras áreas, como segurança cibernética. Elas atuam como adversárias e atacam um sistema para explorar se e como ele pode falhar. Embora essas equipes geralmente sejam internas a uma organização, as comunidades externas também podem ser aproveitadas.

Por exemplo, em 2023, milhares de hackers se reuniram na principal conferência de segurança cibernética, Def Con, para “atacar” grandes modelos de linguagem e identificar vulnerabilidades. Ensinar a IA a se comportar de acordo com determinados valores continua após o lançamento. De muitas maneiras, a IA é como os humanos nesse aspecto: Não importa nossa educação formal, ajustamos continuamente nosso comportamento para nos alinharmos com os valores de nossas comunidades à luz do feedback.

À medida que as pessoas usam a IA ou são afetadas por ela, podem observar comportamentos que parecem violar seus valores anunciados. Permitir que elas forneçam feedback pode ser uma fonte significativa de dados para melhorar a IA.

As plataformas online fornecem um exemplo de como estabelecer processos para o feedback do cliente. Empresas de mídia social e jogos online, por exemplo, permitem que os usuários relatem com o clique de um botão comportamentos ou conteúdos potencialmente suspeitos, postados por outros usuários ou recomendados ou gerados por um algoritmo.

Moderadores de conteúdo, seguindo diretrizes detalhadas, revisam esses relatórios, decidem se removem o conteúdo da plataforma e fornecem razões para suas decisões. Ao fazer isso, eles efetivamente desempenham o papel de “anotadores de dados”, rotulando dados como violações de valores dados ou termos de serviço.

Seus rótulos são usados para melhorar ainda mais as políticas da empresa e os algoritmos que ela utiliza. Os vieses e inconsistências dos anotadores também precisam ser gerenciados. As plataformas online estabeleceram processos de moderação de conteúdo e gerenciamento de qualidade e também protocolos de escalonamento para uso quando é difícil decidir se determinado conteúdo ou comportamento viola as diretrizes. Ao estabelecer sistemas e práticas de feedback humano, as empresas devem garantir que tanto os dados de treinamento quanto os de RLHF representem pontos de vista e culturas diversos.

Além disso, os funcionários e clientes devem entender como sua entrada e feedback estão sendo usados e como as decisões de anotação são tomadas. Por exemplo, a Lei de Serviços Digitais da UE e outras regulamentações exigem que as plataformas online forneçam relatórios anuais transparentes sobre suas decisões de moderação de conteúdo. Por fim, se os comportamentos e dados da IA incluírem conteúdo potencialmente prejudicial – o que pode ser um risco particular com a IA generativa – qualquer impacto psicológico nos anotadores que revisam esse conteúdo precisa ser considerado. Em 2021, o Meta pagou US$ 85 milhões para resolver uma ação coletiva resultante do dano psicológico causado pela exposição de seus funcionários moderadores a imagens gráficas e violentas.

6 – SE PREPARAR PARA SURPRESAS

Programas de IA estão cada vez mais exibindo comportamentos inesperados. Por exemplo, uma ferramenta de simulação de IA usada em um experimento recente pela Força Aérea dos EUA recomendou que o piloto de uma aeronave fosse morto para garantir que a missão da aeronave fosse executada corretamente.

Em outro exemplo, o programa de jogo Go AlphaGo inventou novos movimentos que especialistas em Go consideraram “super-humanos e inesperados”. Talvez o exemplo mais conhecido envolvesse o chatbot Bing da Microsoft, que começou a mostrar comportamentos agressivos e até ameaçadores em relação aos usuários logo após o lançamento, parando apenas depois que a Microsoft reduziu significativamente o possível tempo de conversa.

Experiências igualmente imprevistas aumentarão em frequência, especialmente porque o ChatGPT e outros grandes modelos de IA agora podem realizar tarefas para as quais não foram explicitamente programados – como traduzir de idiomas que não foram incluídos em nenhum dado de treinamento.

Alguns comportamentos imprevisíveis podem ser induzidos, intencionalmente ou não, pelas interações dos usuários com produtos habilitados para IA. Esses produtos podem permitir a versão extrema e a hiperpersonalização por indivíduos e empresas que ajustam os modelos com dados de vários mercados. Dessa forma, inúmeras versões de um produto de IA podem ser criadas e personalizadas de acordo com a interação de cada usuário com ele.

Garantir que todas essas versões permaneçam alinhadas e não exibam comportamentos emergentes novos pode ser um desafio. Embora as melhores práticas, como testes rigorosos e equipe de teste, possam diminuir esses riscos, pode ser impossível garantir que os produtos habilitados para IA não exibam comportamentos inesperados uma vez lançados.

Uma situação paralela existe há muitos anos no setor farmacêutico. Não importa quantos recursos sejam gastos em ensaios clínicos, vários medicamentos aprovados são retirados do mercado todos os anos porque produzem efeitos colaterais não identificados antes do lançamento.

É por isso que existe a “farmacovigilância”, pela qual médicos e pacientes comunicam quaisquer efeitos colaterais de um medicamento a um regulador ou fabricante de forma padronizada; uma análise estatística desses relatórios é desenvolvida; e, eventualmente, se necessário, o medicamento é retirado do mercado.

Da mesma forma, as empresas devem implementar processos robustos para detectar e amenizar comportamentos prejudiciais ou inesperados após o lançamento de um produto de IA. Incidentes devem ser identificados, relatados pelos usuários ou qualquer pessoa afetada, e analisados pela empresa.

As empresas podem precisar construir bancos de dados de incidentes de IA, como os que a OCDE e a Parceria em IA desenvolveram, para constantemente aprender e documentar como seus produtos de IA evoluem.

A própria IA pode facilitar o monitoramento desses produtos durante o uso. Por exemplo, as empresas podem ter um modelo de IA desafiando outro com aprendizado adversarial. A abordagem é semelhante aos testes pré-implementação e à equipe vermelha, mas esses são difíceis de dimensionar e não aplicáveis ​​a modelos de IA que são atualizados durante o uso, enquanto o aprendizado adversarial permite testar continuamente qualquer número de versões de modelos de IA.

Mais recentemente, ferramentas de detecção fora da distribuição (OOD) têm sido usadas para ajudar a IA com coisas que ela não encontrou antes, como objetos desconhecidos para um veículo autônomo ou um eletrodoméstico. O robô de xadrez que segurou a mão de uma criança porque confundiu a mão com uma peça de xadrez é um exemplo clássico do que pode resultar.
Essencialmente, o que as ferramentas OOD fazem é permitir que a IA reconheça novas variáveis ou mudanças no ambiente, ajudando-a a “saber o que não sabe” e se abster de ações em situações para as quais não foi treinada para lidar.
Ferramentas baseadas em linguagem natural podem permitir que os clientes tenham um diálogo direto com produtos habilitados para IA: à medida que os usuários experimentam desvios nos padrões de comportamento esperados, eles podem comunicar suas necessidades, intenções e feedback para a IA em sua própria linguagem.

Essas ferramentas permitem que as empresas adotem uma abordagem comunitária e participativa para garantir que seus produtos permaneçam alinhados com os valores fundamentais.

Em um mundo onde o alinhamento de valores de IA pode determinar resultados competitivos e até se tornar um requisito para a qualidade do produto, é fundamental reconhecer os riscos e as oportunidades para a diferenciação do produto e adotar novas práticas e processos para se manter à frente do jogo. Os clientes – e a sociedade de forma mais ampla – esperam que as empresas operem de acordo com determinados valores. Neste novo mundo, eles não podem se dar ao luxo de lançar produtos e serviços habilitados para IA que se comportem mal.

Fonte desse artigo:

HBR, Fevereiro de 2024

Sobre os autores:

    • JACOB ABERNETHY é professor associado no Instituto de Tecnologia da Geórgia e cofundador da empresa de análise de água BlueConduit.
    • FRANÇOIS CANDELON é diretor administrativo e sócio sênior do Boston Consulting Group e diretor global do BCG Henderson Institute.
    • THEODOROS EVGENIOU é professor na INSEAD e cofundador da empresa de confiança e segurança Tremau.
    • ABHISHEK GUPTA é diretor de IA responsável no Boston Consulting Group, membro do BCG Henderson Institute e fundador e pesquisador principal do Instituto de Ética em IA de Montreal.
    • YVES LOSTANLEN ocupou cargos executivos e aconselhou os CEOs de inúmeras empresas, incluindo AI Redefined e Element AI.

Artigo traduzido pelo ChatGPT