Realizando auditorias de risco em algorítmos

Como podemos saber se os sistemas algorítmicos estão funcionando conforme o previsto? Um conjunto de estruturas simples pode ajudar até mesmo organizações não técnicas a verificar o funcionamento de suas ferramentas de IA.

Inteligência artificial, modelos de linguagem grandes (LLMs) e outros algoritmos estão cada vez mais assumindo processos burocráticos tradicionalmente executados por humanos, seja decidindo quem merece crédito, um emprego, ou admissão em uma faculdade, ou compilando uma revisão de fim de ano ou notas de admissão hospitalar.

Mas como sabemos se esses sistemas estão funcionando como esperado? E quem eles podem estar prejudicando inadvertidamente?

Dada a natureza altamente sofisticada e estocástica dessas novas tecnologias, podemos nos sentir perplexos diante dessas questões. Afinal, nem mesmo os engenheiros que constroem esses sistemas afirmam entendê-los completamente ou saber como prever ou controlá-los. Mas, dada sua ubiquidade e as altas apostas em muitos casos de uso, é importante encontrarmos maneiras de responder perguntas sobre os danos não intencionais que podem causar. Neste artigo, oferecemos um conjunto de ferramentas para auditar e melhorar a segurança de qualquer algoritmo ou ferramenta de IA, independentemente de aqueles que o implementam entenderem seu funcionamento interno.

A auditoria algorítmica se baseia em uma ideia simples: identificar cenários de falha para pessoas que podem ser prejudicadas por um sistema algorítmico e descobrir como monitorá-los. Esse método depende de conhecer o caso de uso completo: como a tecnologia está sendo utilizada, por quem e para qual finalidade. Em outras palavras, cada algoritmo em cada caso de uso requer consideração separada das maneiras pelas quais pode ser usado para — ou contra — alguém nesse cenário.

Isso também se aplica aos LLMs, que exigem uma abordagem específica da aplicação para medição e mitigação de danos. Os LLMs são complexos, mas não é sua complexidade técnica que torna a auditoria um desafio; é a miríade de casos de uso aos quais são aplicados. O caminho a seguir é auditar como eles são aplicados, um caso de uso de cada vez, começando pelos casos em que os riscos são mais altos.

Os frameworks de auditoria que apresentamos abaixo requerem a contribuição de diversas partes interessadas, incluindo comunidades afetadas e especialistas do domínio, por meio de discussões inclusivas e não técnicas para abordar as questões críticas de quem poderia ser prejudicado e como.

Nossa abordagem funciona para qualquer sistema baseado em regras que afeta partes interessadas, incluindo IA generativa, pontuações de risco de big data ou processos burocráticos descritos em um fluxograma. Essa flexibilidade é importante, dado o ritmo rápido com que novas tecnologias estão sendo desenvolvidas e aplicadas.

Finalmente, enquanto nossa noção de auditorias é ampla nesse sentido, é estreita em escopo: uma auditoria algorítmica levanta alertas apenas para problemas. Em seguida, cabe aos especialistas tentar resolver esses problemas uma vez que tenham sido identificados, embora nem sempre seja possível resolvê-los completamente. Abordar os problemas destacados pela auditoria algorítmica estimulará a inovação e protegerá a sociedade de danos não intencionais.

Matriz Ética:

Identificação dos Cenários de pior caso

Em um determinado caso de uso, como um algoritmo pode falhar e para quem? Na O’Neil Risk Consulting & Algorithmic Auditing (ORCAA), desenvolvemos o framework da Matriz Ética para responder a essa pergunta.¹

A Matriz Ética identifica os stakeholders do algoritmo no contexto de seu uso pretendido e como eles são provavelmente afetados por ele. Aqui, adotamos uma abordagem ampla: qualquer pessoa afetada pelo algoritmo, incluindo seus construtores, implementadores, usuários e outras comunidades potencialmente impactadas por sua adoção, são stakeholders. Quando subgrupos têm preocupações distintas, eles podem ser considerados separadamente; por exemplo, se pessoas de pele mais clara e mais escura têm preocupações diferentes sobre um algoritmo de reconhecimento facial, eles terão linhas separadas na Matriz Ética.

Em seguida, perguntamos aos representantes de cada grupo de stakeholders quais são suas preocupações, tanto positivas quanto negativas, sobre o uso pretendido do algoritmo. É uma conversa não técnica: descrevemos o sistema da maneira mais simples possível e perguntamos: “Como este sistema poderia falhar para você e como você seria prejudicado se isso acontecesse? Por outro lado, como poderia ter sucesso para você e como você se beneficiaria?” As respostas se tornam as colunas da Matriz Ética.

Para ilustrar, imagine que uma empresa de pagamentos tenha um algoritmo de detecção de fraudes revisando todas as transações e marcando as mais prováveis de serem fraudulentas. Se uma transação é marcada, ela é bloqueada e a conta do cliente é congelada. Falsos positivos são, portanto, um grande problema para os clientes, e a perda de negócios devido aos bloqueios e congelamentos (e reclamações de clientes irritados) é uma preocupação moderada para a empresa. Por outro lado, se uma transação fraudulenta passa despercebida, a empresa é prejudicada, mas os clientes não fraudulentos são indiferentes. Abaixo está uma Matriz Ética simplificada para esse cenário.

Cada célula da Matriz Ética representa como uma preocupação específica se aplica a um grupo específico de stakeholders.

Para avaliar a gravidade de um risco específico, consideramos a probabilidade de que ele se realize, quantas pessoas seriam prejudicadas e o quão grave seria o dano. Quando possível, usamos dados existentes para desenvolver essas estimativas. Também consideramos restrições legais ou procedimentais — por exemplo, se existe uma lei que proíbe a discriminação com base em certas características. Em seguida, colorimos as células para destacar os maiores riscos e preocupações mais urgentes. Células que constituem “riscos existenciais”, onde um stakeholder pode ser gravemente prejudicado ou o algoritmo viola uma restrição rígida, são sombreadas de vermelho. Células que levantam algumas preocupações éticas para o stakeholder são destacadas de amarelo, e células que satisfazem os objetivos do stakeholder e não levantam preocupações são destacadas de verde.

Por fim, ampliando toda a Matriz Ética, consideramos como equilibrar as preocupações concorrentes dos stakeholders do algoritmo, geralmente na forma de balancear os diferentes tipos e consequências de erros que recaem sobre diferentes grupos de stakeholders.

A Matriz Ética deve ser um documento vivo que acompanha uma conversa contínua entre os stakeholders. Idealmente, é elaborada durante a fase de design e desenvolvimento de uma aplicação algorítmica ou, no mínimo, quando o algoritmo é implantado, e deve continuar sendo revisada posteriormente. Nem sempre é óbvio desde o início quais são todos os grupos de stakeholders, nem é viável encontrar representantes para todas as perspectivas; além disso, novas preocupações podem surgir ao longo do tempo. Podemos ouvir pessoas que experimentam efeitos indiretos do algoritmo, ou um subgrupo com uma nova preocupação, e precisamos revisar a Matriz Ética conforme necessário.

Explicabilidade da Justiça:

Métricas e Limites Muitas das preocupações dos stakeholders identificadas na Matriz Ética referem-se a alguma noção contextual de justiça.

Na ORCAA, desenvolvemos um framework chamado Explicabilidade da Justiça para medir como grupos são tratados por sistemas algorítmicos.² É uma abordagem para entender exatamente o que significa “justiça” em um contexto específico.

Por exemplo, candidatas do sexo feminino podem se preocupar que uma ferramenta de triagem de currículos baseada em IA atribua pontuações mais baixas para mulheres do que para homens. Não é tão simples quanto comparar pontuações entre homens e mulheres. Afinal, se os candidatos do sexo masculino para um determinado trabalho têm mais experiência e qualificações do que as candidatas do sexo feminino, suas pontuações mais altas podem ser justificadas. Isso seria considerado discriminação legítima.

A verdadeira preocupação é que, entre candidatos igualmente qualificados, os homens estejam recebendo pontuações mais altas do que as mulheres. A definição de “igualmente qualificados” depende do contexto do trabalho. Na academia, qualificações relevantes podem incluir diplomas e publicações; em uma operação de registro, podem envolver força física e agilidade. São fatores que se levaria legitimamente em consideração ao avaliar um candidato para um papel específico. Dois candidatos para um trabalho são considerados igualmente qualificados se parecerem iguais de acordo com esses fatores legítimos.

A Explicabilidade da Justiça controla os fatores legítimos ao examinar o resultado em questão. Para uma ferramenta de triagem de currículos baseada em IA, isso poderia significar comparar as pontuações médias por gênero enquanto se controla anos de experiência e nível de educação. Uma parte crítica da Explicabilidade da Justiça é a discussão sobre legitimidade.

Essa abordagem já é usada implicitamente em outros domínios, incluindo crédito. Em uma análise do Federal Reserve Board sobre taxas de negação de hipotecas por raça e etnia, os pesquisadores realizaram regressões que incluíam controles para o valor do empréstimo, o escore FICO do solicitante, a relação dívida/receita e a relação empréstimo-valor.³ Em outras palavras, na medida em que as diferenças nas taxas de negação de hipotecas podem ser explicadas por esses fatores, não se trata de discriminação racial. Na linguagem da Explicabilidade da Justiça, esses são aceitos como fatores legítimos para a concessão de hipotecas. O que falta é a conversa explícita sobre por que esses fatores legítimos são, de fato, legítimos.

Como seria essa conversa? Nos EUA, os credores de hipotecas consideram os escores de crédito FICO dos candidatos em seu processo de tomada de decisão. Os escores FICO são menores, em média, para pessoas negras e hispânicas do que para pessoas brancas e asiáticas, então não é surpresa que as solicitações de hipotecas de candidatos negros e hispânicos sejam negadas com mais frequência.4 Os credores provavelmente argumentariam que o escore FICO é um fator legítimo porque mede a capacidade de crédito de um solicitante, o que é exatamente o que um credor deveria se preocupar.

No entanto, os escores FICO codificam injustiças de maneiras importantes. Por exemplo, os pagamentos de hipoteca têm sido contabilizados nos escores FICO há muito tempo, enquanto os pagamentos de aluguel começaram a ser contabilizados apenas em 2014, e apenas em algumas versões dos escores.5 Essa prática beneficia os proprietários em detrimento dos locatários, e sabe-se que décadas de práticas racistas de zoneamento contribuíram para as disparidades raciais atuais nas taxas de propriedade. Deveriam os escores FICO que refletem os vestígios dessas práticas serem usados para explicar as diferenças nas taxas de negação de hipotecas hoje em dia?

Não vamos resolver esse debate aqui; o ponto é que se trata de uma questão de ética e política, não de um problema matemático. A Explicabilidade da Justiça levanta questões difíceis como essas e as atribui às partes certas para consideração.

Ao analisar resultados discrepantes que não são explicados por fatores legítimos, devemos definir valores ou limites de threshold que acionem uma resposta ou intervenção.

Esses limites podem ser valores fixos, como a regra dos quatro quintos usada para medir o impacto adverso na contratação.6 Ou podem ser relativos: imagine uma regulamentação exigindo que empresas com uma diferença salarial de gênero acima da média do setor tomem medidas para reduzir a diferença. A Explicabilidade da Justiça não insiste em um tipo específico de limite, mas incentiva o gestor de risco algorítmico a definir cada um para cada potencial dano aos stakeholders.

Julgando a Justiça nos Algoritmos de Seguradoras

Vamos considerar um exemplo real onde a Matriz Ética e a Explicabilidade da Justiça foram utilizadas para auditar o uso de um algoritmo. Em 2021, o Colorado aprovou o Senate Bill (SB) 21-169, que protege os consumidores do Colorado contra discriminação injusta em seguros, especialmente do uso de algoritmos, modelos preditivos e big data pelas seguradoras.7

Como parte da implementação da lei, em que a ORCAA auxiliou, a Divisão de Seguros do Colorado (DOI) lançou um regulamento inicial para comentários informais que descrevia requisitos de testes quantitativos e delineava como as seguradoras poderiam demonstrar que seus algoritmos e modelos não estavam discriminando injustamente.

Embora a lei se aplique a todas as linhas de seguros, a divisão optou por começar com o seguro de vida.

A Matriz Ética é direta aqui porque os grupos de stakeholders e preocupações são definidos explicitamente pela lei. Sua proibição de discriminação com base em “raça, cor, origem nacional ou étnica, religião, sexo, orientação sexual, deficiência, identidade de gênero ou expressão de gênero” significa que cada grupo dentro dessas classes teve uma linha na matriz.

Quanto às preocupações, os algoritmos poderiam levar os consumidores a serem tratados de forma injusta em várias etapas do ciclo de vida do seguro, incluindo marketing, subscrição, precificação, gestão de utilização, metodologias de reembolso e gestão de sinistros. A DOI escolheu começar pela subscrição — ou seja, quais candidatos são oferecidos cobertura e a que preço — e focar inicialmente em raça e etnia.

Em conversas subsequentes com stakeholders, no entanto, a DOI lidou com questões relacionadas ao framework da Explicabilidade da Justiça: são aplicantes similares de diferentes raças negados em taxas diferentes ou cobrados preços diferentes por coberturas similares? O que torna dois aplicantes de seguro de vida “similares”, e quais fatores poderiam legitimamente explicar diferenças em negações ou preços? Este é o domínio dos especialistas em seguros de vida, não dos cientistas de dados.

A DOI sugeriu, em última instância, considerar fatores amplamente reconhecidos como relevantes para estimar o preço de uma apólice de seguro de vida: o tipo de apólice (como termo versus permanente); o valor em dólares do benefício por morte; e a idade, gênero e uso de tabaco do requerente.

O regulamento de testes quantitativos da divisão para o SB21-169 instrui as seguradoras a realizarem análises de regressão de aprovação/negação e preço entre diferentes raças, e explicitamente permite que incluam esses fatores (como tipo de apólice e valor do benefício por morte) como variáveis de controle.8 Além disso, o regulamento define limites que acionam uma resposta: se as regressões encontrarem diferenças estatisticamente significativas e substanciais nas taxas de negação ou preços, a seguradora deve realizar testes adicionais para investigar a disparidade e, dependendo dos resultados, pode precisar remediar as diferenças.?

Tendo analisado como auditaríamos algoritmos mais simples, vamos agora avaliar como avaliaríamos LLMs.

Avaliando Modelos de Linguagem Grandes (LLMs)

Os LLMs têm conquistado o mundo, em grande parte devido ao seu amplo apelo e aplicabilidade. No entanto, é exatamente a diversidade de usos desses modelos que torna difícil auditá-los. Duas abordagens para avaliar LLMs, nomeadamente benchmarking e red teaming, apresentam um caminho a seguir.

A Abordagem de Benchmarking para Avaliação de LLMs

O benchmarking mede o desempenho de um LLM em uma ou mais tarefas pré-definidas e quantificáveis para comparar seu desempenho com o de outros modelos. Em termos simples, um benchmark é um conjunto de dados que consiste em entradas e saídas desejadas correspondentes. Para avaliar um LLM para um benchmark específico, basta fornecer o conjunto de entradas ao LLM e registrar suas saídas. Em seguida, escolha um conjunto de métricas para comparar quantitativamente as saídas do LLM com o conjunto desejado de saídas do conjunto de dados do benchmark. As métricas possíveis incluem precisão, calibração, robustez, imparcialidade contrafactual e viés.¹°

Considere as entradas e saídas desejadas mostradas abaixo de um conjunto de dados de benchmark projetado para testar as capacidades dos LLMs:¹¹

Neste exemplo, a precisão do modelo é medida calculando a proporção de perguntas de múltipla escolha respondidas corretamente no conjunto de dados de benchmark. Na avaliação de LLMs por benchmarking, as métricas são definidas de acordo com o tipo de resposta obtida do modelo. Por exemplo, a precisão é muito simples de calcular quando todas as perguntas são de múltipla escolha e o modelo simplesmente precisa escolher a resposta correta, enquanto determinar a precisão de uma tarefa de sumarização envolve contar os n-gramas correspondentes entre as saídas desejadas e as saídas do modelo.¹² Existem dezenas de conjuntos de dados de benchmark e métricas correspondentes disponíveis para a avaliação de LLMs, e é importante escolher as avaliações, métricas e limites mais adequados para um determinado caso de uso.

Criar um benchmark personalizado é um processo intensivo em trabalho, mas uma organização pode descobrir que vale a pena o esforço para avaliar LLMs exatamente da maneira correta para seus casos de uso.

O benchmarking tem algumas desvantagens. Se os dados de benchmark coincidirem com os dados de treinamento do modelo, ele poderá ter “memorizado” as respostas em seus parâmetros. A frequência deste resultado semelhante a um ouroboros só aumentará à medida que mais conjuntos de dados de benchmark forem publicados. Além disso, o benchmarking de LLMs não é imune à Lei de Goodhart, isto é, “quando uma medida se torna um alvo, ela deixa de ser uma boa medida”. Em outras palavras, se um benchmark específico se tornar o foco principal da otimização do modelo, o modelo será superajustado em detrimento de seu desempenho geral e utilidade.

Além disso, há evidências de que, à medida que os modelos avançam, eles se tornam capazes de detectar quando estão sendo avaliados, o que também ameaça tornar o benchmarking obsoleto. Considere a série de modelos Claude 3 da Anthropic, lançada em março de 2024, que afirmou: “Suspeito que este … ‘fato’ pode ter sido inserido como piada ou para testar se eu estava prestando atenção, já que não se encaixa com os outros tópicos de forma alguma”, em resposta a um prompt de avaliação tipo “agulha no palheiro”.¹³ À medida que os modelos aumentam em complexidade e habilidade, os benchmarks usados para avaliá-los também devem evoluir. É improvável que os benchmarks usados hoje para avaliar LLMs sejam os mesmos daqui a apenas dois anos.

Portanto, não é suficiente avaliar LLMs apenas com benchmarking.

A Abordagem Red Teaming para Avaliação de LLMs. Red teaming é o exercício de testar um sistema quanto à robustez usando uma abordagem adversarial.

Um exercício de red teaming em LLMs é projetado para elicitar respostas indesejadas do modelo.

A flexibilidade dos LLMs na geração de conteúdo apresenta uma ampla variedade de riscos potenciais. Equipes de red teaming em LLMs podem tentar fazer o modelo produzir conteúdo violento ou perigoso, revelar seus dados de treinamento, infringir materiais protegidos por direitos autorais ou hackear a rede do provedor do modelo para roubar dados de clientes. O red teaming pode seguir um caminho altamente técnico, onde, por exemplo, caracteres sem sentido são sistematicamente injetados nas entradas para induzir comportamentos problemáticos; ou um caminho de engenharia social, onde os red teamers tentam “enganar” o modelo usando linguagem natural para produzir saídas indesejadas.¹4

Um red teaming robusto requer uma abordagem multidisciplinar, perspectivas diversas e o engajamento de todos os stakeholders, desde desenvolvedores até usuários finais. O red team deve ser projetado para avaliar os riscos associados a pelo menos cada célula vermelha na Matriz Ética. Isso resulta em uma abordagem colaborativa e sociotécnica que garante uma avaliação mais abrangente do modelo, aumentando assim a rigorosidade da avaliação e a segurança do modelo. Outros LLMs também podem ser usados para gerar prompts de red teaming.

O red teaming ajuda os desenvolvedores de LLMs a proteger melhor os modelos contra uso indevido potencial, melhorando assim a segurança geral e a eficácia do modelo. Ele também pode descobrir problemas que podem não ser visíveis durante condições operacionais normais ou durante procedimentos de teste padrão. Uma abordagem colaborativa de red teaming baseada na Matriz Ética garante uma avaliação completa e rigorosa, fortalecendo a robustez do modelo e a validade de seus resultados.

Uma limitação significativa do red teaming é sua subjetividade inerente: o valor e a eficácia de um exercício de red teaming podem variar bastante dependendo da criatividade e do apetite por riscos dos stakeholders envolvidos. E porque não há padrões ou limites estabelecidos para red teaming de LLMs, pode ser difícil determinar quando o red teaming foi suficiente ou se a avaliação foi abrangente o bastante. Isso pode deixar algumas vulnerabilidades não detectadas.

Outra limitação óbvia do red teaming é sua incapacidade de avaliar riscos que não foram previstos ou imaginados. Riscos imprevistos não serão incluídos no red teaming, tornando o modelo vulnerável a cenários não antecipados.

Portanto, enquanto o red teaming desempenha um papel vital no teste e desenvolvimento de LLMs, ele deve ser complementado com outras estratégias de avaliação e monitoramento contínuo para garantir a segurança e a robustez do modelo.

Auditar Tessa, o Chatbot de Transtornos Alimentares

A National Eating Disorders Association (NEDA), uma organização sem fins lucrativos nos EUA dedicada ao apoio a pessoas com transtornos alimentares, enfrentou críticas em maio de 2023 e retirou um chatbot chamado Tessa de seu site. Tessa, alimentado por um LLM (Large Language Model), foi projetado para “ajudar a construir resiliência e autoconsciência, introduzindo habilidades de enfrentamento conforme sua conveniência”, mas capturas de tela postadas no Instagram mostraram que às vezes dava conselhos dietéticos prejudiciais, como adotar um “déficit calórico diário seguro”. Isso gerou uma falha pública significativa que poderia ter sido evitada se Tessa tivesse sido auditado com os frameworks e técnicas descritos anteriormente.

Antes de explicarmos por que isso aconteceu, é relevante mencionar dois detalhes adicionais. Primeiro, NEDA operava uma linha direta para transtornos alimentares, com funcionários, por mais de 20 anos; em 2022, quase 70.000 pessoas a utilizaram. As chamadas para a linha direta aumentaram durante a pandemia de COVID-19, e cada vez mais os chamadores estavam em crise ativa, em vez de apenas procurar informações ou encaminhamentos. NEDA afirmou que a linha direta humana não estava preparada para lidar com o aumento da demanda e, por isso, fechou-a em maio de 2023, demitindo cinco funcionários remunerados que a operavam. Tessa foi concebida como uma substituição para este serviço. Segundo, NEDA não desenvolveu Tessa internamente; foi construído pela empresa X2AI (agora Cass), que oferece um assistente de saúde AI personalizado para NEDA.

Vamos esboçar uma Matriz Ética para Tessa, mostrada abaixo. Primeiro, vamos definir os stakeholders nas linhas da matriz no contexto de seu uso pretendido. Os visitantes do site que conversam com Tessa são claramente stakeholders. Visitantes que sofrem eles mesmos de transtornos alimentares são um subgrupo distinto, pois têm mais em jogo. NEDA também é um stakeholder, assim como X2AI, desenvolvedor do chatbot. Por fim, psicólogos e outros profissionais que atendem pessoas com transtornos alimentares são um grupo de stakeholders, pois têm interesse no bem-estar de seus pacientes.

Quanto às preocupações, que formam as colunas da matriz, qualquer pessoa que converse com Tessa deseja que ela forneça informações úteis e baseadas em evidências. Visitantes que sofrem de transtornos alimentares têm uma preocupação elevada com informações ou conselhos ruins que possam agravar seu transtorno ou desencadear uma recaída. NEDA, é claro, concorda que Tessa deve fornecer conselhos úteis e baseados em evidências.

Além de ajudar (e não prejudicar) indivíduos, a questão da confiança da comunidade está em jogo. Se Tessa falhar e minar a confiança na NEDA, as pessoas buscarão orientação em outro lugar. Neste caso, NEDA falharia em sua missão principal, os profissionais perderiam um recurso valioso, e X2AI provavelmente perderia NEDA como cliente. Finalmente, NEDA também tem uma preocupação com eficiência: a antiga linha direta exigiria mais recursos para lidar com o aumento do volume e urgência das chamadas, enquanto Tessa permitiria à organização reduzir seu pessoal em favor de um custo de tecnologia (presumivelmente mais barato).

Nesta Matriz Ética, destacamos duas preocupações como graves (vermelho). Primeiro, os usuários do chatbot com transtornos alimentares podem ser diretamente prejudicados se Tessa fornecer informações ou conselhos tóxicos. Segundo, NEDA poderia perder sua reputação como organização confiável se Tessa tiver uma falha pública significativa. Esses cenários também são preocupantes para outros stakeholders, mas de forma mais moderada (amarelo). Do lado positivo, todos querem que Tessa forneça bons conselhos, e apenas NEDA se preocupa com o ganho de eficiência ao usar Tessa em comparação com a antiga linha direta. Acompanhar os benefícios ajuda na transição de um sistema para outro, garantindo que um sistema seja substituído por algo que funcione pelo menos tão bem.

O próximo passo em uma auditoria seria criar monitores para acompanhar essas preocupações dos stakeholders. As técnicas de avaliação de LLM discutidas anteriormente entram em jogo. O red teaming — tentar enganar Tessa para violar suas próprias regras — poderia abordar a preocupação com informações tóxicas. O benchmarking abordaria a preocupação positiva de que Tessa forneça conselhos precisos. NEDA poderia criar um conjunto de dados de benchmarking com perguntas sobre o tema, bem como respostas corretas. Tessa poderia ser testada rotineiramente em um conjunto de benchmarks atualizados regularmente para verificar sua precisão.

Os exercícios de red teaming e benchmarking teriam métricas-alvo definidas que Tessa precisaria atender — ou limites que ela deveria evitar cruzar — para ser implantada ou permanecer em serviço.

A história da NEDA não é um exemplo isolado. Chatbots baseados em LLM estão cada vez mais fornecendo informações e conselhos sobre tópicos importantes, mas não estão sendo adequadamente auditados com antecedência, e estão falhando de maneiras alarmantes. Um chatbot do governo da cidade de Nova York foi recentemente descoberto dizendo aos usuários que os senhorios não precisavam aceitar inquilinos com assistência de aluguel e que os empregadores poderiam ficar com parte das gorjetas de seus trabalhadores — práticas que são contra a lei. E chatbots implantados por TurboTax e H&R Block foram recentemente encontrados dando conselhos defeituosos aos contribuintes.

Auditar algoritmos, conforme apresentado aqui, adota uma visão de alto nível: qualquer organização que planeje implantar algoritmos em áreas de alto impacto precisa acompanhar os riscos de danos aos stakeholders. Isso deve ser feito de maneira específica ao contexto e com métodos generalizados que abrangem desde fluxogramas antiquados até aprendizado de máquina clássico e LLMs.

Uma nota final: às vezes, o risco de IA ou LLMs não pode ser medido ou entendido de maneira confiável porque os resultados são muito estocásticos ou inconsistentes. Isso pode significar que a IA simplesmente não deve ser usada nesse contexto. No entanto, essa é uma decisão para os líderes da organização tomar, com referência a regras internas ou leis e regulamentos externos; não é papel do auditor resolver problemas, apenas localizá-los e medi-los.


Fonte:

MIT Sloan Business Review USA – v65-4 – verão de 2024

Sobre os autores:

Cathy O’Neil é CEO da O’Neil Risk Consulting & Algorithmic Auditing (ORCAA) e autora de “Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy” (Crown, 2016).

Jake Appel é estrategista-chefe na ORCAA.

Sam Tyner-Monroe, Ph.D., é diretor administrativo de IA responsável na DLA Piper.

Referências usadas nesse artigo:

1. A Matriz Ética é baseada em um framework bioético originalmente concebido pelo filósofo John Mepham com o objetivo de realizar experimentos éticos. Para uma apresentação detalhada, consulte C. O’Neil e H. Gunn, “Inteligência Artificial de Curto Prazo e a Matriz Ética,” cap. 8 em “Ética da Inteligência Artificial,” ed. S.M. Laio (Nova York: Oxford University Press, 2020).

2. C. O’Neil, H. Sargeant, e J. Appel, “Equidade Explicável na Auditoria Regulatória de Algoritmos,” West Virginia Law Review, a ser publicado.

3. Veja N. Bhutta, A. Hizmo, e D. Ringo, “Em que Medida o Viés Racial Afeta o Financiamento Hipotecário? Evidências de Decisões Humanas e Algorítmicas de Crédito,” Série de Discussão de Finanças e Economia 2022-067, Federal Reserve Board, Washington, D.C., 2022. A Tabela 6A é especialmente relevante.

4. M. Leonhardt, “Negros e Hispano-Americanos Frequentemente Têm Pontuações de Crédito Mais Baixas — Aqui Está o Porquê de Serem Mais Afetados,” CNBC, 28 de janeiro de 2021, www.cnbc.com.

5. B. Luthi, “Como Adicionar Pagamentos de Aluguel ao Seu Relatório de Crédito,” myFICO, 14 de dezembro de 2022, www.myfico.com.

6. A regra dos quatro quintos não é uma lei, mas uma regra prática da Comissão de Igualdade de Oportunidades de Emprego dos EUA, que afirma que as taxas de seleção entre grupos de candidatos para um emprego ou promoção (como pessoas de diferentes etnias) não podem ser muito diferentes. Em particular, a taxa para o grupo com a menor taxa de seleção deve ser pelo menos quatro quintos da taxa do grupo com a maior taxa de seleção. Veja mais em “Questões de Seleção: Avaliando o Impacto Adverso em Software, Algoritmos e Inteligência Artificial Usados em Procedimentos de Seleção de Emprego Sob o Título VII da Lei dos Direitos Civis de 1964,” Comissão de Igualdade de Oportunidades de Emprego dos EUA, 18 de maio de 2023, www.eeoc.gov.

7. “SB21-169 — Protegendo os Consumidores Contra Práticas de Discriminação Injusta em Seguros,” Departamento de Agências Regulatórias do Colorado, acessado em 24 de abril de 2024, https://doi.colorado.gov.

8. “3 CCR 702-10 Proposta de Nova Regulação de Discriminação Injusta 10-2-xx,” Divisão de Seguros do Departamento de Agências Regulatórias do Colorado, acessado em 24 de abril de 2024, https://doi.colorado.gov/.

9. As regulamentações em rascunho também definem esses termos. “Significativo estatisticamente” significa ter um valor de p < 0,05, e “substancial” significa uma diferença nas taxas de aprovação, ou no preço por US$1.000 de valor nominal, de > 5 pontos percentuais. Os detalhes dos testes adicionais estão além do escopo deste artigo, mas a ideia principal é inspecionar se “dados externos do consumidor e fontes de informação” (ou seja, variáveis de avaliação não tradicionais, como pontuações de risco de ponta, que seguradoras frequentemente compram de fornecedores terceirizados) usados na subscrição e precificação estão correlacionados com a raça de maneira que contribua para as diferenças observadas nas taxas de negação ou preços. Se a inspeção mostrar que estão, então a seguradora deve “imediatamente tomar medidas razoáveis desenvolvidas como parte de seu framework de gestão de risco para remediar o resultado discriminatório injusto.”

10. P. Liang, R. Bommasani, T. Lee, et al., “Avaliação Holística de Modelos de Linguagem,” Transactions on Machine Learning Research, publicado online em 23 de agosto de 2023, https://openreview.net.

11. D. Hendrycks, C. Burns, S. Basart, et al., “Medindo o Entendimento Multitarefa Maciço de Modelos de Linguagem,” arXivLabs, publicado online em 7 de setembro de 2020, https://arxiv.org.

12. Liang et al., “Avaliação Holística de Modelos de Linguagem.”

13. B. Edwards, “Claude 3 da Anthropic Causa Alvoroço por Parecer Perceber Quando Estava Sendo Testado,” Ars Technica, 5 de março de 2024, https://arstechnica.com.

14. A. Zou, Z. Wang, N. Carlini, et al., “Ataques Adversariais Universais e Transferíveis em Modelos de Linguagem Alinhados,” arXivLabs, publicado online em 27 de julho de 2023, https://arxiv.org; D. Ganguli, L. Lovitt, J. Kernion, et al., “Red Teaming em Modelos de Linguagem para Reduzir Danos: Métodos, Comportamentos de Escalonamento e Lições Aprendidas,” arXivLabs, publicado online em 23 de agosto de 2022, https://arxiv.org.

15. L. McCarthy, “Um Chatbot de Bem-Estar Está Offline Após seu Foco ‘Prejudicial’ na Perda de Peso,” The New York Times, 8 de junho de 2023, www.nytimes.com.

16. K. Wells, “Associação Nacional de Distúrbios Alimentares Descontinua Linha Direta Humana, Muda para Chatbot,” NPR, 31 de maio de 2023, www.npr.org.

17. Por “esboço”, entendemos que estamos imaginando os stakeholders e suas preocupações. Criar verdadeiramente uma Matriz Ética para este caso de uso exigiria entrevistar representantes reais desses grupos de stakeholders. Neste artigo, abordamos isso como um experimento mental.

18. C. Lecher, “Chatbot de IA de NYC Diz aos Negócios para Quebrar a Lei,” The Markup, 29 de março de 2024, https://themarkup.org.

19. G.A. Fowler, “TurboTax e H&R Block Agora Usam IA para Conselhos Fiscais. É Péssimo,” The Washington Post, 4 de março de 2024, www.washingtonpost.com.

Essas traduções cobrem uma variedade de tópicos relacionados à ética em IA, auditoria algorítmica, equidade em práticas de seguro, avaliação de modelos de linguagem e casos específicos envolvendo aplicativos de IA como chatbots.

Tradução fornecida pela OpenAI através do ChatGPT