Gerenciando o risco de privacidade de dados em análises avançadas

Técnicas de ciber segurança que mantêm dados pessoais seguros podem limitar seu uso para análises — mas cientistas de dados, proprietários de dados e profissionais de TI podem colaborar mais estreitamente para encontrar um meio-termo. Como podemos proteger a privacidade dos dados pessoais de nossos clientes enquanto utilizamos esses dados por meio de IA e análises?

Essa pergunta reflete um dilema interno crescente à medida que as empresas buscam análises avançadas e inteligência artificial.

Os volumes de dados que as vidas cada vez mais digitalizadas dos clientes produzem podem ser uma rica fonte de insights para as organizações que usam ferramentas de análises avançadas. Ao mesmo tempo, esses dados são uma grande fonte de preocupação para as equipes de TI comprometidas em atender às expectativas das agências reguladoras e dos consumidores em relação à privacidade de dados. Ambos são objetivos importantes — mas alcançá-los simultaneamente requer enfrentar um conflito inerente. Aumentar a privacidade dos dados no contexto de análises e IA envolve o uso de técnicas que podem reduzir a utilidade dos dados, dependendo da tarefa e da técnica de preservação da privacidade escolhida.

Essa questão é algo que um número crescente de organizações enfrentará à medida que os campos de análises e IA continuarem a evoluir rapidamente e levarem à disponibilidade generalizada de uma série de ferramentas e técnicas (incluindo serviços turnkey e baseados na nuvem) que permitem que as organizações usem os dados com mais facilidade do que nunca. Enquanto isso, os clientes têm expectativas crescentes de que as empresas tomarão todas as precauções necessárias para proteger a privacidade de seus dados pessoais, especialmente à luz de relatórios de grandes violações de dados cobertos pela mídia convencional. Essas expectativas são respaldadas por regulamentações sobre dados pessoais e IA em todo o mundo, o que torna essencial que as empresas mantenham práticas de proteção de dados pessoais em conformidade.

As nuances da proteção de dados pessoais

Fundamentalmente, a privacidade dos dados consiste em avaliar a probabilidade de que um ou mais atributos, ou pedaços de informação, sobre um indivíduo cujos dados foram anonimizados e incluídos com outros em um conjunto de dados possam ser usados para reidentificar esse indivíduo específico. Alguns desses atributos são óbvios: Identificadores diretos que permitem a identificação quase imediata incluem nome e número do Seguro Social. Quase-identificadores geralmente não permitem a identificação de um indivíduo sozinho, mas sua singularidade ou sua combinação com outros atributos podem fazê-lo. Por exemplo, a combinação da idade de uma pessoa e seu endereço pode permitir sua reidentificação. Ou considere um conjunto de dados mantido pela equipe de alerta de fraudes de um banco sobre transações de cartões dos clientes. Esse conjunto de dados contém tanto identificadores diretos (como o nome do cliente) quanto quase-identificadores (como informações de transações de cartões de crédito).

No contexto de análises e IA, quase-identificadores são frequentemente muito valiosos porque podem ajudar as organizações a descobrir características e padrões compartilhados que podem ajudá-las a encontrar ou atender melhor seus clientes. Mas mesmo quase-identificadores aparentemente inofensivos, como o estado civil, podem ser combinados com outras informações publicamente disponíveis para reidentificar uma pessoa específica. Consequentemente, as empresas já estão sendo desafiadas a ir além da proteção apenas das informações pessoalmente identificáveis e a considerar como proteger também os quase-identificadores.

Encontrar as soluções ideais para o dilema da privacidade-utilidade também exigirá uma compreensão mais ampla da privacidade de dados em toda a organização, além das funções de TI e cibersegurança. Gerentes que buscam entender melhor o escopo das opções disponíveis para equilibrar a privacidade de dados com a utilidade devem estar amplamente familiarizados com a variedade de abordagens disponíveis. Cada uma tem suas próprias vantagens e desvantagens, com implicações variadas para a privacidade dos dados e a utilidade dos dados.

Equilíbrio entre privacidade e utilidade

Para entender como as organizações estão enfrentando a complexa questão de proteger os dados pessoais sob sua responsabilidade, enquanto também os utilizam para análises e IA, vamos examinar iniciativas recentemente empreendidas pelo Banco Nacional do Canadá. (Note que Julien supervisiona a inteligência artificial no banco; Gregory e Patrick estudaram as práticas da organização.) Fundado em 1859, o Banco Nacional é uma das maiores instituições financeiras do Canadá. Como seus concorrentes, deve cumprir rigorosos requisitos regulatórios federais e provinciais. Os clientes confiam que o Banco Nacional gerencia seu dinheiro e a vasta quantidade de dados pessoais que compartilham com o banco (quando realizam transações ou solicitam empréstimos, por exemplo) com o máximo cuidado.

Como instituição financeira, o Banco Nacional considera a confiança do cliente seu maior ativo e, portanto, construiu uma cultura em que proteger a privacidade dos dados dos clientes é um valor fundamental. Além de impulsionar esforços significativos e investimentos em cibersegurança e treinamento em toda a organização, o banco também tem priorizado cada vez mais análises e IA. Aqui, novas técnicas e abordagens aumentam o potencial de usar dados pessoais para melhorar os serviços para os clientes. Esse uso crescente de técnicas de IA também exige esforços de proteção intensificados, dado que novas abordagens podem ser usadas para comprometer a privacidade dos dados pessoais.

A proteção de dados era tradicionalmente tratada como uma questão de segurança que era responsabilidade dos especialistas em cibersegurança do Banco Nacional. Sob essa lógica, a proteção de dados pessoais seria garantida usando técnicas comprovadas. No entanto, algumas dessas técnicas podem não alcançar facilmente o equilíbrio necessário entre privacidade de dados e utilidade de dados. Por exemplo, as equipes de cibersegurança podem criptografar arquivos inteiros, mas isso impede que os cientistas de dados possam usar os dados contidos nesses arquivos. Usando uma abordagem mais granular, identificadores diretos podem ser protegidos usando tokenização (para alcançar a desidentificação), permitindo que a equipe de ciência de dados utilize quase-identificadores, mas isso não resolve o risco de reidentificação associado a esses quase-identificadores. Para satisfazer simultaneamente os requisitos de privacidade de dados e utilidade de dados, as equipes devem encontrar um terreno comum que lhes permita ir além das técnicas que favorecem uma abordagem de “ou/ou”. No caso do Banco Nacional, identificamos três passos importantes que contribuem para sua capacidade de alcançar esse objetivo.

PASSO 1:

Reduzir a lacuna entre TI e ciência de dados.

Na maioria das organizações, as equipes de cibersegurança e IA/ciência de dados não trabalham juntas. Cada uma tem sua especialidade, e tentar colocar os dados para funcionar requer colaboração entre especialistas que tendem a trabalhar em silos. O Banco Nacional percebeu que essa divisão levava a ineficiências, frustração e uma falta geral de compreensão mútua das prioridades e preocupações das equipes, e se propôs a mitigar o problema. Os gerentes promoveram uma estreita colaboração entre especialistas em cibersegurança e membros da equipe de entrega de IA — incluindo aqueles em funções como arquiteto de IA, cientista de dados, engenheiro de aprendizado de máquina e engenheiro de dados — para evoluir suas competências e habilidades no domínio de especialização um do outro.

Uma ilustração da importância de construir essa compreensão mútua é o exemplo do uso de dados sintéticos, onde pode haver uma probabilidade de reidentificação, dependendo do tipo de algoritmo usado para gerar os dados, os dados usados para treinar o sistema, o ajuste fino dos parâmetros e os atributos aos quais essa abordagem é aplicada. Isso marca uma mudança significativa em relação ao uso de técnicas como a criptografia de dados, que proporcionam grande segurança às custas de qualquer utilidade dos dados. As equipes de cibersegurança e de entrega de IA do Banco Nacional trabalharam juntas para desenvolver uma compreensão comum tanto do problema quanto do fato de que teriam que avaliar o potencial de desanonimização dos dados pessoais em relação ao grau de utilidade proporcionado pelos dados sintéticos. Esse processo deu à equipe de cibersegurança uma visão sobre como as técnicas de reidentificação estão cada vez mais enraizadas na ciência de dados, enquanto a equipe de IA melhorou sua compreensão do trabalho que as equipes de cibersegurança fazem para garantir o compartilhamento e uso adequados dos dados pessoais.

Passo 2:

Formalize e documente a tomada de decisões sobre privacidade de dados

As decisões relacionadas à privacidade de dados precisam ser claramente motivadas e justificáveis para os reguladores em caso de auditoria — um cenário em que as organizações devem demonstrar que fizeram tudo o que podiam para proteger a privacidade dos dados dos clientes. Isso significa que devem ser capazes de justificar por que decidiram usar uma determinada técnica de preservação da privacidade em vez de outra em uma situação específica.

A colaboração entre as equipes de cibersegurança e de entrega de IA do Banco Nacional levou a esforços contínuos para quantificar os impactos de várias abordagens na privacidade e na utilidade dos dados, a fim de melhor informar essas decisões. As equipes simulam auditorias em conjuntos de dados que foram protegidos usando diferentes abordagens e parâmetros de privacidade de dados para calcular a probabilidade de reidentificação dentro desses conjuntos de dados. Ao mesmo tempo, avaliam a utilidade desses conjuntos de dados com base nas mesmas abordagens e parâmetros. Por exemplo, certas técnicas de anonimização de dados funcionam tornando os quase-identificadores mais gerais (como substituindo valores reais de renda por faixas de renda mais amplas).

Embora isso aumente a privacidade dos dados dos clientes, é importante não comprometer todas as nuances contidas no conjunto de dados original que o tornam valioso para a organização. Usando o exemplo das faixas de renda, estas não devem ser estreitas o suficiente para permitir a reidentificação, nem tão amplas a ponto de serem inúteis para análise. Ao avaliar essas duas variáveis simultaneamente, os gerentes de dados podem quantificá-las e documentá-las para tomar uma decisão informada em contextos específicos de compartilhamento de dados. O ponto-chave aqui é que a combinação de privacidade de dados e utilidade de dados pode ser reconhecida como um fator de risco que pode ser mitigado com confiança suficiente.

Passo 3:

Mantenha-se informado sobre tecnologia, regulamentações e ameaças em evolução

Como era de se esperar, as regulamentações de privacidade de dados não prescrevem uma abordagem; elas exigem um resultado: manter os dados pessoais das pessoas seguros. Embora as regulamentações possam variar entre jurisdições, elas geralmente definem critérios que podem ser aplicados independentemente do cenário considerado, como o que constitui a anonimização de dados. Então, as organizações são responsáveis por elaborar estratégias de proteção de dados que atendam a esses critérios. Dado o rápido avanço das práticas de desanonimização por atores mal-intencionados, a privacidade de dados é um alvo móvel. As organizações precisam entender os riscos associados à forma como protegem os dados, além do mínimo exigido pela regulamentação. Portanto, é essencial que se mantenham proativamente atualizadas não apenas sobre as regulamentações, mas também sobre os desenvolvimentos tecnológicos.

Uma maneira pela qual o Banco Nacional aborda esse desafio é reduzindo a distância entre as equipes jurídicas que têm visibilidade sobre as regulamentações futuras e as equipes de IA que trabalham com dados. Isso pode acontecer desde cedo, incluindo especialistas jurídicos nas discussões em que os membros da equipe do projeto explicam suas necessidades de dados aos proprietários internos dos dados. Os proprietários dos dados estão tipicamente conectados à equipe jurídica e podem trazer a equipe jurídica para discutir como as necessidades de um projeto específico se encaixam na estrutura de governança de dados existente no banco.

O banco também colabora em múltiplos projetos com universidades e pesquisadores acadêmicos que se especializam em privacidade e segurança de dados. Isso dá às equipes relevantes do banco acesso ao conhecimento científico de ponta sobre técnicas recentes para apoiar sua própria pesquisa e desenvolvimento, ao mesmo tempo em que avança o conhecimento a ser incorporado em suas práticas. Da mesma forma, os pesquisadores acadêmicos também acham valiosas as colaborações com a indústria, pois muitas vezes levam a trabalhos mais práticos com impacto no mundo real.

Aumentando a Privacidade de Dados para a Prática de Ciência de Dados

Para muitas empresas que estão investindo em IA e análises na esperança de obter informações valiosas de negócios a partir dos dados de seus clientes, as implicações da possível exposição de dados pessoais estão apenas surgindo. Para gerenciar efetivamente os trade-offs entre privacidade de dados e utilidade de dados, sugerimos as seguintes práticas e abordagens.

Ensine privacidade de dados como parte da alfabetização em dados.

Em muitas organizações, a alfabetização em dados ainda é desigual ou inexistente, e são necessários esforços substanciais para abordar essa questão.³ No contexto da privacidade de dados, esse desafio é ainda mais evidente: não se pode presumir que os gerentes que possuem habilidades básicas de alfabetização em dados tenham um entendimento claro de conceitos de privacidade de dados, como identificadores diretos e quase-identificadores. Eles também precisam entender os riscos de reidentificação associados a esses identificadores e as características das abordagens tipicamente usadas para abordar esses riscos.

No caso do Banco Nacional, iniciativas de governança de dados e alfabetização em dados foram implementadas há vários anos e, como muitas outras instituições financeiras, o banco foi um dos primeiros a adotar análises e outras abordagens para melhorar a tomada de decisões. No entanto, teve que desenvolver ainda mais a alfabetização em privacidade de dados como uma competência que transcende domínios específicos de expertise. Especialistas que trabalham em cibersegurança, jurídico e entrega de IA tinham cada um seu próprio entendimento de privacidade de dados, suas implicações para seu departamento e as abordagens disponíveis para mitigar seus riscos associados. Por exemplo, membros de uma equipe usariam termos referenciados em regulamentações (como desidentificação), enquanto cientistas de dados considerariam abordagens técnicas específicas para privacidade de dados (como k-anonimato ou privacidade diferencial). Fomentar a colaboração entre unidades funcionais tem sido uma parte importante do desenvolvimento da alfabetização em privacidade de dados no nível organizacional.

Trate a privacidade de dados como uma questão de negócios.

Desenvolver a alfabetização em privacidade de dados como uma capacidade organizacional também apoia uma cultura organizacional na qual a privacidade de dados é tratada como uma questão de negócios, não apenas uma questão técnica. Ou seja, deve haver um entendimento generalizado de que o imperativo de gerenciar cuidadosamente os dados pessoais é fundado na necessidade de manter a confiança do cliente — e, portanto, está diretamente relacionado ao resultado final. Conectar os pontos entre proteção de dados pessoais, reputação da empresa e desempenho é possível apenas se a proteção de dados pessoais for explicitamente reconhecida como uma questão estrategicamente relevante que exige tempo e recursos dedicados.

Fazer isso pode exigir uma reavaliação em empresas que relegaram a privacidade de dados à equipe de cibersegurança. No entanto, a privacidade de dados envolve uma variedade de partes interessadas com diferentes expertises e preocupações, e todos devem ser capazes de se comunicar em uma linguagem comum e participar da discussão e elaboração de estratégias de privacidade de dados.4 A colaboração interdisciplinar é essencial — e quando algo é entendido como uma questão de negócios, é compreendido como sendo importante para todos na organização.

Formalize sua abordagem para equilibrar privacidade de dados e utilidade de dados.

Como descrevemos acima, múltiplas partes interessadas devem contribuir para decisões informadas sobre como proteger dados pessoais em uma determinada situação. Estabelecer uma abordagem sistemática para trabalhar nas questões e comunicar as implicações de diferentes técnicas de privacidade para utilidade e proteção de dados é essencial.

O Banco Nacional alcançou isso avaliando o impacto na privacidade dos dados e contextualizando-o em relação à utilidade dos dados. Isso permitiu a criação de ferramentas, como a matriz apresentada anteriormente, que comunicam as implicações de privacidade e utilidade de diferentes condições em situações específicas além dos requisitos regulamentares. Com essas visualizações, os gerentes de dados não precisam conhecer as complexidades das técnicas de preservação da privacidade de dados, mas podem ver seus resultados e confiar em suas habilidades de alfabetização em dados para fazer perguntas pertinentes de negócios. Além disso, a computação de medidas quantitativas pode ser integrada ao processo de criação/validação de modelos analíticos/IA, tornando-se parte de um processo padrão. Isso mantém uma conscientização sobre a necessidade de continuamente melhorar as abordagens de privacidade de dados à medida que as técnicas de reidentificação também continuam a melhorar.

A privacidade de dados deve ser uma área importante de preocupação para organizações que gerenciam dados pessoais. Mas também é uma questão complexa de negócios que tem implicações técnicas importantes. A rápida evolução da ciência da privacidade de dados, juntamente com os requisitos regulamentares modernizados, torna desafiador para as empresas otimizar suas estratégias nesse front. Em última análise, à medida que os gerentes de dados ganham uma compreensão mais profunda desse tópico, eles podem projetar e evoluir estratégias que os ajudem a otimizar tanto a privacidade quanto a utilidade dos dados, abandonando a ideia de que necessariamente precisamos sacrificar um pelo outro.

Fonte:

MIT Sloan Business Review USA – v65-4 – verão de 2024

Sobre os autores:

Gregory Vial é professor associado no Departamento de Tecnologias da Informação da HEC Montréal.

Julien Crowe é diretor sênior de inteligência artificial no Banco Nacional do Canadá.

Patrick Mesana é doutorando no Departamento de Ciências da Decisão da HEC Montréal.

Referências usadas no artigo

1. C. Dwork, A. Smith, T. Steinke, et al., “Exposed! A Survey of Attacks on Private Data,” Annual Review of Statistics and Its Application 4 (março 2017): 61-84.

2. T.E. Raghunathan, “Synthetic Data,” Annual Review of Statistics and Its Application 8 (março 2021): 129-140; e S.L. Garfinkel e C.M. Bowen, “Preserving Privacy While Sharing Data,” MIT Sloan Management Review 63, no. 4 (verão 2022): 7-10.

3. T.H. Davenport e R. Bean, “Action and Inaction on Data, Analytics, and AI,” MIT Sloan Management Review, 19 de janeiro de 2023, https://sloanreview.mit.edu.

4. Raghunathan, “Synthetic Data,” 129-140; e Garfinkel e Bowen, “Preserving Privacy While Sharing Data,” 7-10.