Quem vê? | Revista Rosa 5

Fotos de pizzas (a maioria de pepperoni), de famílias felizes (e brancas), de cachorros e de gatos, de pessoas “saudáveis” praticando esportes e de hipotéticas trivialidades que integram o suposto retrato da vida cotidiana realizado por canais hegemônicos de produção e de circulação de conteúdo imagético. Essas são algumas das muitas imagens contidas em bancos de dados (chamados aqui de datasets) utilizados para o aprendizado de máquinas em um subcampo da Inteligência Artificial (IA) conhecido como “visão computacional”. O reconhecimento facial, o carro autônomo e a moderação de conteúdo em redes sociais são algumas das materializações que a “visão” dos computadores a partir da IA viabiliza nos dias de hoje.

Esses arquivos visuais são organizados por meio de categorias e subcategorias totalizando muitas vezes milhares ou milhões de imagens. Há inúmeros datasets e modelos computacionais disponíveis na internet, mas aqui estamos interessados em apenas um deles: o Open Image da empresa norte-americana Google. Aliás, para evitarmos nos perder nas 9 milhões de imagens desse dataset, nosso foco é ainda mais específico: as cenas do Open Image que representam a fauna, a flora e os cenários naturais ainda pouco explorados pelos processos capitalistas.

A seleção dessas imagens relacionadas à natureza não foi uma tarefa complexa, já que datasets de visão computacional como esse do Google separam seus arquivos em categorias a partir de uma lógica diretamente relacionada à prática da taxonomia moderna. Há categorias para espécies de plantas e de animais, além de uma fixação por mamíferos de grande porte — elefantes, por exemplo, podem ser encontrados em três agrupamentos dividindo esses animais por adultos, filhotes e aqueles que estão em contexto circense. Esse e outros exemplos são um convite para se lembrar de Carlos Lineu, o botânico e médico sueco que popularizou a nomenclatura binomial na ciência¹, assim como do filósofo francês Michel Foucault no seu livro As palavras e as coisas, em que escreveu que a taxonomia não é sobre descobrir o nome das coisas, mas fazer com que o mundo só contenha coisas com nome.

Mais complexo do que separar as imagens de natureza em datasets como esse, é entender o que elas realmente significam no contexto social mais amplo do “modismo” da IA. Em Situated knowledges: the science question in feminism and the privilege of partial perspective, Donna Haraway afirma que processos como os da IA estão longe de ser “uma vista de lugar nenhum”, o que nos estimula a possíveis novos olhares. Mas como de fato ver o que a IA nos oferece? Como enxergar para além dos clichês de um futuro plenamente automático ou do alarmismo de que seremos vítimas de nossas próximas ferramentas? Qual é o projeto maior em que a IA está inserida?

Quando olhamos para imagens que treinam computadores, precisamos mais do que apenas enxergá-las. A verdade é que, antes de serem treinados por esses datasets, os computadores não são capazes de “ver”, não no sentido que damos a essa palavra. Talvez um verbo mais adequado para o processo de aprendizado que executam seja “ler” — no caso uma cadeia de bytes e, ainda assim, com um certo nivelamento no sentido mais amplo desse verbo. Essas cenas contêm tagueamentos, marcações, rotulagens para os computadores, a partir das quais eles aprenderão a identificar um conjunto de informação como um carro, uma pessoa, uma árvore, uma pizza.

Ou seja, o processo de aprendizagem da IA é precedido por trabalho humano; mais especificamente, trabalho humano subvalorizado e precário, visto que essas rotulagens quase sempre são feitas por trabalhadores remotos conhecidos como turkers que recebem centavos de dólar por imagem tagueada em plataformas como a Amazon Mechanical Turk. Esse processo assegura que aquilo que a IA “vê” seja apenas o reforço de padrões sociais interpretativos e de atribuição de significado já estabelecidos.

Por um lado, a IA “vê” aquilo que já se categorizou como verdade e positividade científica (e aqui lembramos que a ciência jamais é neutra, mas, sim, sempre carregada de valores e normatividades). Por outro, em seu aspecto abertamente nocivo, a máquina “vê” a herança dos olhos repletos de preconceitos e vieses dos humanos com os quais aprendeu a “pensar”. Portanto, compreender de fato as imagens desses datasets — desde como se faz o recorte daquilo que é neles incluído e do que é excluído até a conclusão do processo de aprendizagem da máquina — é também adentrar suas estruturas menos visuais que antecedem a ordem da computação.

Quando o programador Bernardo Fontes propôs uma experiência em programação que invertesse o jogo da visão computacional, logo pensamos nos processos de engenharia reversa. Mas também numa imagem de um olho capaz de se movimentar em 180 graus, de modo que ele não enxergue mais o que está a sua frente, mas o interior daquela estrutura que faz o sujeito ver.

O código em Python utilizado nas imagens desse ensaio visual é capaz de identificar as seleções das áreas específicas das imagens que contenham rotulações — pequenas delimitações na imagem chamadas, por engenheiros e programadores, de “caixas de significados” (meaning boxes). Feita essa identificação, o comando criado por Fontes é realizar o inverso do que uma IA comercial faria: em vez de destacar essas regiões mais nobres das imagens, apagá-laspor completo.

Os resultados são as sobras de imagens que não são importantes para a visão computacional — as carcaças, que podem ser entendidas, também, como as regiões onde essas imagens não receberam o trabalho humano (ou seja, onde o tagueamento não foi realizado pelos turkers). Essas carcaças podem não ser mesmo úteis para quem quer apenas entender o que se passa nas cenas. Mas, ao excluir o que se considera importante e destacar tudo aquilo que foi desconsiderado, essa experiência nos ajuda a entender algo para além das situações específicas ali retratadas.

A visão computacional é muito menos o processo complexo de ver e suas mediações múltiplas, e muito mais o processo de extrair, segmentar e descontextualizar. Nas imagens deste ensaio, vemos aquilo que profissionais envolvidos no processo de criação de conhecimento científico — dos programadores aos turkers e engenheiros computacionais — consideram sobressalente, excessivo, desnecessário. Neste exercício poético, vemos o que é invisível para as máquinas e, mais do que isso, encontramos beleza e valor nessas informações descartadas, o que talvez seja uma habilidade exclusivamente humana. Somos, também, aqui, privados do que foi considerado fundamental para o processo científico: aquilo que merece ser visto e compreendido, aquilo que possui valor nas suas mais variadas acepções.

Mais uma vez, somos obrigados a lembrar que a ciência não é neutra, mas, sim, uma prática social histórica. A ideia de uma ciência descontextualizada, vista como uma ferramenta cujo valor normativo depende exclusivamente do uso que dela se faz — para a emancipação ou a dominação —, ilustra o prevalecimento da razão instrumental nas sociedades capitalistas contemporâneas. E a reinserção crítica das práticas científicas em seu contexto histórico-social mais amplo é o primeiro passo para um possível fazer científico realmente emancipatório e consciente do futuro para cuja construção almeja contribuir.

Assim, para nós, a analogia da inteligência, da artificialidade e da visão da IA, como ela se coloca hoje, não nos parece válida quando posta em comparação com o humano na infinita diversidade de suas subjetividades. Mas ela se aplica, sim, à inteligência, à artificialidade e à visão de um projeto maior: o projeto capitalista que vem se desenvolvendo e evoluindo há séculos, e suas práticas de ver e escolher (à distância) territórios e corpos para dominar e sobre os quais obter lucro. A vetorização que é tão cara à IA e aos seus processos de aprendizado de máquinas é a mesma das linhas traçadas no mapa que dividiu o continente africano a partir de uma discussão de homens brancos em uma sala fechada na Alemanha no que ficou conhecido como Conferência de Berlim (1884–1885). Organizada pelo chanceler alemão, Otto von Bismarck, essa divisão territorial da África teve a participação de países europeus, mas também dos Estados Unidos. Estamos falando, sim, de visão, mas daquela específica que corresponde aos olhos do dominador.