Wikidata: por que contribuímos para a epistemologia dos robôs

25 outubro 2023

No texto, lê-se: "De quem são as visões, valores, e histórias codificadas nos dados estruturados?"

Desde 2003, a Wikimedia Foundation vem lidarado uma série de projetos, dentre os quais está a Wikipédia. Outro projeto, lançado em 2012, é o Wikidata — um banco de dados estruturados aberto ao público que tem como objetivo traduzir numericamente o conhecimento acumulado em locais como a Wikipédia. Uma maneira fácil de entender o funcionamento de bancos de dados estruturados é considerar uma passagem resumida de uma página da Wikipedia:

“Amos Tutuola1 foi um escritor nigeriano, autor de The Palm-Wine Drinkard”

As informações desta frase podem ser estruturadas atribuindo códigos alfanuméricos a cada item ou propriedade:

“Amos” – é o item Q18216060 na categoria “nomes próprios” P735
“Escritor” – é o item Q36180 na categoria “profissão” P106
“Nigéria” – é o item Q1033 na categoria “país ou nacionalidade” P27
“The Palm-Wine Drinkard” – é o item Q774053 na categoria “trabalhos notáveis” P800

Capa do livro The Palm-Wine Drinkard na cor laranja, com uma pequena estampa à direita. — Bases de dados estruturados funcionam com códigos alfanuméricos, designados a cada item em uma frase. Imagem por Abebooks, via Wikimedia Commons e Nick Ash, Berlin – BrückeMuseumBerlin via Wikimedia Commons.

Esse tipo de dado estruturado pode ainda ser relacionado a outros dados. Por exemplo, o romance “The Palm-Wine Drinkard” é o item Q774053, mas este não é apenas um código alfanumérico. Ele também contém um link para a página do romance, que disponibiliza a descrição de dados do trabalho, e também possui um link de volta para a página do autor, Amos Tutuola (Q361562). A Wikidata também se connecta a outros bancos de dados externos, como a Library of Congress, a Open Library, dentre outros.

Esse tipo de reconstrução do texto e a sua interligação com outros dados permite que a informação se torne legível por máquinas. Na verdade, esta é a diferença crucial entre a Wikipédia e o Wikidata – uma destinada à aprendizagem humana2 e o outro, em grande parte, ao machine-learning.

O Wikidata pode ter um valor positivo incrível. Considere que o artigo sobre Amos Tutuola já existe na Wikipédia em iorubá, inglês e espanhol, dentre outros, mas não em hindi. Os bots que leem a semântica numérica do Wikidata poderiam reconstruir agilmente um artigo sobre Amos Tutuola em hindi. Esse é um enorme potencial para expansão linguística na Wikipédia e está sendo explorado rapidamente3. Também há usos para o Wikidata entre bibliotecários, jornalistas, pesquisadores de wiki e muitos outros, permitindo que ampliem o leque de possibilidades em seus campos.

No entanto, devemos ter cuidado com o excesso de otimismo nesse trabalho. Evidentemente, ao traduzir dados estruturados dessa forma, traduzimos os vieses existentes nas bases de dados originais, como da Wikipédia para o Wikidata. Isso pode criar um ciclo de feedback de vieses do Wikidata para outros projetos Wiki e, em seguida, para muito além do ecossistema Wiki. As questões de vandalismo, análises restritivas do critério de “notabilidade” ou “confiabilidade das fontes”, de lacunas de representação entre editores e administradores, imprecisões e vieses não são resolvidas com a mudança para o Wikidata. Eles são apenas traduzidos para uma nova semântica.

A sobre-representação de editores e conteúdos centrados no norte, anglófonos e eurocêntricos na Wikipédia é bem conhecida. Mesmo que a Fundação Wikimedia continue a ampliar o apoio à representação de pessoas de identidades marginalizadas, um estudo realizado em 2021 revela que nem mesmo a disparidade de gênero foi reduzida. Essas lacunas em representação também nos preocupam no Wikidata. Apenas 22% do conteúdo do Wikidata é registrado como sendo sobre mulheres.

As pessoas dos países da Maioria Global também lutam contra várias barreiras para participar desses espaços de produção colaborativa de bens compartilhados pelas comunidades (em inglês, commons-based peer-production). Se conseguirem um lugar à mesa, muitas comunidades descobrirão que terão que adaptar à força os seus conhecimentos aos modelos epistêmicos ocidentais intransigentes como a Wikipédia. Como as pessoas associam seu conhecimento a “fontes confiáveis” quando os dez principais conglomerados editoriais do Norte Global são responsáveis por mais de metade de todas as receitas geradas pela publicação em todo o mundo4? Refletindo tais vieses, apenas 0,3% das fontes utilizadas na Wikipédia são de origem africana5.

De fato, a Wikimedia Foundation tem feito esforços consideráveis e admiráveis para se diversificar. Dentre esses esforços, há a criação de um Fundo Global para a Equidade do Conhecimento6,7, que foi fundado após o assassinato de George Floyd em 2020, para se comprometer com processos de equidade racial e ajudar a combater a desigualdade na produção de conhecimento. E esses esforços estão valendo a pena. A diversidade de conteúdo está aumentando lentamente ano após ano. Mas esses esforços ainda são um trabalho lento em andamento e parecem exigir um esforço contínuo por parte dos wikimedistas e dos defensores da justiça do conhecimento para se manterem.

Fonte: Wikipedia Diversity Observatory, 2020

Ao mesmo tempo em que há esforços para preencher essas lacunas, existe o medo de que projetos de dados estruturados como o Wikidata estejam codificando as opiniões, valores e histórias de comunidades hegemônicas8 em inteligência artificial, estabelecendo-os como verdades na epistemologia dos robôs, e provavelmente condenando as pessoas da Maioria Global a batalhas epistemológicas trabalhosas que se estenderão indefinidamente.

Neste momento, é realmente crucial que todos nós, enquanto wikimedistas, nos perguntemos o que ou quem está se beneficiando do Wikidata e como. Muitos de nós também somos wikimedistas e contribuidores do Wikidata (incluindo a autora deste texto). Muitas vezes, nós fazemos esse trabalho porque acreditamos na ideia de produção de conhecimento aberta e coletiva. Portanto, é absolutamente crucial nos perguntar para o que exatamente estamos contribuindo com nosso trabalho e tempo. Um estudo9 registrou que, ao contrário dos contribuidores da Wikipédia, mais de 70% dos contribuidores da Wikidata não sabiam a finalidade de suas contribuições. Nas palavras de um dos colaboradores, eles sentiam que estavam “lançando as informações em um vazio”. Outros relatam experiências semelhantes. Wikimedista feminista de longa data e coordenadora da iniciativa Decolonizando a Wikimedia, Mariana Fossatti, se pergunta: “Por que estou fazendo isso? Mesmo sendo fascinante fazê-lo. Não quero brincar com gadgets, quero ver ferramentas baseadas no Wikidata com um propósito.”

Em nossos esforços dentro do Wikidata, parece que acabamos distanciados dos resultados do nosso trabalho. Já sabemos que os dados hospedados no Wikidata têm sido cruciais no treinamento de chatbots de machine learning como o ChatGPT, bem como de assistentes virtuais como Alexa da Amazon e Google Assistant10. Apesar do acesso aberto em que se baseia a produção de conhecimento da Wikimedia, quando o trabalho não-remunerado de milhares de wikimedistas vai para as grandes empresas tecnológicas para obter lucros questionáveis, devemos nos perguntar: nós concordamos com isso? Sem contar a imprudência com que estas empresas impõem sistemas de “IA” e automação às populações vulneráveis. Por que deveríamos contribuir com mão-de-obra gratuita para produção de conteúdo aberto apenas para que as empresas se aproveitem desses frutos e fechem os portões do conhecimento usando os seus próprios direitos de copyright?

No estudo citado acima11, alguns colaboradores declararam não se importar com o uso de suas contribuições. No entanto, muitos contribuidores de comunidades marginalizadas e da Maioria Global se importaram e se importam profundamente. Se você parar para pensar, as comunidades da Maioria Global são frequentemente mais limitadas em recursos (muitas vezes como resultado de várias injustiças históricas, como colonização, racialização, sistema de castas, opressões econômicas ou de gênero). Em termos gerais, as pessoas dos países da Maioria Global têm menos tempo para contribuir com trabalho online não-remunerado. Isso tem sido observado até mesmo em iniciativas do Wikidata, como o Reimaginando o Wikidata pelas margens12. Quando temos tempo disponível, acredito que não necessariamente pensamos sobre como isso ajudaria na agenda de empresas multinacionais e seus lucros. A maioria de nós faz o trabalho voluntário porque queremos que isso reflita as vidas, histórias e culturas de nossos povos e comunidades, fortalecendo nossas realidades em uma plataforma que visa arquivar coletivamente os conhecimentos do mundo (mas frequentemente negligencia/apaga os nossos).

Em vez disso, mais uma vez nos deparamos com o dilema. Se não nos envolvemos com essas plataformas de produção colaborativa de conhecimento, nossas histórias, ideias e saberes ficam para trás e o apagamento continua. Quando o fazemos, isso beneficia multinacionais com operações clandestinas, bolsos sem fundo e poder descontrolado sobre as vidas e os meios de subsistência das pessoas.

Neste momento, é absolutamente crucial refletir sobre essas verdades desconfortáveis e problematizar nosso próprio envolvimento na mercantilização de nossos conhecimentos. Por que contribuímos para essa epistemologia dos robôs?

Para iniciar algumas conversas entre os wikimedistas da Maioria Global, proponho algumas perguntas:

O conhecimento livre e aberto é verdadeiramente gratuito, e, se o for, para quem é gratuito? Para quem está aberto?
Uma cultura de conhecimento absolutamente aberta é realmente a melhor abordagem quando contextualizada em um mundo cheio de desigualdades históricas e contemporâneas?
Queremos ser meros digitadores de dados ou produtores de conhecimento?
Como digitadores/produtores de conhecimento, nosso trabalho é desvalorizado/subvalorizado?
Podemos coletivamente possuir e controlar os resultados de nosso trabalho, de nossos conhecimentos?
Se não podemos reverter as falhas nesses modelos que não foram feitos por nós, devemos criar os nossos próprios?
Como e com quais recursos podemos construir os projetos de dados que realmente façam sentido para nós?

A Whose Knowledge? já iniciou algumas conversas nesses aspectos e nos próximos meses esperamos poder explorar e relatar mais dessas perguntas de forma coletiva.

Notas

1 No momento da redação deste artigo, o sobrenome “Tutuola” ainda não havia sido adicionado como um item no Wikidata. Portanto, essa frase permanecia incompletamente estruturada.

2 “Em termos de aprendizado humano, o Wikidata também oferece possibilidades, como a capacidade de trabalhar em consultas e visualizações que fornecem insights sobre uma ampla variedade de tópicos a serem explorados, incluindo sobre o conhecimento aberto em si, seus vieses e lacunas.” (Mariana Fossatti, comunicação pessoal, 14 de junho de 2023).

³ Kaffee, LA. et al. (2018). Mind the (Language) Gap: Generation of Multilingual Wikipedia Summaries from Wikidata for ArticlePlaceholders. In: , et al. The Semantic Web. ESWC 2018. Lecture Notes in Computer Science(), vol 10843. Springer, Cham. https://doi.org/10.1007/978-3-319-93417-4_21

⁴ https://www.publishersweekly.com/binary-data/Global502019.pdf

⁵ Graham, Mark, et al. “Uneven geographies of user-generated information: Patterns of increasing informational poverty.” Annals of the Association of American Geographers 104.4 (2014): 746-764.

⁶ https://wikimediafoundation.org/news/2021/09/08/wikimedia-foundation-announces-first-grant-recipients-of-new-4-5-million-equity-fund/

⁷ A pessoa que escreveu este texto é também parte do comitê deste fundo.

⁸ https://www.theatlantic.com/technology/archive/2012/04/the-problem-with-wikidata/255564/

⁹ Zhang, Charles Chuankai, et al. “Working for the Invisible Machines or Pumping Information into an Empty Void?

¹⁰ O Google é, na verdade, um dos grandes financiadores do projeto Wikidata depois de fundir sua base de dados Freebase com o Wikidata em 2014.

¹¹ Zhang, Charles Chuankai, et al. “Working for the Invisible Machines or Pumping Information into an Empty Void? An Exploration of Wikidata Contributors’ Motivations.” Proceedings of the ACM on Human-Computer Interaction 6.CSCW1 (2022): 1-21.

¹² Na WikidataCon 2021, Érica Azzellini, membro do Reimaginando o Wikidata desde as Margens, nota o seguinte: “(Por outro lado), a falta de tempo foi um obstáculo considerável para participação em qualquer nível, incluindo nas conversas do Reimaginando o Wikidata desde as Margens conversations”. https://www.youtube.com/live/wn2BrQomvFU?feature=share&t=8139

The Whose Knowledge? Journey: looking back at 2022

Posted dezembro 14, 2022 by Anasuya Sengupta, Azar Causevic, Constanza Verón, Claudia Pozo, Kelly Foster, Mariana Fossatti, Perse(phone) Hooper Lewis, Priscila Bellini, Shamillah Wilson, Sunshine Fionah Komusana e Youlendree Appasamy

A series of word bubbles with the word ‘abortion’ in different languages sits above a yellow and orange background with abortion march badges from the UK

#16DaysOfActivism: Can you get reliable information about safe abortion, in your language, online?

Posted dezembro 9, 2022 by Youlendree Appasamy, Sunshine Fionah Komusana, Mariana Fossatti e Claudia Pozo

Image of an Equality Labs sticker showing a dark-skinned femme-presenting person holding a sign saying 'End mass surveillance'

#16DaysOfActivism: Our bodies, our data? Online surveillance and criminalization

Posted dezembro 5, 2022 by Youlendree Appasamy, Sunshine Fionah Komusana, Mariana Fossatti e Claudia Pozo

Author Profile

Maari Maitreyi

Maari Maitreyi (she/they) is the Knowledge Justice Researcher on the Whose Knowledge? team. She is a feminist, artist and scholar interested in digital knowledge-making cultures.

Maari Maitreyi

Maari Maitreyi (she/they) is the Knowledge Justice Researcher on the Whose Knowledge? team. She is a feminist, artist and scholar interested in digital knowledge-making cultures.