Wikipedia e seus projetos irmãos já são, há duas décadas, o ponto de partida para quem busca conhecimento na internet. Agora, a Wikimedia Deutschland quer dar um passo além: transformar o backup de textos e relações do Wikidata em um banco vetorial público. O objetivo é permitir buscas semânticas rápidas, aliviar a infraestrutura da fundação contra scrapers e, de quebra, fornecer dados prontos para modelos de inteligência artificial de código aberto.
30 milhões de vetores prontos para consulta
No papel, o Wikidata armazena mais de 119 milhões de itens. Para a fase alfa, a equipe liderada por Philippe Saade escolheu “apenas” 30 milhões – focando em entradas que já possuem página correspondente na Wikipedia, rótulo e descrição. Cada item vira texto, é dividido em blocos de até 1.024 tokens e convertido em vetor pelo modelo Jina Embeddings V3.
Esses vetores são hospedados em parceria com a DataStax, especialista em banco de dados distribuído, e disponibilizados também em formato Parquet no Hugging Face. Resultado? Qualquer desenvolvedor pode baixar os dados prontos, poupando horas de scraping e processamento local.
Por que isso importa para o seu projeto (e para o seu setup)
Se você está construindo um RAG (Retrieval-Augmented Generation) para responder perguntas de clientes, treinando um chatbot para jogos ou classificando artigos científicos, ter um bloco de conhecimento “enciclopédico” vetorizado facilita – e muito – a vida. Basta uma busca semântica curta para recuperar fatos relevantes, em vez de percorrer a árvore de relações do conhecimento grafo a grafo.
Mas convenhamos: brincar com 30 milhões de vetores não é tarefa leve. Mesmo que o dataset esteja na nuvem, testes locais ou fine-tuning demandam GPU com boa quantidade de VRAM, armazenamento NVMe rápido e, de preferência, um kit de memória RAM generoso. Para quem cogita trazer parte da base para o desktop, placas como a NVIDIA RTX 4070 Super (12 GB) já são o mínimo viável; ambientes mais robustos pedem 16 GB ou 24 GB de VRAM.
MCP: a interface “chat” para quem edita Wikidata
A equipe também lançou um MediaWiki Chat Plugin (MCP) que conecta as consultas vetoriais a um LLM. A proposta é gerar automaticamente queries SPARQL – a “SQL dos grafos” – dispensando o conhecimento avançado da sintaxe. É um acelerador de produtividade para editores veteranos e novatos.
Imagem: Internet
Próximos passos: feedback, atualizações incrementais e expansão
Como todo bom alfa, nada ainda é definitivo. A versão atual usa um dump de setembro de 2024, congelado para testes de usabilidade e precisão. No roteiro, estão:
- Atualizações incrementais (apenas itens alterados) para reduzir custo computacional.
- Eventual fine-tuning do modelo de embedding se a comunidade apontar lacunas.
- Novos filtros de qualidade para evitar textos incompletos ou inconsistentes.
Se você quer explorar, basta procurar por “Wikidata Vector Database” no GitHub ou no Hugging Face. Vale lembrar: quanto melhor o hardware, mais fluida será a experiência. E, caso não queira investir em GPU local, integrações diretas com APIs (Jina, DataStax) permitem rodar experimentos 100% na nuvem.
No fim do dia, o movimento da Wikimedia sinaliza algo maior: dados abertos continuam sendo a veia principal que irriga a IA generativa. E, se até os gigantes dependem de fontes confiáveis como a Wikipedia, manter a enciclopédia colaborativa viva e bem cuidada é interesse de toda a comunidade tech.
Com informações de Stack Overflow Blog