Memora: nova tecnologia da Microsoft promete “memória de elefante” para agentes de IA e até 98% menos tokens

Imagine um assistente de inteligência artificial que lembre de cada preferência sua — dos pedidos de pizza às configurações ideais do seu teclado mecânico — mesmos meses depois da conversa inicial. Essa é a ambição do Memora, sistema de memória de longo prazo recém-apresentado pelo Microsoft Research. A novidade pretende eliminar o grande gargalo dos agentes baseados em LLMs: a incapacidade de guardar contexto extenso sem explodir o consumo de tokens (e, consequentemente, de GPU na nuvem).

Anúncios

Índice de Conteúdo

Por que a memória virou o calcanhar de Aquiles dos LLMs?

Modelos como GPT-4, Claude ou Gemini são excelentes em raciocínio, mas começam cada sessão “do zero”. Para manter a coerência em diálogos longos — pense em atendimentos de suporte, campanhas de marketing ou monitoramento de servidores — as soluções atuais resumem ou armazenam blocos de texto sem muito critério. O resultado é fragmentação de dados, perda de detalhes cruciais e contas salgadas de infraestrutura.

Abordagens populares hoje caem em dois extremos:

RAG/Mem0 – preservam cada fragmento de conversa, mas geram milhares de entradas soltas.
Sumarização grosseira – reduz o tamanho do prompt, mas “apaga” números, exceções e casos de uso específicos.

Para quem desenvolve chatbots de e-commerce ou agentes que monitoram placas de vídeo em datacenters, esses limites viram custos extras de GPU, latência e, principalmente, usuários frustrados.

Como o Memora resolve o problema

A arquitetura aposta em separar o que o agente lembra de como ele encontra essa informação.

1. Abstração primária: uma frase curta (6 a 8 palavras) que resume o tema central de cada memória.
2. Valor da memória: todo o conteúdo rico — detalhes técnicos, números, exceções.

Entradas sobre um mesmo assunto são mescladas sob a mesma abstração, evitando duplicidade. Para facilitar a busca, o Memora gera automaticamente cue anchors, tags contextuais que funcionam como “atalhos” semânticos.

O motor de busca também mudou: em vez de retornar simplesmente o top-k mais parecido, ele faz buscas iterativas, expande por cue anchors e decide sozinho quando parar, navegando na memória como quem folheia um índice inteligente.

Benchmarks: números que chamam atenção

Nos testes LoCoMo (600 interações) e LongMemEval (115 mil tokens), o Memora atingiu 86,3% e 87,4% de acurácia, superando RAG, Mem0, Nemori, Zep, LangMem e até a inferência com contexto completo. Além disso:

Memora: nova tecnologia da Microsoft promete “memória de elefante” para agentes de IA e até 98% menos tokens - Imagem do artigo

Imagem: Nidhi Singal

98% menos tokens que o prompt integral.
344 entradas por conversa (quase metade do Mem0).

Traduzindo: menos tokens significa menos chamadas de API, menos ciclos de GPU e potencial economia, algo vital para empresas que treinam modelos em placas como NVIDIA H100 ou até em builds locais com RTX 4090.

Nem tudo são flores: latência e governança

O analista Sanchit Vir Gogia lembra que o modo de busca “inteligente” leva de 5 a 6 segundos por query — bem acima dos < 1s do RAG simples. O ganho em tokens pode voltar como latência. Além disso, a conta de nuvem inclui construção, indexação e auditoria da memória, itens fora dos benchmarks.

Há também questões regulatórias: sob o EU AI Act ou a Lei Indiana de Proteção de Dados, empresas precisarão registrar quem escreveu, quem leu e por que aquela memória foi usada em determinada decisão.

Disponibilidade e o que isso significa para desenvolvedores

O código-fonte está no GitHub, aberto para experimentação. Nada impede que você plugue o Memora em um chatbot que indique o melhor mouse gamer ou faça RAG de reviews da Amazon. Entretanto, o próprio Microsoft Research admite: é projeto ativo, não produto pronto. Antes de rodar em produção, será preciso validar performance, segurança e compliance.

Por que ficar de olho se você é entusiasta de hardware?

Cada token economizado significa menos VRAM, menos tempo de GPU e mais espaço para rodar outros processos — ótimo para quem já espreme múltiplas instâncias de IA em uma única RTX 3060 Ti de 8 GB ou planeja montar um home lab com processadores Ryzen e placas usadas. Se essa tecnologia vingar, poderemos ver assistentes locais mais completos sem necessidade de upgrades caros.

O Memora ainda está em fase de pesquisa, mas traz uma visão clara: a próxima geração de agentes de IA precisará de memória tão organizada quanto rápida. Quem sair na frente hoje pode ter vantagem competitiva — e economizar bons dólares em nuvem no caminho.

Com informações de Computerworld

Memora: nova tecnologia da Microsoft promete “memória de elefante” para agentes de IA e até 98% menos tokens

Por que a memória virou o calcanhar de Aquiles dos LLMs?

Como o Memora resolve o problema

Benchmarks: números que chamam atenção

Nem tudo são flores: latência e governança

Disponibilidade e o que isso significa para desenvolvedores

Por que ficar de olho se você é entusiasta de hardware?

Esteja Conectado

Melhores Placas De Vídeos 2025

GitHub automatiza a conformidade de licenças open source: veja como evitar dores de cabeça jurídicas e retrabalho

WhatsApp libera usernames e permite esconder seu número — garanta o seu antes que acabe

LG StanbyME 2 Max: a tela 4K de 32″ que roda pela casa inteira e troca o sofá pelo toque

iPhone 15 de 128 GB despenca 51% e atinge menor preço histórico para assinantes Amazon Prime

Aqui no Smartoutlets você encontra as melhores análises e reviews de produtos gamers, análises sinceras e o melhor preço do Mercado.

Institucional

Por que a memória virou o calcanhar de Aquiles dos LLMs?

Como o Memora resolve o problema

Benchmarks: números que chamam atenção

Nem tudo são flores: latência e governança

Disponibilidade e o que isso significa para desenvolvedores

Por que ficar de olho se você é entusiasta de hardware?

Esteja Conectado

Melhores Placas De Vídeos 2025

Você também pode gostar disso