MELLUM2 THINKING
Uma IA especialmente indicada para programadores.
Recentemente, a JetBrains anunciou que o Mellum2, uma IA para desenvolvimento de software, passa a ser um modelo de pesos abertos (open weights) distribuído sob a licença Apache 2.0, o que permite utilizá-lo, modificá-lo e implementá-lo sem custos de licenciamento.
vLLM
Provavelmente, a opção mais popular para servidores locais. Está otimizada para GPU NVIDIA, oferece elevado desempenho, permite gerir vários pedidos em simultâneo e mantém janelas de contexto amplas. Além disso, o vLLM permite paralelismo entre GPUs para melhorar a concorrência e o desempenho em ambientes exigentes.
SGLang
Orientado para agentes, workflows complexos e cenários avançados como RAG.
RAG (Retrieval-Augmented Generation) é uma técnica que permite complementar as respostas do modelo utilizando informação proveniente de documentação, bases de conhecimento ou repositórios corporativos.
Docker Model Runner
Alternativa simplificada em que o Docker gere a transferência do modelo, o runtime e a exposição do serviço.
Estes motores vão permitir carregar os pesos do modelo em memória/GPU, receber os prompts, executar a inferência, devolver as respostas e, opcionalmente, usar uma API compatível com o formato de API HTTP popularizado pela OpenAI.
Mellum2 Thinking é especialmente atrativo como modelo local para agentes ACP, porque combina licença aberta, foco em programação e uma dimensão razoável para execução on-premise.
ACP (Agent Client Protocol) é um protocolo aberto que permite ligar agentes de IA a diferentes IDEs e editores, de forma semelhante à forma como o LSP (Language Server Protocol) normalizou a integração de ferramentas de análise de código.
Mellum2 Thinking representa uma alternativa muito interessante para organizações que pretendem implementar capacidades de IA generativa nas suas próprias infraestruturas.
A sua licença aberta, a sua especialização em desenvolvimento de software e os seus requisitos de inferência reduzidos face a modelos de maior dimensão tornam-no uma opção especialmente atrativa para equipas de desenvolvimento que trabalham com vários IDEs e linguagens de programação.

