MELLUM2 THINKING

Una IA especialmente indicada para desarrolladores

Recientemente JetBrains ha anunciado que Mellum2,  IA para desarrollo software, pasa a ser un modelo de pesos abiertos (open weights) distribuido bajo licencia Apache 2.0, lo que permite usarlo, modificarlo y desplegarlo sin coste de licencia.

¿Qué es exactamente Mellum2 Thinking?

Es una variante de Mellum2, un modelo Mixture of Experts (MoE) con 12.000 millones de parámetros totales, aunque únicamente unos 2.500 millones se activan para cada token procesado. Está especializado en desarrollo de software y diseñado para resolver las partes más difíciles de la IA de producción: latencia, rendimiento y coste

La versión Thinking está optimizada para tareas que requieren razonamiento en varios pasos (planificación, análisis, depuración o resolución de problemas complejos), mientras que la versión Instruct prioriza respuestas directas y concisas. 

Mellum2 puede resultar interesante si buscas: 

Hospedarlo en tu propia infraestructura

Reducir costes frente a modelos mucho más grandes

Integrarlo con IDEs

(Rider, IntelliJ IDEA, Visual Studio Code, Delphi u otros)

Tener un modelo especializado en código sin depender de servicios cloud

Puedes consultar el informe técnico con el detalle del rendimiento

Mellum2 Technical Report

Motores de inferencia disponibles

JetBrains propone varias opciones para cargar y ejecutar Mellum2 Thinking, facilitando su adopción según el escenario:

Probablemente la opción más popular para servidores locales. Está optimizado para GPU NVIDIA, ofrece alto rendimiento, permite manejar múltiples peticiones simultáneas y mantiene ventanas de contexto amplias.  Además, vLLM permite paralelismo entre GPUs para mejorar la concurrencia y el rendimiento en entornos exigentes.

Orientado a agentes, workflows complejos y escenarios avanzados como RAG.

RAG (Retrieval-Augmented Generation) es una técnica que permite complementar las respuestas del modelo utilizando información procedente de documentación, bases de conocimiento o repositorios corporativos. 

Alternativa simplificada donde Docker gestiona la descarga del modelo, el runtime y la exposición del servicio.

Estos motores van a permitir cargar los pesos del modelo en memoria/GPU, recibir los prompts, ejecutar la inferencia, devolver las respuestas, y opcionalmente usar una API compatible con el formato de API HTTP que popularizó OpenAI. 

Mellum2 Thinking es especialmente atractivo como modelo local para agentes ACP, porque combina licencia abierta, enfoque en programación y un tamaño razonable para ejecutarlo on-premise. 

ACP (Agent Client Protocol) es un protocolo abierto que permite conectar agentes de IA con diferentes IDEs y editores, de forma similar a cómo LSP (Language Server Protocol) estandarizó la integración de herramientas de análisis de código.

Opciones de despliegue para Mellum2 Thinking IA para desarrollo software

Dependiendo de tus necesidades, puedes optar por distintos enfoques:

Equipo individual 

CPU: Ryzen 9 7900/9900 o Intel i9 moderno. 

RAM: 64 GB. 

GPU: 32 GB VRAM o superior. 

SSD NVMe. 

Servidor corporativo

 (Desde IDEs, ACP o agentes internos)

CPU: 16-32 núcleos. 

RAM: 128 GB. 

GPU: 1x RTX 5090 (32 GB) o 1x A6000 (48 GB). 

Linux + vLLM. 

Sistemas sencillos

(instalación con Ollama)

Ryzen 9 o Intel i9 moderno. 

64 GB RAM. 

GPU de 32 GB VRAM o superior. 

SSD NVMe. 

Despliegue simplificado

Uso de Docker Model Runner

El enfoque con Docker Model Runner es más sencillo ya que Docker se va a encargar de descargar el modelo, levantar el runtime y exponer el servicio. 

Para empezar a trabajar personalmente o en equipo pequeño, puedes comenzar con Ubuntu o Windows, Ollama y Mellum2. 

Ollama es una alternativa muy popular para ejecutar modelos localmente. Simplifica enormemente la instalación y gestión de modelos, por lo que resulta especialmente adecuada para pruebas, entornos personales y pequeños equipos. 

Una alternativa sólida para IA generativa en desarrollo

Mellum2 Thinking representa una alternativa muy interesante para organizaciones que desean desplegar capacidades de IA generativa en sus propias infraestructuras.

Su licencia abierta, su especialización en desarrollo software y sus reducidos requisitos de inferencia frente a modelos de mayor tamaño lo convierten en una opción especialmente atractiva para equipos de desarrollo que trabajan con múltiples IDEs y lenguajes de programación. 

¿Quieres sabes mas sobre Mellum2 Thinking IA para desarrollo software? ¡Contáctanos!

Más información