OpenClaw et les modèles locaux — Zéro coût API avec Ollama
Le coût des API IA est le premier poste de dépense pour les utilisateurs d'OpenClaw. GPT-4o coûte 2,50 $ par million de tokens en entrée. Claude Sonnet, 3 $. Pour un usage professionnel avec 500 à 1 000 messages par jour, la facture mensuelle atteint facilement 50 à 200 euros. Et elle ne fait qu'augmenter avec l'usage.
La solution : les modèles locaux via Ollama. Zéro coût API, zéro dépendance cloud, zéro fuite de données. Voici comment configurer ça correctement.
Qu'est-ce qu'Ollama ?
Ollama est un outil open-source qui permet de télécharger et d'exécuter des modèles IA sur votre propre machine. Il gère le téléchargement des modèles, la quantification (réduction de la taille en mémoire), et expose une API compatible avec OpenClaw.
Concrètement, Ollama transforme votre VPS ou votre poste de travail en serveur d'IA. Chaque requête est traitée localement. Aucune donnée ne quitte votre réseau.
Prérequis matériels
Soyons clairs sur ce qu'il faut :
Pour un VPS (CPU uniquement)
| Modèle | RAM minimum | Vitesse estimée | |---|---|---| | Phi-4 Mini (3.8B) | 4 Go | 8 – 12 tokens/s | | Llama 3.2 3B | 4 Go | 8 – 12 tokens/s | | Qwen 2.5 7B | 8 Go | 4 – 7 tokens/s | | Mistral Small 3.1 24B | 20 Go | 1 – 3 tokens/s |
En CPU seul, les modèles de 7B et moins sont utilisables pour de la conversation. Au-delà, c'est lent mais fonctionnel pour des tâches asynchrones (résumé, analyse, rédaction en arrière-plan).
Pour un poste de travail avec GPU
| Modèle | VRAM minimum | Vitesse estimée | |---|---|---| | Qwen 2.5 7B | 6 Go | 30 – 50 tokens/s | | Llama 4 Scout (109B MoE) | 24 Go | 15 – 25 tokens/s | | Qwen 3 32B | 20 Go | 10 – 20 tokens/s | | DeepSeek V3 | 128 Go+ | Serveur dédié |
Avec un GPU, tout change. Un RTX 3090 (24 Go VRAM) peut faire tourner des modèles de classe GPT-4 à une vitesse confortable.
Installation pas à pas
1. Installer Ollama
# Linux (VPS ou poste de travail)
curl -fsSL https://ollama.ai/install.sh | sh
# Vérifier l'installation
ollama --version
2. Télécharger un modèle
# Modèle léger pour VPS
ollama pull phi4-mini
# Modèle intermédiaire
ollama pull qwen2.5:7b
# Modèle performant (GPU recommandé)
ollama pull llama4-scout
Le téléchargement prend quelques minutes selon votre connexion. Les modèles sont stockés dans ~/.ollama/models/.
3. Tester le modèle
# Test rapide
ollama run qwen2.5:7b "Résume les avantages du self-hosting en 3 points."
4. Vérifier l'API
Ollama expose une API REST sur le port 11434 :
curl http://localhost:11434/api/generate -d '{
"model": "qwen2.5:7b",
"prompt": "Bonjour, comment ça va ?",
"stream": false
}'
5. Configurer OpenClaw
Dans la configuration d'OpenClaw, ajoutez Ollama comme provider :
providers:
- name: ollama-local
type: ollama
baseUrl: http://localhost:11434
defaultModel: qwen2.5:7b
models:
- phi4-mini # Pour les tâches simples
- qwen2.5:7b # Usage général
- qwen2.5-coder:7b # Pour le code
Vous pouvez définir un modèle par défaut et en utiliser d'autres pour des skills spécifiques. Par exemple, utilisez Phi-4 Mini pour la classification et Qwen 2.5 7B pour la rédaction.
Optimiser les performances
Quantification
Les modèles sont disponibles en plusieurs niveaux de quantification :
- Q8 : qualité quasi-identique au modèle original, utilise 2x moins de mémoire
- Q4_K_M : bon compromis qualité/taille, recommandé pour la plupart des usages
- Q2 : fortement dégradé, uniquement pour les machines très limitées
# Ollama télécharge automatiquement la version Q4 par défaut
ollama pull qwen2.5:7b-q4_K_M
Paramètres de contexte
Réduire la fenêtre de contexte économise de la mémoire et accélère les réponses :
# Dans la configuration Ollama
num_ctx: 4096 # Au lieu de 32768 par défaut
Pour la plupart des conversations, 4096 tokens suffisent largement. Augmentez uniquement pour les tâches qui nécessitent un contexte long (analyse de documents, résumé d'articles).
Multi-modèles
La stratégie la plus efficace est d'utiliser plusieurs modèles :
- Routeur (Phi-4 Mini) : classifie la requête entrante en 0,2 seconde
- Conversation (Qwen 2.5 7B) : gère les échanges courants
- Analyse (Qwen 3 32B) : traite les demandes complexes (GPU requis)
- Code (Qwen 2.5 Coder) : pour la génération et le débogage de code
OpenClaw peut router automatiquement vers le bon modèle selon le type de requête. Les tâches simples restent rapides, les tâches complexes bénéficient d'un modèle plus puissant.
Coût réel : Ollama vs API Cloud
Comparons sur un usage de 30 000 messages par mois (environ 1 000 par jour) :
| | Ollama (VPS 8 Go) | GPT-4o (API) | Claude Sonnet (API) | |---|---|---|---| | Coût serveur | 12 €/mois | 0 € | 0 € | | Coût API | 0 € | ~80 €/mois | ~90 €/mois | | Total mensuel | 12 € | ~80 € | ~90 € | | Total annuel | 144 € | ~960 € | ~1 080 € |
L'économie est massive : 800 à 900 euros par an. Et cet écart se creuse avec l'augmentation de l'usage — le coût Ollama reste fixe tandis que le coût API augmente linéairement.
Qualité : Ollama peut-il rivaliser ?
Soyons honnêtes sur les compromis :
Où Ollama excelle
- Conversation courante : Qwen 2.5 7B gère très bien les échanges standards
- Classification et extraction : les petits modèles sont excellents pour trier, catégoriser, extraire des données structurées
- FAQ et SAV : répondre à des questions récurrentes ne nécessite pas GPT-4
- Confidentialité : aucune donnée ne quitte votre serveur, point
Où les API cloud restent supérieures
- Raisonnement complexe : les problèmes multi-étapes, la planification, le raisonnement logique avancé
- Rédaction créative longue : les textes de plus de 1 000 mots de qualité éditoriale
- Coding avancé : débogage de systèmes complexes, architecture logicielle
- Multilingue rare : les langues peu représentées dans les données d'entraînement
La stratégie hybride
La meilleure approche est souvent hybride :
- 80 % des requêtes traitées par Ollama (tâches simples et moyennes)
- 20 % routées vers une API cloud (tâches complexes)
- Coût résultant : 12 € (VPS) + ~16 € (API pour 20 % des requêtes) = 28 €/mois
Vous économisez 60 à 70 % par rapport au tout-API, sans sacrifier la qualité pour les cas exigeants.
Sécurité d'Ollama
Par défaut, Ollama écoute sur localhost uniquement. Si vous devez l'exposer (pour un OpenClaw sur un autre serveur) :
- Ne l'exposez jamais directement sur Internet
- Utilisez un reverse proxy nginx avec authentification
- Activez le chiffrement TLS
- Restreignez par IP source
# Exemple de configuration nginx pour Ollama
location /ollama/ {
proxy_pass http://127.0.0.1:11434/;
auth_basic "Restricted";
auth_basic_user_file /etc/nginx/.htpasswd;
allow 10.0.0.0/24; # Votre réseau interne
deny all;
}
Conclusion
Ollama transforme le calcul sur l'économie de l'IA. Au lieu de payer à l'usage, vous payez un coût fixe (votre serveur) et vous avez de l'IA illimitée. La qualité est suffisante pour 80 % des cas d'usage professionnels, et la confidentialité est totale.
Si vous débutez, commencez avec Qwen 2.5 7B sur un VPS 8 Go. Si vous avez un GPU, passez directement à Llama 4 Scout ou Qwen 3 32B. Et si vous ne voulez gérer ni le serveur ni Ollama, OpenClawPro propose un proxy Ollama managé avec modèles pré-installés.
Pour aller plus loin, consultez notre classement des 20 meilleurs modèles IA gratuits et notre guide d'installation OpenClaw.