Inteligência artificial local no seu dispositivo Apple.

Sem internet para inferência. Sem coleta de dados. Sem conta. Modelos de IA rodando direto no chip, com aceleração Metal GPU.

On-Device|iPhone / iPad / Mac|Metal GPU|Privado por Design

Ver no GitHub ↗

Funcionalidades

Tudo roda no dispositivo. Tudo é local.

Chat

Chat Inteligente

Conversas multi-turno com streaming em tempo real. Gerenciamento automático de contexto com resumos rotativos e fatos fixados. System prompts personalizados, estilos de resposta configuráveis, renderização Markdown completa.

StreamingMulti-turnoMarkdownSwiftData

Voz

Modo Voz

Pipeline completo: fala, inferência, síntese. Reconhecimento em português brasileiro (pt-BR) com envio automático por detecção de silêncio. TTS neural opcional via Qwen3-TTS ou vozes nativas Apple.

STT pt-BRNeural TTSAuto-sendWaveform

Modelos

Galeria de Modelos

20+ modelos curados com avaliação de desempenho em português. Download com retomada, explorador Hugging Face integrado, adição de modelos customizados por ID. De 1B a 32B+ parâmetros.

1B — 32B+LLMVLMMoEReasoning

Visão

Visão Computacional

Modelos multimodais para análise de imagens. Anexe fotos nas conversas para análise visual, OCR de documentos, processamento de PDF, CSV e arquivos de código.

Gemma 4Qwen VLOCRPDF / CSV

Privacidade

Privacidade Total — LGPD by Design

Nenhum dado sai do dispositivo durante a inferência. Sem analytics, sem crash reporting, sem conta necessária.

Zero ColetaCriptografia em RepousoSem Conta

✓Sem internet para inferência

✓Sem analytics ou telemetria

✓Dados criptografados localmente

✓Privacy label: "Data Not Collected"

Arquitetura

4 camadas com separação clara de responsabilidades.

Apresentação

SwiftUI views, design system, navegação

ChatViewModelGalleryVoiceModeSettingsOnboarding

Serviços

Lógica de negócio, estado, orquestração

ChatViewModelModelManagerVoiceServiceFileProcessorSiriIntents

Inferência

MLX runtime, carregamento de modelos, geração de tokens

MLX SwiftMLXVLMllama.cppFoundation Modelsmlx-audio

Dados

Persistência, sistema de arquivos, downloads

SwiftDataFileSystemHugging Face HubKeychain

Motores de Inferência

MLX Swift

Motor principal — GPU Metal nativo

Apple Silicon

MLXVLM

Modelos de visão (imagem + texto)

Apple Silicon

llama.cpp

Fallback para arquiteturas GGUF

Qualquer dispositivo

Foundation Models

Apple Intelligence (~3B) sem download

iOS 26+ / macOS 26+

Stack Tecnológico

Inferência

MLX Swift

MLXLLM / MLXVLM

llama.cpp

Foundation Models

Plataforma

Swift 6.3

SwiftUI

Metal GPU

Apple Silicon

Voz & Áudio

SFSpeechRecognizer

mlx-audio-swift

AVSpeechSynthesizer

AVAudioEngine

Dados

SwiftData

Hugging Face Hub

Keychain

PDFKit / Vision

Modelos Suportados

Curados para desempenho em português.

Modelo	Parâmetros	Download	Avaliação PT	Visão	Reasoning
Llama 3.2	1B / 3B	~750MB–2GB	Razoável–Bom	—	—
Qwen 3	4B / 8B / 14B	~2.5–8.5GB	Bom–Excelente	—	—
DeepSeek R1	7B	~4GB	Bom	—	Sim
Gemma 4	12B–26B MoE	~7–15GB	Excelente	Sim	Sim
Qwen VL	2B	~1.5GB	Bom	Sim	—

Qualquer modelo da comunidade mlx-community no Hugging Face pode ser adicionado manualmente por ID. O explorador integrado permite buscar, filtrar e baixar modelos diretamente do app.

Baixando Modelos

Como configurar o acesso ao Hugging Face e baixar modelos no app.

Token do Hugging Face

Alguns modelos no Hugging Face são "gated" — exigem que você aceite os termos de uso e tenha um token de acesso. Para baixar esses modelos no RodaAi, você precisa configurar seu token.

Crie uma conta no Hugging Face

Acesse huggingface.co e crie uma conta gratuita, se ainda não tiver.

Gere um Access Token

Vá em Settings > Access Tokens > New token. Selecione permissão "Read" (leitura). Copie o token gerado (começa com hf_...).

Configure no RodaAi

No app, vá em Ajustes > Hugging Face Token e cole o token. Ele será salvo no Keychain do iOS/macOS — criptografado pelo sistema operacional, nunca em texto plano.

Explorando e Baixando

Modelos curados

Na aba Modelos, a seção "Em Destaque" mostra modelos pré-selecionados com avaliação de desempenho em português. Toque em um modelo para ver detalhes e iniciar o download.

Explorador Hugging Face

Na seção "Explorar", busque qualquer modelo da comunidade mlx-community. O explorador mostra tamanho, arquitetura e compatibilidade com seu dispositivo.

Modelo por ID

Se você sabe o repositório exato, use "Adicionar por ID" e cole o ID do modelo (ex: mlx-community/Qwen3-8B-4bit). O app valida compatibilidade antes do download.

Gerenciamento de storage

Modelos são salvos em ~/Documents/RodaAi/models/. O app mostra uso de armazenamento em tempo real. Downloads podem ser pausados e retomados sem perder progresso.

Segurança do Token

✓O token é armazenado no Keychain do iOS/macOS com NSFileProtectionComplete

✓Nunca é transmitido para nenhum servidor além do Hugging Face Hub

✓É usado apenas para autenticar downloads de modelos gated

✓Pode ser removido a qualquer momento em Ajustes

Como Rodar

Do clone ao primeiro prompt no dispositivo.

Requisitos

Xcode26.4+ (Swift 6.3)

iOS26.0+ — iPhone 15 Pro (A17 Pro) ou superior

iPadOS26.0+ — iPad com chip M1+

macOS26.0+ (Tahoe) — Mac com Apple Silicon M1+

Clone e abra no Xcode

git clone https://github.com/bmtec-us/roda.ai.git
cd roda.ai
open Package.swift

Configure o target

Selecione o scheme RodaAi e o dispositivo físico (simulador x86 não suporta MLX). Para iPhone, conecte via cabo ou Wi-Fi.

Signing & Capabilities

Em Signing & Capabilities, selecione seu Team de desenvolvimento. O entitlement "Increased Memory Limit" já está configurado para modelos 8B+.

Build & Run

Cmd+R no Xcode para compilar e instalar no dispositivo. O primeiro build baixa as dependências SPM (~2 min).

# Ou via linha de comando
swift build

*Modelos são baixados dentro do app na primeira execução — não estão incluídos no binário.

*O uso de RAM nunca ultrapassa 80% da memória disponível do dispositivo.

*Para modelos maiores que 8B, o entitlement de memória estendida é obrigatório.