Futuros
Acesse centenas de contratos perpétuos
TradFi
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
Pre-IPOs
Desbloqueie o acesso completo a IPO de ações globais
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Centro de riqueza VIP
Planos premium de crescimento de patrimônio
Gestão privada de patrimônio
Alocação premium de ativos
Fundo Quantitativo
Estratégias quant de alto nível
Apostar
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem Inteligente
Alavancagem sem liquidação
Cunhagem de GUSD
Cunhe GUSD para retornos em RWA
A Gemma do Google já age como a Gemini—alguém fez ela pensar como o Claude Opus também
Se você tem acompanhado o cenário de IA local, provavelmente conhece o Qwopus—o modelo de código aberto que tentou destilar o raciocínio do Claude Opus 4.6 no Qwen da Alibaba, para que você pudesse rodar algo semelhante ao Opus em seu próprio hardware de graça. Funcionou surpreendentemente bem. A vantagem óbvia: Qwen é um modelo chinês, e nem todo mundo se sente confortável com isso. Jackrong, o mesmo desenvolvedor pseudônimo por trás daquele projeto, ouviu o feedback. Sua resposta é o Gemopus—uma nova família de ajustes finos ao estilo Claude Opus, construídos inteiramente com o Gemma 4 de código aberto do Google. DNA totalmente americano, mesma ideia: raciocínio de nível de fronteira, rodando localmente em hardware que você já possui. A família vem em duas versões. Gemopus-4-26B-A4B é a opção mais pesada—um modelo de Mistura de Especialistas que possui 26 bilhões de parâmetros no total, mas ativa cerca de 4 bilhões durante a inferência, o que significa que entrega um desempenho muito superior ao esperado para hardware restrito.
Parâmetros são o que determinam a capacidade de uma IA de aprender, raciocinar e armazenar informações. Ter 26 bilhões de parâmetros no total dá ao modelo uma vasta gama de conhecimentos. Mas, ao “acordar” apenas os 4 bilhões de parâmetros relevantes para sua solicitação específica, ele oferece resultados de alta qualidade de uma IA massiva, mantendo-se leve o suficiente para rodar suavemente em hardware cotidiano. A outra é a Gemopus-4-E4B, um modelo de 4 bilhões de parâmetros projetado para rodar confortavelmente em um iPhone moderno ou um MacBook fino e leve—sem necessidade de GPU. A escolha do modelo base é importante aqui. O Gemma 4 do Google, lançado em 2 de abril, é construído diretamente a partir da mesma pesquisa e tecnologia do Gemini 3—disse a própria empresa na estreia. Isso significa que o Gemopus carrega algo que nenhuma ajuste fino baseado em Qwen pode reivindicar: o DNA do próprio modelo fechado de ponta do Google, sob o capô, envolto no estilo de pensamento da Anthropic. O melhor de ambos os mundos, mais ou menos.
O que diferencia o Gemopus da onda de outros ajustes finos do Gemma que estão inundando o Hugging Face agora é a filosofia por trás dele. Jackrong deliberadamente optou por não forçar as trilhas de raciocínio em cadeia do Claude nos pesos do Gemma—uma solução rápida que a maioria das versões concorrentes adota. Seu argumento, apoiado por pesquisas recentes, é que encher um modelo estudante com textos de raciocínio superficial de um professor não transfere realmente a habilidade de raciocínio. Ensina imitação, não lógica. “Não há necessidade de imaginação excessiva ou replicação supersticiosa do raciocínio no estilo Claude,” diz a ficha do modelo. Em vez disso, ele focou na qualidade das respostas, clareza estrutural e naturalidade na conversa—corrigindo o tom rígido de Wikipedia do Gemma e sua tendência a dar aulas sobre coisas que você não pediu. O engenheiro de infraestrutura de IA Kyle Hessling realizou benchmarks independentes e publicou os resultados diretamente na ficha do modelo. Sua avaliação da variante de 26B foi bastante favorável. “Fiquei bastante satisfeito com os testes e é um ajuste fino excelente de um modelo já excepcional,” escreveu no X. “Ele se sai muito bem em solicitações de uma única vez em contextos longos, e roda incrivelmente rápido graças à arquitetura MOE (mistura de especialistas).”
A variante menor E4B passou em todos os 14 testes de competência essenciais—seguimento de instruções, codificação, matemática, raciocínio em múltiplas etapas, tradução, segurança, cache—and passou em todos os 12 testes de contexto longo com 30K e 60K tokens. Em buscas de agulha no palheiro, passou em 13 de 13 sondagens, incluindo um teste de resistência com um milhão de tokens usando YaRN 8× RoPE scaling.
O 26B se estende nativamente até 131K de contexto e até 524K com YaRN, que Hessling também testou sob estresse: “Ele também destruiu meus testes simples de agulha no palheiro até um contexto estendido de 524k!” Em hardware de borda, o E4B é realmente rápido. Jackrong relata 45–60 tokens por segundo no iPhone 17 Pro Max, e 90–120 tokens por segundo no MacBook Air M3/M4 via MLX. A arquitetura MoE de 26B significa que ele descarrega de forma eficiente em sistemas de memória unificada ou GPUs com menos de 10GB de VRAM. Hessling recomendou como seu modelo diário para setups com VRAM limitada.
Ambos os modelos estão disponíveis em formato GGUF, o que significa que você pode inseri-los diretamente no LM Studio ou llama.cpp sem precisar de configuração. O código completo de treinamento e um guia passo a passo de ajuste fino estão no GitHub do Jackrong—mesmo pipeline usado para o Qwopus, mesma configuração de Unsloth e LoRA, reproduzível no Colab. Gemopus não está sem suas arestas. A chamada de ferramentas ainda está quebrada em toda a série Gemma 4 no llama.cpp e no LM Studio—falhas na chamada, incompatibilidade de formatos, loops—então, se seu fluxo de trabalho depende de agentes usando ferramentas externas, este ainda não é seu modelo. Jackrong mesmo chama isso de “uma referência de exploração de engenharia, não uma solução totalmente pronta para produção,” e recomenda sua própria série Qwopus 3.5 para quem precisa de algo mais estável para cargas de trabalho reais. E, como Jackrong deliberadamente evitou a distilação agressiva do raciocínio em cadeia ao estilo Claude, não espere que ele seja tão profundamente Opus quanto o Qwopus—foi uma troca consciente por estabilidade, não uma falha.
Para quem quer aprofundar o ajuste fino do Gemma especificamente para raciocínio, há também um projeto comunitário separado que vale a pena acompanhar: Ornstein, do desenvolvedor pseudônimo DJLougen, que usa a mesma base Gemma 4 de 26B e foca especificamente em melhorar suas cadeias de raciocínio sem depender da lógica ou estilo de qualquer modelo de terceiros. Uma advertência honesta: as dinâmicas de treinamento do Gemma são mais caóticas do que as do Qwen para ajustadores finos—flutuações de perda mais amplas, maior sensibilidade a hiperparâmetros. Jackrong mesmo admite isso. Se você precisa de um modelo local mais testado para fluxos de trabalho de produção, sua série Qwopus 3.5 continua mais robusta e validada. Mas, se você quer um modelo americano com acabamento ao estilo Opus, o Gemopus é atualmente sua melhor opção disponível. Uma variante mais densa de 31B do Gemopus também está em desenvolvimento, com Hessling sugerindo que será “uma bomba, com certeza.” Se você quer experimentar rodar modelos locais no seu próprio hardware, confira nosso guia de como começar com IA local.