DeepSeek antes do lançamento da V4: características, organização e os objetivos únicos de Liang Wenfeng

金色财经_ · 2026-04-02T11:49:09+00:00

DeepSeek está numa encruzilhada de mudanças. Desde o segundo semestre de 2025 até agora, os membros do DeepSeek que claramente saíram ou encontraram um novo caminho são:- Wang Bingxuan, recrutado no final do ano passado pelo Tencent por Yu Shunyu, ele é o autor principal do DeepSeek LLM (a primeira geração de grandes modelos de linguagem do DeepSeek), tendo participado do treinamento de várias gerações de modelos desde então.- Wei Haoran, que saiu por volta do período do Ano Novo Chinês, é o autor principal da série DeepSeek-OCR e pode ingressar numa grande empresa.- Guo Daya, que saiu recentemente oficialmente, é o autor principal do DeepSeek-R1 e também pode ingressar numa grande empresa.- E Ruǎn Chōng, que saiu no início de 2025 e entrou em aposentadoria, anunciou oficialmente em janeiro deste ano que se juntou à startup de condução autónoma Yuanrong Qixing; Ruǎn Chōng é de

金色财经_

2026-04-02 11:49:09

O DeepSeek está num ponto de viragem em mudança. Desde o segundo semestre de 2025 até hoje, os membros do DeepSeek que saíram de forma clara e encontraram um novo destino incluem:

Wang Bingxuan, que foi recrutado pela Tencent no fim do ano por Yao Shunyu; é o autor principal do DeepSeek LLM (a primeira geração de modelo linguístico do DeepSeek) e, desde então, participou no treino de sucessivas gerações de modelos.
Wei Haoran, que terá saído por volta do Ano Novo Chinês; é o autor principal da série DeepSeek-OCR e poderá vir a entrar numa grande empresa tecnológica.
Guo Dayaya, que se desligou oficialmente recentemente; é o autor principal do DeepSeek-R1 e poderá vir a entrar numa grande empresa tecnológica.
E Ruán Chōng, que se desligou no início de 2025 e entrou em situação de reforma; este ano, em janeiro, anunciou oficialmente a entrada numa empresa de startups de condução autónoma, Yuanrong Qixing. Ruán Chōng é um membro antigo que entrou desde a fase de Fǎngfāng. É um contribuinte central dos resultados multimodais do DeepSeek, como o Janus-Pro.

Antes, o DeepSeek não tinha levantado financiamento, pelo que não havia uma avaliação de empresa claramente definida. Quando outras empresas de IA inflaram os seus valores de mercado ou as suas avaliações, Liang Wenfeng está a tentar responder às dúvidas dos membros da equipa: afinal, quanto vale a empresa? Isto determina, na prática, que valor têm as opções concedidas aos empregados.

Desde o outono de 2025, Liang Wenfeng também começou a falar mais sobre produtos e comercialização. O DeepSeek já tem uma equipa de produto com algumas dezenas de pessoas, mas ainda não se aventurou em direções de aplicação populares como programação em IA e agentes genéricos; para o utilizador final, ainda só possui o típico produto de chatbot.

O novo tema de Liang Wenfeng também é a gestão da dimensão. O número de pessoas no DeepSeek já ultrapassou a fase da Fǎngfāng, sendo a maior organização que ele já conseguiu gerir.

O que paira sobre todas estas mudanças é o facto de o DeepSeek V4 ainda não ter sido lançado oficialmente.

Na verdade, por volta de janeiro de 26, uma versão com pequenos parâmetros do V4 já tinha sido entregue a algumas comunidades de frameworks de código aberto para iniciarem a adaptação. Com base nas expectativas relativamente otimistas anteriores, a versão com grandes parâmetros do V4 poderia ter sido lançada e disponibilizada em código aberto por volta do meio de fevereiro, antes ou depois do Ano Novo Chinês. Segundo informações, o DeepSeek V4 pode ser lançado em abril.

Há quem saia; há também quem escolha ficar. O DeepSeek está a ajustar-se, mas mantém muitas características inalteradas.

É o único “laboratório central de IA” no mundo que não pratica “esmagamento” (não entra na corrida). Quando os programadores centrais de IA de empresas da China e dos EUA — como Google, OpenAI, xAI, ByteDance, entre outras — trabalham semanalmente 70~80 horas, a maioria dos empregados do DeepSeek sai da empresa por volta das 18h~19h em dias normais. De manhã, também não fazem registo de ponto.

Liang Wenfeng acredita que o tempo em que uma pessoa consegue produzir com qualidade elevada num dia dificilmente ultrapassa 6~8 horas.

O DeepSeek não tem avaliações de desempenho claramente definidas nem DDL (data limite). Esta organização compacta e com densidade muito alta de talentos continua a seguir a “divisão natural do trabalho”: os investigadores podem formar equipas livremente ou dedicarem-se individualmente à exploração de novas ideias.

“Para além da linha principal, também há pessoas no DeepSeek a fazerem algum tipo de pesquisa longa que talvez não dê resultados durante um ano.” “O DeepSeek é um lugar em que as pessoas querem genuinamente fazer investigação; no país, e mesmo no mundo, é um dos melhores sítios que se consegue encontrar.” disseram pessoas próximas do DeepSeek.

Claro que o DeepSeek tem também uma característica: o mistério. Especialmente depois de 2025, além de publicarem relatórios técnicos de forma pública, desde o fundador Liang Wenfeng até ao silêncio coletivo dos membros da equipa, é difícil ouvir as suas vozes nas redes sociais ou nas comunidades em que profissionais de IA são ativos.

Nesta reportagem, apresentamos as características do DeepSeek, os seus focos de trabalho e o modo como a organização funciona, tal como foi possível apurar por vários canais. Tudo isto tem origem no objetivo único que Liang Wenfeng definiu para o DeepSeek.

O próprio Liang Wenfeng: fazer poucas coisas, e levá-las ao extremo

O objetivo de IA de Liang Wenfeng é muito anterior à fundação do DeepSeek em 2023.

Em 2016, Hasabis, o proponente da AGI e fundador da DeepMind, montou uma equipa de trading quantitativo, tentando gerar receitas para a DeepMind, que queria conseguir dinheiro junto de quem, na altura, procurava separar-se do Google; no entanto, não chegou a ganhar dinheiro.

No mesmo ano, Liang Wenfeng, licenciado e mestre pela universidade de Zhejiang, já tinha 8 anos a fazer investimento quantitativo. Em 2015 fundou a Fǎngfāng. Em 2016 começou a usar GPU para correr trading de aprendizagem profunda em modo real; no fim de 2017 alcançou “quase todas as estratégias de trading automatizadas por IA”. Em 2019 começou a construir o primeiro cluster de capacidade de computação da Fǎngfāng, o “Fǎnghuǒ n.º 1”, com 1100 GPUs.

Também em 2019, a Fǎngfāng AI (Beijing Fǎngfāng Artificial Intelligence Basic Research Co., Ltd.) foi formalmente registada. Atualmente, Luo Fēilì, responsável por IA na Xiaomi, e Ruan Chōng, que entrou recentemente na Yuanrong, foram ambos juntados à Fǎngfāng após esse período, antes de, mais tarde, em 2023, transitarem para o DeepSeek.

Como alguém que ficou financeiramente independente antes dos 30 anos, a vida de Liang Wenfeng é simples e enigmática.

Na perceção das pessoas à volta, ele usa durante vários dias a mesma roupa. Em Hangzhou, ele morou durante muito tempo em hotéis; em Pequim, onde a maioria dos engenheiros de I&D do DeepSeek estão baseados, ele arrendou casa. É magro e tem hábitos de exercício; e o seu passatempo, conhecido pelas pessoas, são atividades ao ar livre como caminhadas.

Jen-Hsun Huang convidaria empregados da Nvidia para irem a casa dele, beberiam uns copos e conversariam à vontade, e ele mostrava com alegria os seus carros desportivos. Já Liang Wenfeng não participa em atividades de convívio trimestrais, raramente janta com os membros e, nas grandes atividades de fim de ano, só aparece quando faz um discurso, não participa no decorrer completo.

Em 2022, um empregado da Fǎngfāng, “um porquinho vulgar”, doou individualmente 138 milhões de yuan a uma instituição de caridade. Mais tarde, muitas pessoas adivinharam que esse porquinho seria Liang Wenfeng. A resposta da equipa da Fǎngfāng foi: “As doações dos empregados são anónimas e, dentro da empresa, ninguém sabe qual é a identidade real do porquinho.”

Dentro da sua área de trabalho, Liang Wenfeng faz poucas coisas. Ele não faz algumas tarefas que muitos CEO de startups fazem, como angariar financiamento.

Em 2023, Liang Wenfeng viu alguns investidores num círculo pequeno. Mas, pelo que sabemos, ele fez um pedido pouco convencional: tal como nos acordos de investimento da OpenAI e da Microsoft, Liang Wenfeng queria que os investidores aceitassem um limite de retorno. Após as reuniões desta ronda, nenhuma instituição investiu no DeepSeek.

Nos dois anos seguintes, o financiamento de grandes modelos na China aumentou de forma tumultuosa, com acordos de várias centenas de milhões de dólares a aparecerem frequentemente; no entanto, Liang Wenfeng deixou de encontrar investidores e, inclusive, deixou de criar contactos novos. Mesmo quando não era janela para financiamento, a maioria dos fundadores não recusaria pelo menos conhecer um parceiro de uma instituição de topo; ainda assim, Liang Wenfeng recusou a maioria destes pedidos.

Quase todo o tempo de Liang Wenfeng foi investido nas poucas coisas que ele considera que deveriam ser o foco, fazendo tudo com detalhe e levando ao extremo.

Um dos elementos-chave do sucesso do DeepSeek foi “colocar força num só ponto”: definir claramente o modelo linguístico como uma prioridade superior e não ter avançado em direções populares como geração multimodal.

Na linha principal escolhida, Liang Wenfeng faria “hands on” mergulhando nos detalhes. Ele aprende com membros da equipa com diferentes origens — conhecimentos sobre algoritmos, arquitetura, Infra e dados — e também participa em discussões detalhadas sobre modelos e produtos.

Muitas pessoas que já tiveram contacto com Liang Wenfeng mencionam que ele não tem o “campo” típico de um CEO ou de um chamado génio; parece mais um investigador. Quando fala com os outros, a maior parte do tempo discute questões técnicas específicas.

O fundador do Oasis Capital, Zhang Jin-jian, partilhou um pequeno conto em “Those Who Lived It Out” (《那些活出来的人中》). Ele perguntou ao MiniMax — o fundador Yan Junjie —: “Há alguém mais focado do que tu?” Yan Junjie respondeu que, uma vez, marcou jantar com um amigo que não tinha encontrado antes; chegou cedo e viu um rapaz de T-shirt, achando que seria um assistente. A outra pessoa não se apresentou primeiro e fez muitas perguntas técnicas a Yan Junjie. Passada meia hora, Yan Junjie disse: “Quando é que o Sr. Liang chega?” O outro respondeu: “Sou eu, Liang Wenfeng.”

Organização do DeepSeek: achatada, divisão de trabalho cruzada, sem horas extra

Em linha com o estilo de Liang Wenfeng, a organização do DeepSeek é extremamente achatada: em cada etapa há divisão de trabalho cruzada; o crescimento em escala é cauteloso; e não fazem horas extra.

Quando fundaram a Fǎngfāng, Liang Wenfeng tinha sócios; já o DeepSeek não tem segundo no comando. Especialmente na equipa de investigação, há apenas dois níveis: Liang Wenfeng e os restantes investigadores. Liang Wenfeng toma decisões importantes e assume o maior volume de resultados.

Esta parte da equipa de investigação tem atualmente cerca de mais de 100 pessoas. Funciona como um grande laboratório. Os investigadores do DeepSeek, que em grande parte nasceram por volta de 2000, estão habituados a chamar Liang Wenfeng — nascido em 1985 — de “o Boss Liang”. Este boss está mais perto de um orientador: organiza o desenvolvimento e coordena recursos, e também faz investigação concreta, assinando como autor de correspondência nos resultados conjuntos.

O próprio Liang Wenfeng participa mais na equipa de arquitetura de modelos base. Depois de discutir profundamente com a equipa, determina as versões da arquitetura de cada geração de modelos base. Esta equipa tem algumas dezenas de pessoas; são a força principal do pré-treino.

Em estreita relação com a arquitetura de modelos base, há as equipas de Infra e de dados, cada uma com algumas dezenas de pessoas. Em algumas empresas, a equipa de Infra é mais como um “fornecedor interno” que executa requisitos de algoritmos; já no DeepSeek, a equipa de Infra participa nas discussões e dá recomendações já na fase de definição antes do treino do modelo.

A colaboração estreita entre estes módulos faz com que os limites da equipa do DeepSeek não fiquem tão claramente separados, criando a “divisão de trabalho cruzada”. Isto é, de facto, o formato de colaboração mais alinhado com as características do treino de modelos: na fase de experimentação de modelos e de definição, é preciso considerar a seleção de dados e a implementação de Infra.

Liang Wenfeng é o “detetor” e o “agente de ligação” que liga estes módulos diferentes. Ele está presente em todas as reuniões de cada equipa, para conhecer o progresso global e os pontos de bloqueio. A maioria das reuniões semanais do DeepSeek também está aberta a pessoas de outras equipas, permitindo a participação entre grupos.

O estilo da “primeira posição” — de ir fundo nos detalhes — e a colaboração estreita criada de forma espontânea tornam difícil conseguir isso numa organização grande. Por isso, o DeepSeek é muito cauteloso ao expandir a dimensão da equipa central de I&D.

Num ponto muito particular e raro no ecossistema global de IA, o DeepSeek não faz horas extra. Eles não fazem registo de ponto, não têm avaliações de desempenho claramente definidas; no dia a dia, a maioria dos membros sai da empresa por volta das 18h~19h. O DeepSeek fornece também benefícios gratuitos pós-expediente, como aulas de desporto, reembolso de espaços desportivos, entre outros.

Liang Wenfeng acredita: o tempo de trabalho de alta qualidade de uma pessoa, por dia, dificilmente ultrapassa 6~8 horas. Com a fadiga das horas extra, a indecisão leva ainda mais a desperdício de recursos valiosos de computação, o que não compensa.

Quanto à composição de pessoal, antes disso o DeepSeek praticamente não fazia recrutamento social (社招), dando prioridade à retenção de recém-licenciados e estagiários. No início de 2025, o “LatePost” (《晚点》) organizou e analisou os 172 investigadores que, à data, tinham participado nas três gerações de modelos do DeepSeek (LLM, V2, V3&R1), incluindo estagiários, e encontrou os currículos de 84 deles: mais de 70% eram licenciados e mestres; mais de 70% tinham menos de 30 anos.

Antes de V3 e R1, o DeepSeek estava a fazer a sua presença na primeira linha global de grandes modelos com cerca de 1/10 do número de pessoas de uma grande empresa e cerca de 1/2 do tempo de trabalho médio por pessoa — com uma concentração e foco extremamente elevados.

Mas, à medida que há cada vez mais direções que é preciso explorar para atingir capacidades de IA de topo, torna-se cada vez mais difícil manter esta dimensão organizacional, este modo de comunicação e este ambiente de colaboração.

Nos últimos 15 meses, o DeepSeek continua a fazer o que é; e o mundo exterior muda de forma drástica

Depois de V3 e R1 explodirem no início de 2025, o DeepSeek não seguiu de imediato com a “cartada” para aumentar a aposta; em vez disso, continuou a desenvolver ao longo das direções em que se foca. As realizações já publicadas podem, grosso modo, ser divididas em três tipos:

Primeiro, otimizações de eficiência: espremer ao máximo a capacidade de cálculo das GPUs e maximizar a inteligência produzida por unidade de capacidade de computação. Isto inclui, a partir do ciclo de código aberto de janeiro de 2025, um conjunto completo de Infra de treino e inferência, abrangendo kernels de inferência, bibliotecas de comunicação, bibliotecas de multiplicação de matrizes e frameworks de processamento de dados. (Nota: kernel é o código que executa o cálculo mais baixo na GPU, usado para implementar operações nucleares como multiplicação de matrizes.)

Depois, melhorias contínuas na “mecanização de atenção”: como o NSA (atenção esparsa nativa) no início de 2025 e, mais tarde, o DSA (atenção esparsa dinâmica). Juntando o MLA (atenção latente multi-cabeça) do V2 mais cedo, o objetivo comum é processar contextos mais longos sem aumentar significativamente a capacidade de computação.

No DeepSeek-V3.2 atualizado no fim de setembro de 25, também é possível ver que o DeepSeek até trocou a biblioteca de operadores subjacente das linguagens CUDA e Triton predominantes por TileLang. A CUDA é a linguagem de mais baixo nível fornecida pela Nvidia; o Triton foi disponibilizado em open source pela OpenAI; e o TileLang é um projeto open source lançado pela equipa do professor Yang Zhi, da Universidade de Pequim.

Segundo, melhorias na arquitetura do modelo. Por exemplo, o mHC (ligações de constrangimento amplamente difundidas), lançado no início de 26, com o objetivo de melhorar a estabilidade no treino em larga escala; e o Engram, construindo uma memória de longo prazo fora do modelo. Em geral, o mundo acredita que o mHC será usado no treino do V4.

Terceiro, algumas explorações “não convencionais”, como o DeepSeek-OCR, que converte texto em imagens e depois as introduz no modelo. A ideia é fazer com que o modelo compreenda parágrafos e hierarquias de um modo mais próximo de como os humanos “veem texto”, melhorando a capacidade de compreender documentos complexos.

Dentro do DeepSeek, existem também mais tentativas em curso deste tipo, incluindo aprendizagem contínua, aprendizagem autónoma, entre outras.

Liang Wenfeng também contratou, em 2025, alguns consultores com formação em neurociência e ciências do cérebro, para explorar mecanismos de aprendizagem mais parecidos com o cérebro humano.

Ao mesmo tempo, o ambiente de IA exterior mudou de forma drástica de 2025 até hoje. As duas linhas de competição mais discutidas são:

Uma é a dos modelos e aplicações agentic baseados em capacidades de coding. Este é o campo de batalha onde a Anthropic e a OpenAI estão a competir com mais intensidade, formando o Opus 4.6 vs GPT-5.4 e o duelo entre produtos como Claude Code vs Codex. O OpenClaw “caranguejo-lagostim” (小龙虾), que ficou muito popular desde o início do ano, é também a forma mais recente de uma aplicação agentic.

A outra é a geração multimodal. Neste domínio, devido aos “efeitos mágicos”, tem saído do nicho repetidamente para o destaque: o OpenAI GPT-4o na primavera de 2025, o Google NanoBanana no outono, e depois a Byte Seedance 2.0 antes do Ano Novo Chinês de 2026. E a geração de vídeo também está relacionada com uma direção mais avançada: “world models” (modelos do mundo).

O DeepSeek, em primeiro lugar, não investiu muito na geração multimodal, porque Liang Wenfeng acredita que a geração multimodal não é a linha principal da inteligência.

Na direção agent, o DeepSeek-V3.2 reforçou as capacidades de agentes; no entanto, a cadência global de iterações do DeepSeek é mais baixa do que a do R1. Durante um período depois, o DeepSeek chegou a sentir algum tipo de ansiedade em relação aos outros “tigres pequenos”.

De janeiro de 2025 até agora, o Zhipu, o MiniMax e o Kimi já atualizaram respetivamente 5 versões, 4 versões e 3 versões dos seus modelos, focando-se no reforço de Agent ou coding.

De acordo com dados do OpenRouter, nos últimos 30 dias (24 de fevereiro a 26 de março), entre os 10 modelos com maior consumo de tokens pelas aplicações do OpenClaw chamadas via OpenRouter, 6 modelos são da China, e o DeepSeek-V3.2 fica em 12.º. (Nota: o OpenRouter reflete mais o uso por utilizadores individuais e pequenos/médios programadores; por isso, só pode ser usado como referência para consumo total de tokens.)

O objetivo do DeepSeek não é o mais mainstream; há quem saia e há quem fique

A “postura singular” do DeepSeek está ligada ao objetivo de AGI com que Liang Wenfeng está de acordo. Para além de procurar o limite superior de inteligência dos grandes modelos, ele considera que há também dois trabalhos muito importantes:

Um é construir grandes modelos com base no ecossistema nacional.

O DeepSeek investirá em adaptações para GPUs nacionais para lidar com a realidade de oferta limitada de GPUs de alto desempenho. Por exemplo, após atualizarem o V3.1 em agosto do ano passado, mencionaram que o UE8M0 FP8 — uma forma de compressão de dados — “foi desenhado para o próximo conjunto de chips nacionais”. O TileLang open source baseado em código nacional, que substitui Triton como mencionado acima, é também um tipo de trabalho deste género, que permite ter mais controlo na camada base.

Em conversas com profissionais de IA, Liang Wenfeng também propôs uma hipótese: “É possível usar uma parte da capacidade de computação existente para obter toda a inteligência que se vê atualmente?”

O segundo é a “inovação do tipo original”, fazer direções que uma grande fábrica ou outras startups não tentariam nem estariam dispostas a tentar.

Por exemplo, no segundo semestre de 2024, o DeepSeek começou a série Janus, tentando unificar compreensão e geração multimodais. O DeepSeek também fez a série Prover, explorando provas formais. Há ainda o OCR em 25, e também a aprendizagem contínua e a exploração de cérebros bioinspirados que decorrem internamente.

Enquanto fundador, o que mais preocupa Liang Wenfeng não é apenas o efeito do modelo em si, mas também as descobertas mais essenciais e originais no caminho para alcançar esse efeito.

Mas isto não corresponde, em parte, às expectativas que o exterior tem em relação ao DeepSeek: algumas pessoas querem que cada ação do DeepSeek seja tão surpreendente quanto o R1. Isso é um pouco difícil de exigir e não está de acordo com as regras do desenvolvimento técnico.

Liang Wenfeng pode não se importar com as expectativas externas, mas tem de enfrentar e lidar com expectativas internas.

Para muitos investigadores mais jovens, fazer mais pesquisa de ponta também exige assumir mais incerteza. O caminho mais “seguro” é participar continuamente nos modelos mais fortes da indústria, assinar nos relatórios técnicos que chamam atenção, e ter recursos de GPU suficientes para suportar experiências e exploração.

Para além de honras e influência, a atração do DeepSeek para os seus membros também inclui promessas de riqueza elevada.

O salário base absoluto do DeepSeek não é baixo, mas o de fora é mais alto. Alguns recrutadores disseram-nos que os concorrentes apresentaram “números difíceis de recusar”, que “multiplicar por 2 a 3 vezes não é um problema” e que “as outras empresas oferecem pacotes com 8 dígitos (contando como ações ou opções)”.

Novas mudanças incluem que o MiniMax e o Zhipu abriram capital e os preços das ações dispararam; o IPO do Kimi também entrou na agenda. Isto também faz com que alguns membros do DeepSeek tenham mais dúvidas sobre a quota de opções que têm em mãos, que não tem um preço claramente definido.

Perante convites de grande valor, mais pessoas escolhem ficar. Elas reconhecem o modo como Liang Wenfeng persegue a AGI, e estão dispostas a fazer explorações que não são movidas por competição; além disso, estão habituadas a uma atmosfera de investigação relativamente relaxada e tranquila no DeepSeek.

Alguns rumores externos recentes não são precisos. Embora a equipa do DeepSeek tenha sofrido mudanças, não houve uma perda em grupo.

“Os que ficaram ainda têm um pouco de idealismo.” disse uma pessoa próxima do DeepSeek. Liang Wenfeng acha que, para além da linha principal de melhorar eficiência e desempenho do modelo, é necessário fazer algumas direções em que os retornos atuais ainda não são claros, porque “aquelas empresas no estrangeiro, com mais capacidade de computação — como o Google e a OpenAI — certamente estão a testar várias direções lá dentro”.

Até hoje, a equipa relativamente pequena do DeepSeek e a transparência e atmosfera achatada desde a sua fundação permitem que a divisão de trabalho entre membros continue de forma natural: às vezes, começa uma nova direção porque três ou cinco pessoas acham que uma ideia é boa e, então, fazem-na em conjunto.

Isto está em linha com a descrição de Liang Wenfeng numa entrevista de 2024 para o “Aiming Tide” (《暗涌》): “Em geral, não fazemos divisão de trabalho com antecedência”. “Cada pessoa tem a sua própria história de crescimento única e já traz ideias próprias; não é necessário empurrá-la… Mas, quando uma ideia mostra potencial, também alocamos recursos de cima para baixo.”

“DeepSeek é um lugar em que as pessoas querem genuinamente fazer investigação. No país, e até no mundo, é possível encontrar o melhor sitio.” disse uma pessoa próxima do DeepSeek.

Mudar o mundo — e também ser mudado pelo mundo

Uma perceção e decomposição únicas do objetivo AGI é uma característica valiosa do DeepSeek e, ao mesmo tempo, a razão de ele enfrentar tensões internas agora. Porque a construção de ecossistema e a exploração original que Liang Wenfeng valoriza sobrepõem-se, mas não são totalmente idênticas, ao que a indústria, em geral, considera como prioridade número um: “manter-se o mais forte”.

Além disso, à medida que os grandes modelos evoluíram até hoje, os critérios de “ser forte” e de “originalidade” ficam cada vez mais indefinidos e subjetivos.

Os resultados em benchmarks já não conseguem medir por completo o nível de um modelo. Especialmente depois de entrar na competição de modelos agentic, o alcance do produto e os casos de utilização de cauda longa que isso traz, bem como a diversidade de dados, tornam-se ainda mais importantes — exatamente uma área em que o DeepSeek, focado em desenvolvimento de modelos, investiu relativamente pouco antes.

O V4 que se aproxima provavelmente continuará a ser o melhor modelo open source, mas dificilmente será um tipo de “superioridade esmagadora”. Hoje em dia, em contextos diferentes, para diferentes programadores e utilizadores, o padrão e a sensação de “ser forte” estão a tornar-se cada vez mais diversificados.

Quanto ao que é “exploração original” e “valiosa”, sempre foi controverso e depende da experiência, julgamento e intuição de diferentes investigadores — o que se chama “gosto técnico”.

A forma de validar esse gosto são as experiências; mas a quantidade e escala das experiências são limitadas pelos recursos de GPU. Comparado com os pares, o DeepSeek não tem tanta capacidade de computação.

Por fim, independentemente de ser a fundação do ecossistema de grandes modelos ou a exploração de direções que outras equipas talvez não testem no processo de perseguir efeitos do modelo — os retornos desses trabalhos que Liang Wenfeng valoriza ainda são muito incertos.

A pesquisa de ponta deveria assumir esta incerteza; mas não coincide totalmente com a realidade de recursos de computação limitados, nem com as expectativas do exterior de que o DeepSeek possa continuar a surpreender — e até “esmagar” — os outros.

Liang Wenfeng percebeu que tinha de mudar. Recentemente, começou a procurar maneiras de dar uma avaliação à empresa e criar expectativas mais claras para os membros da equipa.

O DeepSeek também vai investir mais em produtos. Organizámos os anúncios de recrutamento que um HR do DeepSeek publicou em redes sociais desde dezembro de 2024 até agora. Na contratação mais recente a meados de março, o DeepSeek mencionou pela primeira vez o nome de produtos específicos de outras vertentes: para recrutar o “gestor de produtos de estratégia de modelo” (Agent) —:

Acompanhar continuamente as tendências da indústria, ser familiar e usar profundamente agentes conhecidos como Claude Code, OpenClaw, Manus, etc.…

A seguir, é certo que verá mais ações do DeepSeek em produtos agent.

No início de 2025, com um espírito generoso de código aberto e a “maravilha de um David contra Golias” (por pouco e com impacto), o DeepSeek abalou a China e o mundo, mudou o mundo: fez com que uma série de pares investisse mais energia na própria tecnologia de modelos, inspirou modelos posteriores como Kimi K2 e K2-thinking, e também deu origem direta a algumas equipas novas, como a MiroMind, apoiada por Chen Tianqiao.

Porque é uma “maravilha”? Porque uma maravilha, por definição, não acontece muitas vezes — é um evento de baixa probabilidade. Num ambiente na China que valoriza a competição e o que os resultados dizem, a existência do DeepSeek, que se atreve a perseguir um objetivo único, por si só é uma surpresa de baixa probabilidade.

Ao contactar pessoas que conhecem Liang Wenfeng, a avaliação é: “É alguém muito resistente ao ruído.”

Depois de o R1 explodir em 2025, Liang Wenfeng mostrou serenidade face ao apoio e à adoração. E agora, enfrenta um novo tipo de teste: à medida que a competição externa se intensifica, distinguir ruído e sinal, manter aquilo que precisa de ser mantido e mudar aquilo que precisa de ser alterado.

“Quem baixa a cabeça e faz as coisas nem sempre consegue rir por último na corrente do mercado agitado; mas só com mais empresas como o DeepSeek é que a tecnologia chinesa pode ter a possibilidade de passar de ‘copiar’ para ‘liderar’.” disse um profissional.

Este é o trabalho de Liang Wenfeng e do DeepSeek. E para mais pessoas que foram abaladas por esta empresa, o que podem fazer é muito simples: largar a narrativa de ‘culto a histórias sensacionais’ (爽文), e olhar para uma empresa e inovação tecnológica com mais tranquilidade habitual.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.