Baseado em LLaMA, mas mudando o nome do tensor, o grande modelo de Kai-Fu Lee causou controvérsia, e a resposta oficial veio

2023-11-15 06:38:25

Fonte original: Heart of the Machine

Fonte da imagem: Gerado por Unbounded AI

Alguns pesquisadores descobriram que o modelo Yi-34B de Kai-Fu Lee basicamente adota a arquitetura do LLaMA, mas renomeia dois tensores. Em resposta, “Zero Um Tudo” deu uma resposta oficial.

Algum tempo atrás, um novo modelo foi introduzido no campo de modelos grandes de código aberto - o tamanho da janela de contexto excedeu 200k, e o “Yi” que pode processar 400.000 caracteres chineses de cada vez.

Este modelo em grande escala é construído pela empresa de modelos de grande escala “Zero One Everything”, fundada por Kai-Fu Lee, presidente da Sinovation Ventures e CE0, e inclui duas versões: Yi-6B e Yi-34B.

De acordo com a plataforma da comunidade de código aberto Hugging Face English e a lista de avaliação C-Chinesa, o Yi-34B alcançou um número de reconhecimento internacional do melhor índice de desempenho da SOTA quando foi lançado, tornando-se o “duplo campeão” dos grandes modelos globais de código aberto, superando LLaMA2 e Falcon e outros concorrentes de código aberto.

O Yi-34B também se tornou o único modelo doméstico que liderou com sucesso o ranking global de modelos de código aberto da Hugging Face na época, chamando-o de “o modelo de código aberto mais forte do mundo”.

Recentemente, no entanto, alguns pesquisadores descobriram que o modelo Yi-34B basicamente adota a arquitetura do LLaMA, mas renomeia os dois tensores.

Link original:

O post também afirma:

código do Yi-34B é na verdade uma refatoração do código LLaMA, mas não parece ter mudado nada substancialmente. Este modelo é claramente baseado no arquivo LLaMA versão 2.0 original do Apache, mas não menciona LLaMA:

Comparação de código Yi vs LLaMA. Link do código:

Além disso, essas alterações de código não são enviadas ao projeto de transformadores por meio de uma solicitação pull, mas são anexadas como código externo, o que pode ser um risco de segurança ou não suportado pela estrutura. A tabela de classificação do HuggingFace nem sequer avalia este modelo com uma janela de contexto de até 200K porque não tem uma estratégia de código personalizada.

Eles afirmam que este é um modelo de 32K, mas é configurado como um modelo 4K, não há configuração de escala RoPE e não há explicação de como escalar (nota: Zero Um Mil Coisas afirmou anteriormente que o modelo em si foi treinado em uma sequência de 4K, mas poderia ser dimensionado para 32K durante a fase de inferência). No momento, não há informações sobre seus dados de ajuste fino. Eles também não fornecem instruções para replicar seus benchmarks, incluindo pontuações altas suspeitas de MMLU.

Qualquer pessoa que tenha trabalhado no espaço da IA por um tempo não fechará os olhos para isso. Isso é propaganda falsa, violações de licença, fraude de benchmark real, quem se importa, mudar o próximo papel, ou neste caso, pegar todo o dinheiro do risco. Yi está pelo menos acima da norma porque é o modelo base, e o desempenho é muito bom.

E há alguns dias, na comunidade Zero One Everything Huggingface, um desenvolvedor também apontou:

Até onde sabemos, Yi usa a arquitetura do LLaMA inteiramente, exceto por dois tensores que foram renomeados. (entrada_layernorm, post_attention_layernorm)

Durante a discussão, alguns internautas disseram que se eles usam a arquitetura Meta LLaMA, base de código e todos os recursos relacionados exatamente, eles precisam cumprir o contrato de licença estipulado pelo LLaMA.

A fim de cumprir com a licença de código aberto do LLaMA, um desenvolvedor mudou seu nome de volta e o colocou de volta no huggingface:

01-ai/Yi-34B, tensores foram renomeados para corresponder ao código de modelo LLaMA padrão. Links relacionados:

Vendo isso, também sabemos qual empresa Jia Yangqing, que deixou Ali para começar um negócio há alguns dias, mencionou no círculo de amigos.

Em resposta a este assunto, o coração da máquina também verificou o zero e uma coisas. Zero Uma Coisa respondeu:

GPT é uma arquitetura bem estabelecida reconhecida na indústria, e LLaMA resume-a no GPT. O projeto estrutural do modelo de pesquisa e desenvolvimento é baseado na estrutura madura do GPT, com base nas principais conquistas públicas da indústria, e muito trabalho foi feito com base na compreensão do modelo e treinamento pela equipe Zero One Everything, que é uma das bases para nosso primeiro lançamento e excelentes resultados. Ao mesmo tempo, o Zero One Everything também continua a explorar o avanço essencial a nível estrutural do modelo.

estrutura do modelo é apenas uma parte do treinamento do modelo. Os esforços de modelo de código aberto de Yi em outros aspetos, como engenharia de dados, métodos de treinamento, baby sitting, configurações de hiperparâmetros, métodos de avaliação e a profundidade da compreensão da natureza dos indicadores de avaliação, a profundidade da pesquisa sobre os princípios das capacidades de generalização de modelos e o principal AI Infra da indústria capacidades, etc., muito trabalho de P&D e fundação tem sido investido, que muitas vezes pode desempenhar um papel e valor maior do que a estrutura básica, que também é o fosso tecnológico central de zero 10 coisas na fase de pré-treinamento de grandes modelos.

No processo de um grande número de experimentos de treinamento, o código foi renomeado devido à necessidade de execução experimental, e respeitamos o feedback da comunidade de código aberto, atualizamos o código e nos integramos melhor ao ecossistema do Transformer.

Estamos muito gratos pelo feedback da comunidade, estamos apenas começando na comunidade de código aberto, e esperamos trabalhar com você para criar uma comunidade próspera, e Yi Open-source fará o seu melhor para continuar a melhorar.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.