Basado en LLaMA pero cambiando el nombre del tensor, el modelo grande de Kai-Fu Lee causó controversia, y la respuesta oficial llegó

2023-11-15 06:38:25

Fuente original: Heart of the Machine

Fuente de la imagen: Generado por Unbounded AI

Algunos investigadores han descubierto que el modelo Yi-34B de Kai-Fu Lee básicamente adopta la arquitectura de LLaMA, pero cambia el nombre de dos tensores. En respuesta, “Zero One Everything” dio una respuesta oficial.

Hace algún tiempo, se introdujo un nuevo modelo en el campo de los modelos grandes de código abierto: el tamaño de la ventana de contexto superó los 200k y el “Yi” puede procesar 400.000 caracteres chinos a la vez.

Este modelo a gran escala está construido por la empresa de modelos a gran escala “Zero One Everything” fundada por Kai-Fu Lee, presidente de Sinovation Ventures y CE0, e incluye dos versiones: Yi-6B y Yi-34B.

De acuerdo con la plataforma comunitaria de código abierto Hugging Face English y la lista de evaluación de C-Chinese, Yi-34B ha logrado una serie de reconocimientos internacionales de mejor índice de rendimiento de SOTA cuando se lanzó, convirtiéndose en el “doble campeón” de los grandes modelos globales de código abierto, superando a LLaMA2 y Falcon y otros competidores de código abierto.

El Yi-34B también se convirtió en el único modelo doméstico que encabezó con éxito el ranking global de modelos de código abierto de Hugging Face en ese momento, llamándolo “el modelo de código abierto más fuerte del mundo”.

Recientemente, sin embargo, algunos investigadores han descubierto que el modelo Yi-34B básicamente adopta la arquitectura de LLaMA, pero cambia el nombre de los dos tensores.

Enlace original:

La publicación también dice:

código de Yi-34B es en realidad una refactorización del código LLaMA, pero no parece haber cambiado nada sustancialmente. Este modelo se basa claramente en el archivo LLaMA de la versión 2.0 original de Apache, pero no menciona LLaMA:

Comparación de código Yi vs LLaMA. Enlace de código:

Además, estos cambios de código no se envían al proyecto de transformadores a través de una solicitud de incorporación de cambios, sino que se anexan como código externo, lo que puede suponer un riesgo para la seguridad o no ser compatible con el marco. La tabla de clasificación de HuggingFace ni siquiera comparará este modelo con una ventana de contexto de hasta 200K porque no tiene una estrategia de código personalizada.

Afirman que se trata de un modelo de 32K, pero está configurado como un modelo de 4K, no hay una configuración de escalado de RoPE y no hay una explicación de cómo escalar (nota: Zero One Thousand Things declaró anteriormente que el modelo en sí se entrenó en una secuencia de 4K, pero podría escalarse a 32K durante la fase de inferencia). Por el momento, no hay información sobre sus datos de ajuste. Tampoco proporcionan instrucciones para replicar sus puntos de referencia, incluidas las puntuaciones altas sospechosas de MMLU.

Cualquiera que haya trabajado en el espacio de la IA durante un tiempo no hará la vista gorda ante esto. ¿Es esto propaganda falsa? ¿violaciones de licencias? ¿trampas en los puntos de referencia reales? ¿A quién le importa? Cambiar el siguiente artículo, o en este caso, tomar todo el dinero de riesgo. Yi está al menos por encima de la norma porque es el modelo base y el rendimiento es realmente bueno.

Y hace unos días, en la comunidad de Zero One Everything Huggingface, un desarrollador también señaló:

Por lo que sabemos, Yi utiliza la arquitectura de LLaMA en su totalidad, excepto por dos tensores que han sido renombrados. (entrada_layernorm, publicación_attention_layernorm)

Durante la discusión, algunos internautas dijeron que si utilizan exactamente la arquitectura LLaMA, la base de código y todos los recursos relacionados de Meta, deben cumplir con el acuerdo de licencia estipulado por LLaMA.

Con el fin de cumplir con la licencia de código abierto de LLaMA, un desarrollador volvió a cambiar su nombre y lo volvió a poner en huggingface:

01-ai/Yi-34B, se ha cambiado el nombre de los tensores para que coincidan con el código de modelo estándar de LLaMA. Enlaces relacionados:

Al ver esto, también sabemos qué empresa mencionó en el círculo de amigos Jia Yangqing, quien dejó a Ali para iniciar un negocio hace unos días.

En respuesta a este asunto, el corazón de la máquina también verificó las cosas cero y uno. Zero One Thing respondió:

GPT es una arquitectura bien establecida y reconocida en la industria, y LLaMA la resume en GPT. El diseño estructural del modelo de investigación y desarrollo se basa en la estructura madura de GPT, que se basa en los principales logros públicos de la industria, y se ha realizado mucho trabajo basado en la comprensión del modelo y la capacitación por parte del equipo de Zero One Everything, que es una de las bases de nuestro primer lanzamiento y excelentes resultados. Al mismo tiempo, Zero One Everything también continúa explorando el avance esencial a nivel estructural del modelo.

estructura del modelo es solo una parte del entrenamiento del modelo. Los esfuerzos del modelo de código abierto de Yi en otros aspectos, como la ingeniería de datos, los métodos de entrenamiento, el cuidado de niños, la configuración de hiperparámetros, los métodos de evaluación y la profundidad de la comprensión de la naturaleza de los indicadores de evaluación, la profundidad de la investigación sobre los principios de las capacidades de generalización de modelos y la principal infraestructura de IA de la industria capacidades, etc., se ha invertido una gran cantidad de trabajo de investigación y desarrollo y de base, que a menudo puede desempeñar un papel y un valor más importantes que la estructura básica, que también es el foso tecnológico central de cero 10 cosas en la etapa de pre-entrenamiento de modelos grandes.

En el proceso de una gran cantidad de experimentos de entrenamiento, el código fue renombrado debido a la necesidad de ejecución experimental, y respetamos los comentarios de la comunidad de código abierto, actualizamos el código y lo integramos mejor en el ecosistema de Transformer.

Estamos muy agradecidos por los comentarios de la comunidad, apenas estamos comenzando en la comunidad de código abierto y esperamos trabajar con ustedes para crear una comunidad próspera, y Yi Open-source hará todo lo posible para continuar mejorando.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.