「用文言,可減 token 乎?」—— cette question, accompagnée d’une capture d’écran de Claude Haiku 4.5 répondant en文言文 « 可也。文言較為簡潔,用詞凝練,確能減損 token 之耗損 », a suscité une discussion technique sérieuse et intéressante au sein de la communauté.
La logique de cette question
Intuitivement, le文言文 est plus concis que le白話文—— le caractère « 蝶 » est suffisant, alors que le白話文 doit dire « 蝴蝶 » ; le caractère « 可 » est suffisant, tandis que le白話文 doit dire « 可以 ». Si chaque caractère chinois compte comme un token, théoriquement, le文言文 peut effectivement économiser des tokens. Grok a également confirmé cette affirmation dans la discussion en répondant en文言文.
La réfutation des ingénieurs : le tokenizer est la clé
Cependant, plusieurs ingénieurs ont souligné un détail technique souvent négligé—— le token n’est pas égal au nombre de caractères. Les tokenizers des modèles occidentaux comme OpenAI sont optimisés pour l’anglais et, lorsqu’ils traitent le chinois, un caractère chinois nécessite souvent 1 à 2 tokens, et les caractères traditionnels peuvent parfois nécessiter plus de tokens que les caractères simplifiés. En d’autres termes, « 可 » et « 可以 » peuvent tous deux représenter 2 tokens dans certains modèles ; bien que le nombre de caractères soit réduit, le nombre de tokens n’est pas nécessairement réduit.
La conclusion après les tests est : les modèles américains économisent le plus en anglais, tandis que les modèles chinois économisent le plus en chinois moderne ; le coût en tokens pour le même contenu avec des modèles nationaux en chinois peut être environ 20% moins cher qu’en anglais.
Une autre découverte inattendue : le文言文 pourrait être plus facilement « jailbreaké »
Un autre constat intéressant a émergé de la discussion—— les LLM grand public ne sont presque pas protégés contre le文言文, poser des questions en文言文 permet de contourner plus facilement les restrictions de sécurité, voire d’obtenir des réponses à des questions que le modèle refuse habituellement de répondre. Il est dit qu’il existe des articles de l’ICML ou de l’ICLR documentant ce phénomène.
Le problème de qualité de la chaîne de pensée en文言文
Une autre réfutation provient de l’expérience d’utilisation réelle : « Utiliser le文言文 pour la chaîne de pensée peut entraîner une baisse de qualité. Ce qu’une chaîne de pensée normale peut répondre correctement, une chaîne de pensée en文言文 peut se tromper. » La logique est simple : les données d’entraînement des LLM sont principalement en anglais moderne et en chinois moderne, les corpus en文言文 sont insuffisants à moins d’un dixième, demander à un LLM de penser en文言文 revient à lui faire raisonner dans une langue qui lui est peu familière, et le taux d’illusions augmente naturellement dans les deux sens.
Conclusion : c’est un bon meme, pas une bonne stratégie d’ingénierie
Le résultat de cette discussion est essentiellement le suivant : pour les modèles occidentaux, utiliser l’anglais est la véritable méthode pour économiser des tokens ; pour les modèles nationaux, le chinois moderne est plus stable que le文言文. L’effet « économie de tokens » du文言文 est très probablement compensé au niveau du tokenizer, entraînant plutôt un risque de baisse de la qualité du raisonnement. Cependant, cette capture d’écran a effectivement atteint un autre objectif : transformer une question ennuyeuse sur le coût de l’IA en une discussion intéressante à laquelle tout le monde peut participer.
Cet article, « 用文言文和 AI 對話能省 Token 嗎?一個截圖引爆討論,工程師:其實用英文才是王道 », est apparu pour la première fois sur 鏈新聞 ABMedia.