簡要介紹Luma推出了Uni-1,這是其首款結合推理與圖像生成於一體的模型——這標誌著這家以視頻為重點的新創公司的一大轉變。人工智慧視頻生成新創公司Luma推出了Uni-1,這是其首款將推理與圖像生成整合在單一架構中的模型,標誌著公司從以視頻內容為主的策略轉向。根據公司表示,在過去三年中,Luma的工作已從場景重建演變為3D生成和視頻擴散的擴展,但僅靠視覺媒體仍有其局限性,缺乏整合的理解能力。Uni-1被定位為公司首個統一模型,旨在結合推理與生成能力,推動多模態通用智能的發展。Luma將通用智能描述為能夠推理、想像、操控符號和模擬環境的能力。儘管現有的AI系統可以分別執行這些功能,Uni-1則試圖在一個框架內將它們結合起來,模擬時間、空間和邏輯,從而實現傳統分段流程無法達成的問題解決能力。該模型採用純解碼器的自回歸轉換器架構,將文本與圖像以交錯序列的形式表示,既作為輸入也作為輸出。Uni-1能夠進行結構化的內部推理,拆解指令、解決約束、規劃構圖並相應地渲染圖像。Uni-1展現了“用語言思考、用像素想像與渲染”的能力,Luma將此描述為“像素中的智能”。未來版本預計將加入音頻和視頻生成等額外輸出。該模型不僅是一個工具,更是一個平台,通過將推理直接融入創意流程,改變企業的運作方式。## Luma Agents擴展統一智能在Uni-1的基礎上,Luma最近推出了Luma Agents,一套由AI驅動的工具,旨在實現從文本、圖像、視頻到音頻的端到端創意製作。這些代理使用Luma的統一智能系列模型,這些模型在單一多模態推理系統上進行訓練。Luma將這些代理定位為廣告公司、行銷團隊、設計工作室和企業客戶的解決方案,提供跨多模態的協同創意生成。Luma Agents與其他AI模型兼容,包括Luma的Ray 3.14、Google的Veo 3和Nano Banana Pro、字節跳動的Seedream,以及ElevenLabs的語音生成工具。根據Luma的CEO兼聯合創始人Amit Jain的說法,這些代理利用了Uni-1的整合架構,該架構在音頻、視頻、圖像、語言和空間推理方面進行了訓練,使它們能夠在協調且智能的工作流程中規劃、執行並生成內容。
Luma 推出 Uni-1,其首款結合推理與圖像生成的模型
簡要介紹
Luma推出了Uni-1,這是其首款結合推理與圖像生成於一體的模型——這標誌著這家以視頻為重點的新創公司的一大轉變。
人工智慧視頻生成新創公司Luma推出了Uni-1,這是其首款將推理與圖像生成整合在單一架構中的模型,標誌著公司從以視頻內容為主的策略轉向。
根據公司表示,在過去三年中,Luma的工作已從場景重建演變為3D生成和視頻擴散的擴展,但僅靠視覺媒體仍有其局限性,缺乏整合的理解能力。Uni-1被定位為公司首個統一模型,旨在結合推理與生成能力,推動多模態通用智能的發展。
Luma將通用智能描述為能夠推理、想像、操控符號和模擬環境的能力。儘管現有的AI系統可以分別執行這些功能,Uni-1則試圖在一個框架內將它們結合起來,模擬時間、空間和邏輯,從而實現傳統分段流程無法達成的問題解決能力。
該模型採用純解碼器的自回歸轉換器架構,將文本與圖像以交錯序列的形式表示,既作為輸入也作為輸出。Uni-1能夠進行結構化的內部推理,拆解指令、解決約束、規劃構圖並相應地渲染圖像。
Uni-1展現了“用語言思考、用像素想像與渲染”的能力,Luma將此描述為“像素中的智能”。未來版本預計將加入音頻和視頻生成等額外輸出。該模型不僅是一個工具,更是一個平台,通過將推理直接融入創意流程,改變企業的運作方式。
Luma Agents擴展統一智能
在Uni-1的基礎上,Luma最近推出了Luma Agents,一套由AI驅動的工具,旨在實現從文本、圖像、視頻到音頻的端到端創意製作。這些代理使用Luma的統一智能系列模型,這些模型在單一多模態推理系統上進行訓練。Luma將這些代理定位為廣告公司、行銷團隊、設計工作室和企業客戶的解決方案,提供跨多模態的協同創意生成。
Luma Agents與其他AI模型兼容,包括Luma的Ray 3.14、Google的Veo 3和Nano Banana Pro、字節跳動的Seedream,以及ElevenLabs的語音生成工具。根據Luma的CEO兼聯合創始人Amit Jain的說法,這些代理利用了Uni-1的整合架構,該架構在音頻、視頻、圖像、語言和空間推理方面進行了訓練,使它們能夠在協調且智能的工作流程中規劃、執行並生成內容。