AI 影片生成模型更新速度極快。繼 HappyHorse 1.0 之後,阿里巴巴近日推出了 HappyHorse 1.1,而 Atlas Cloud 也正同步升級平台上的模型。
重點摘要:
- HappyHorse 1.1 提供更流暢的動態與更強的時間一致性,使其更適合處理運動影片、舞蹈片段、追逐場景及電影級動作鏡頭。
- HappyHorse 1.1 加強了參考圖生成影片(Reference-to-video)的能力,改善多重參考圖融合,並支援最多 9 張參考圖,有助於保持產品、角色及品牌視覺的一致性。
- 長提示詞(Long-prompt)控制能力提升,特別適用於 6–8 個連續場景、多鏡頭廣告、短劇、多角色場景及分鏡腳本風格的影片提示。
- 特寫鏡頭的視覺真實感更強,面部細節與皮膚紋理更自然,輸出結果的「合成感」更低。
- 原生音訊生成更加精緻,在對話節奏、停頓、環境音及影音同步方面表現更佳,適合社群影片與對話場景。
- HappyHorse 1.1 的定價預計為 720P ¥0.9/秒、1080P ¥1.2/秒;國際定價為 $0.14/秒與 $0.18/秒,前兩週享有 40% 的首發折扣。
HappyHorse 1.0 本身已是一個強大的 AI 影片模型。它支援文生影片、圖生影片及參考圖生影片工作流,且在電影鏡頭、角色片段與短影音創作上表現出色。對許多使用者而言,它最大的優勢在於能生成具備原生音訊且具備相當水準的電影感控制的影片。
然而,除了視覺美觀外,結果是否具備「可控性」、「一致性」與「可用性」同樣重要。一個優秀的 AI 影片模型需要能維持主體穩定、保留參考細節、產生自然運動,並減少繁瑣的後期製作。
這正是 HappyHorse 1.1 的價值所在。它不僅僅是 HappyHorse 1.0 的「新版本」,更精確地說,它是針對 1.0 尚有局限的場景所進行的定向升級。
因此,與其問「1.1 是否更好?」,不如進一步追問:它在哪裡更好?什麼時候該選擇它而非 1.0?
實測:HappyHorse 1.0 與 1.1 使用相同提示詞
提示詞:
一個 5 個連續鏡頭的短片諜戰場景。鏡頭 1:一名穿著黑色大衣的年輕女子在午夜進入寧靜的火車站。鏡頭 2:她在藍色螢光下檢查一只銀色懷錶。鏡頭 3:一名穿著灰色西裝的男子出現在柱子後方。鏡頭 4:鏡頭切換到她在自動販賣機玻璃上的倒影。鏡頭 5:她轉身,意識到自己被跟蹤,並加快了步伐。在所有鏡頭中,保持同一名女子、同一件大衣、同一座車站,並維持一致且充滿懸疑的氛圍。
HappyHorse 1.1
HappyHorse 1.0
HappyHorse 1.1 對比 HappyHorse 1.0:進步在哪裡?
1:運動與動態表現
首先是運動表現的提升。
在 HappyHorse 1.0 中,雖然已經能製作視覺豐富的場景,但某些動態畫面可能會感覺稍慢或缺乏物理質感。HappyHorse 1.1 改進了運動建模與影格間的時間一致性,使動作看起來更平滑、更連續且更符合物理定律。
對創作者而言,這不僅是視覺上的升級,更能減少重試次數。如果模型能更好地理解運動隨時間的變化,您就能減少為了獲得一個自然手勢或可信動作而反覆重新生成影片的時間。
2:參考一致性與 R2V
第二個改善是參考一致性,特別是在 R2V(參考圖生影片)工作流中。
參考圖生成影片非常重要,因為沒人想要一段隨機產生的影片。HappyHorse 1.0 雖已支援參考生成,但複雜的參考組合仍會產生問題:產品細節可能會跑掉、角色臉部可能變形,或是一個參考項干擾了另一個。HappyHorse 1.1 加強了多重參考圖的理解力。公開的 API 文件顯示 1.1 的 R2V 支援最多 9 張參考圖,並可依序命名角色(如 character1 到 character9)。對於品牌影片、電商廣告、角色系列與短劇創作,這是最實用的升級之一。
3:長提示詞與複雜場景遵循
第三個改善是長提示詞與複雜場景的遵循能力。
簡單的提示詞無法滿足許多實際需求。您可能希望透過一個提示詞描述多個相連場景,從誰先出現到場景如何轉換。HappyHorse 1.1 改進了長上下文的語義保留與分段場景規劃。在實作中,這意味著它更適合包含多個動作、多個角色與多個鏡頭指令的提示詞。單一提示詞即可描述約 6 到 8 個連續場景,並能更可靠地分配時間、動作與鏡頭切換。
此外,HappyHorse 1.1 在多角色空間控制上也取得了進展。它優化了角色位置建模與場景關係的理解,這對於對話場景、群戲、短劇等尤其重要。
4:視覺紋理與人物特寫
第四個升級是視覺品質,特別是在臉部與皮膚紋理方面。
HappyHorse 1.0 以強大的美學表現聞名,但部分反饋提到 1.0 在臉部光澤過重、過度銳化,或特寫鏡頭下有輕微合成感的問題。HappyHorse 1.1 專門改善了臉部細節與真實皮膚的還原。它能保留毛孔、笑紋與自然的皮膚紋理,而非將一切磨平為塑膠質感。這使 1.1 更適合專業敘事與商業用途。
5:原生音訊與影音協調
第五個升級是音訊表現與影音協調。
對於影片生成而言,音訊不應是事後補上的。對話節奏、情感語氣與背景聲音都影響著場景的可信度。HappyHorse 1.1 改進了自然的對話輸出,包括說話節奏、停頓與情感變化。它還允許使用者在提示詞中描述背景與環境音。
這對於對話場景、產品廣告、短片及社群媒體影片特別實用,因為使用者希望得到更完整的輸出,而非一段還需要後製處理的無聲影片。
總而言之,HappyHorse 1.1 是相較於 HappyHorse 1.0 更偏向生產力導向的升級。它改善了動作、參考一致性、長提示詞理解、臉部真實感及原生音訊協調性。
何時該選擇 HappyHorse 1.1 而非 1.0?
如果任務僅是簡單的氛圍鏡頭,HappyHorse 1.0 可能已經足夠。但若涉及複雜動作、多個角色、更長的提示詞、品牌參考、產品細節、臉部特寫或原生對話,HappyHorse 1.1 會是更合適的選擇。
在 Atlas Cloud 上,您可以並排測試這兩個版本,保持工作流一致,並根據您的提示詞、參考素材與品質標準做出決定。
這才是評估 AI 影片模型最可靠的方式:不是靠炒作,而是靠可重複的比較。







