網(wǎng)絡(luò)不穩(wěn)定老是掉線是什么原因(網(wǎng)絡(luò)不穩(wěn)定老是掉線是什么原因手機)
2024-04-28
更新時間:2024-04-28 19:17:05作者:未知
今年年初,OpenAI發(fā)布其首個文生視頻模型Sora,可用文字指令生成長達(dá)1分鐘的高清視頻,隨即引起廣泛關(guān)注和多方震動。馬斯克就感嘆“人類認(rèn)賭服輸”,許多人更是直呼“導(dǎo)演、后期要失業(yè)了”,畢竟,這一被稱為“造片神器”的模型問世,意味著或許每個使用它的普通人都可能實現(xiàn)“導(dǎo)演夢”。很多人已經(jīng)在暢想由ChatGPT生成創(chuàng)意文案和腳本,再由Sora從文本生成酷炫的幾分鐘廣告大片。
Sora最初并未對外開放試用,直到近幾周,來自加拿大的Shy Kids團隊作為少數(shù)獲得部分Sora權(quán)限的制作團隊,嘗試單純用SORA取代攝像機,制作了一部時長1分21秒的短片,也為大家揭開了Sora神秘的面紗。
這部《Air Head》短片由3人制作,耗時接近2周。談及制作過程,他們除了感慨SORA的強大功能,也談到了制作背后的很多內(nèi)幕:真實的Sora成片每一秒都需要至少300倍的素材,而且OpenAI的科學(xué)家們似乎完全沒有意識到,視頻存在鏡頭語言這個需求,AI從文本一鍵生成我們理想中的大片依然只是美好的想象,
Shy Kids的深度體驗也證明了一個關(guān)鍵的事實,在Sora發(fā)布時,OpenAI似乎在暗示這些樣片都是完全由SORA自稱生成制作,但大家看到的樣片“買家秀”背后實際上包含了大量人工的專業(yè)制作,無論是分鏡,編輯,調(diào)色,還是鏡頭,特效,這些目前均無法靠AI來取代。
專業(yè)團隊的分鏡,AI依然看不懂
Shy Kids作為一支加拿大專業(yè)影視團隊,以其不拘一格和創(chuàng)新的媒體制作方法而聞名。被稱為“朋克搖滾皮克斯”,在藝術(shù)性層面,他們的作品獲得了艾美獎提名并入圍奧斯卡提名,而在商業(yè)化層面,他們?yōu)榈鲜磕幔物w,HBO等平臺制作過多部作品,在業(yè)界有一定的知名度。
即便是這樣的專業(yè)團隊,在使用Sora制作視頻時,上來就發(fā)現(xiàn)了一個大問題——傳統(tǒng)的先寫劇本分鏡然后開啟拍攝制作的流程在Sora上行不通。
本片導(dǎo)演在介紹影片制作時提到,他們使用的Sora依然是傳統(tǒng)的輸入本文生成視頻模式,并不支持現(xiàn)在很多大模型已經(jīng)應(yīng)用的多模態(tài)輸入。
這直接導(dǎo)致了一個尷尬的劇情,由于沒法給Sora看分鏡圖,Sora完全無法生成一段連貫的視頻來滿足攝影團隊的需求,團隊只能將每一個分鏡都單獨生成視頻來進行拼接。
但是這里就出現(xiàn)了第二個問題,AI對于事物的理解并不如人類,即便前一個鏡頭的素材完美符合了導(dǎo)演的需求,按照同樣的需求文字輸入后,下一段片段依然無法復(fù)現(xiàn)相同的元素。
導(dǎo)演對此舉了一個例子:假設(shè)你要求Sora在廚房里拍攝一張桌上有香蕉的長鏡頭。在這種情況下,它將依據(jù)對“香蕉”這個概念的理解來生成視頻。通過訓(xùn)練數(shù)據(jù),它“學(xué)習(xí)”了香蕉的各類要素:例如“黃色”、“彎曲”、“有深色末端”等。但它沒有實際記錄的香蕉圖像,也沒有類似“香蕉圖片庫”數(shù)據(jù)庫,只憑借關(guān)鍵詞生成它認(rèn)為的香蕉,這也導(dǎo)致了每次生成得香蕉都無法保證固定一樣,這對于長視頻拍攝造成了巨大的影響。
為了保持最簡單的一致,團隊不得不將各種Sora生成片段進行裁剪拼接。
團隊展示影片制作過程
以這張氣球人騎車的片段為例,由于每次生成主角騎車畫面都無法保持統(tǒng)一,看似流暢的畫面實際上由三段畫面拼接而成。
AI拍片,更耗人力了
由于AI無法穩(wěn)定生成一個固定的角色或者道具,這也導(dǎo)致了《Air Head》制作時遇到了許多在傳統(tǒng)影視中不會遇到的問題。
這部短片的主角是一個黃色氣球作為頭部的人,由于AI無法穩(wěn)定地生成這樣一個角色,在這部1分21秒的作品中,幾乎每一秒都需要大量的后期調(diào)整才保證角色的統(tǒng)一。
為了解決這個問題,Shy kids決定大力出奇跡,通過大量生成相關(guān)片段篩選相對統(tǒng)一有用的部分,來組合成一部影片,這也讓團隊原來設(shè)想的拍攝電影變成了一部類似紀(jì)錄片的拼接縫合。
團隊負(fù)責(zé)后期的帕德里克表示:“短片有劇本,但團隊需要靈活應(yīng)變”,“只是獲得了一大堆鏡頭,并試圖以一種有趣的方式將其剪輯給旁白?!?/p>
其透露道,為了制作這部片子,每一秒鐘的成片都需要大概300倍的素材。
而渲染這些原始素材成為了影片最耗時的部分之一,團隊表示每次得到的素材長度在3-20秒,但是渲染的時間需要10-20分鐘不等。
而即便是渲染出來最終采用的素材,依然逃不過大量的人工后期加工。
Shy Kids提供的信息顯示,即便每次都要求生成一個黃色的氣球,Sora有時候還是會生成一個紅色氣球,由于沒有更加合適的素材,后期團隊只能利用PS和AE將其涂成黃色。
成片(上)和SORA生成視頻原片(下)
而有時候則會在氣球上出現(xiàn)人臉,這導(dǎo)致需要大量的后期處理,包括分級、穩(wěn)定化、上采樣以及移除不需要的元素。
SORA生成的氣球人出現(xiàn)了人臉
OpenAI:什么是鏡頭語言?
除了需要大量的后期外,對于制作AI電影中最大的障礙,負(fù)責(zé)本片后期的帕德里克提到了AI目前很難理解鏡頭語言這個缺點。
帕特里克表示:對于許多文生視頻工具來說,一個有價值的信息來源是相機元數(shù)據(jù)。例如,如果需要用照片訓(xùn)練(大模型),相機元數(shù)據(jù)將提供鏡頭尺寸、光圈值和許多其他關(guān)鍵信息供模型訓(xùn)練。
但是對于電影鏡頭,“跟蹤”“平移”“傾斜”或“推入”的想法都不是相機數(shù)據(jù)中冰冷的數(shù)據(jù),而是一個更加抽象性的概念。盡管在影視行業(yè)中對象永恒性(道具/人物需要在拍攝時持續(xù)存在)制作至關(guān)重要,但鏡頭語言也同樣重要,然而目前的Sora不僅難以實現(xiàn),甚至難以理解這個概念。
Shy Kids表示:“對于如何描述電影場景中的一個鏡頭,九個不同的人會有九種不同的想法。 (OpenAI) 研究人員在讓藝術(shù)家使用該工具之前,并沒有真正像電影制作人那樣思考?!北M管Shy Kids團隊知道他們體驗的Sora版本比較早期,但依然對于雜亂無章的攝像機機位和角度表示震驚,在團隊眼中,他們已經(jīng)試圖在文本中強調(diào)固定機位或者鏡頭語言這個概念,但是他們不太確定到底是Sora無法理解他們的輸入方式,還是SORA根本就沒有相關(guān)的概念。
目前SORA幾乎只會懟臉直拍一種角度
在將這個問題反饋給OpenAI后,雙方都大吃一驚,相比Shy Kids團隊,OpenAI的研究人員震驚于文生視頻居然有這樣的需求,這番回復(fù)讓Shy Kids團隊集體瞳孔地震,在他們眼中司空見慣的認(rèn)知居然在SORA的開發(fā)中完全沒有被提及。
在Sora緊急更新了相關(guān)代碼后,Shy Kids對保持同一機位這個功能的評價也是“堪堪夠用”,帕德里克表示SORA目前可以做到生成10次視頻,六次能得到差不多的機位角度。
不過他補充到,值得注意的是這并不是一個獨特的問題,幾乎所有主要的文生視頻公司都面臨著同樣的問題。Runway AI在提供描述攝像機運動的UI方面可能是最先進的,但Runway的質(zhì)量和渲染剪輯的長度不如Sora。
對于整體的拍攝體驗,Shy Kids團隊表示這是一次新奇且有意義的探索,他們認(rèn)為比起靠Sora直接生成一部影片,將Sora融入AE制作特效鏡頭是一個非常好的應(yīng)用嘗試。
同時,他們也表示,目前的Sora依然非常的早期,并不適合對外公開發(fā)布,對于專業(yè)團隊來說,可能離滿足導(dǎo)演要求還有很長的路要走,但是對于普通人,也許在未來的一段時間內(nèi),如果不在乎各種奇怪的BUG畫面和需要大量的后期修補,Sora或許能做到足夠普通人使用的程度。