× 首頁保險獎精選頻道購物車(0) 序號開通影音課程登入/註冊

生成式 AI 這兩年的快速發展，使得不少 AI 界知名人士開始預測，5～10 年之內就會出現 AGI（強人工智慧），AGI 的定義就如電影所拍攝的一樣，不管是情感、思考還是學習等方面，都與人類相似度極高的 AI。在 ChatGPT 問世後，AGI 的討論浮上水面，而今年 OpenAI 所發表的強大模型－Sora，Sora 對於這個世界物理規律的理解程度，又再次讓大家認為，接近人類的 AI 真的要來了！ Sora 誕生，加速影片生成 AI 發展，提升晶片計算量 OpenAI 在今年2月所發表的 Sora，為影片生成領域跨出一大步，它在影片品質、時長等方面都遠超其他競爭者，由於影片是一張張的圖片所組成，因此需要的晶片計算量、儲存量比起圖片、文字還來得更大，對於輝達(NVDA)、超微(AMD)、博通(AVGO)等這類 AI 晶片設計公司來說，無疑是一大利多。其實 Sora 並不是第一個輸入文字描述，就可以讓 AI 生成影片的模型，它之所以能驚艷全世界，是因為它能生成高品質、高連貫性且長達1分鐘的影片，在此之前的模型大約都只能生成 10 秒以內的影片，甚至更短，而且品質堪憂，有時生成的結果還與使用者輸入的文字相去甚遠。雖然有些人會解釋到，這是因為Sora的模型是基於 Diffusion Transformer（DiT）。大多影片生成 AI 模型也都以Diffusion 為主，但 Sora 將其中用來生成影片的架構 U-Net 改成 Transformer ，Transformer 是目前大型語言模型（LLM）所使用的主流架構，因為它會去找目前已生成的這個字和每個可能的字的關聯程度，再去決定下個字該是什麼，有一點迭代的感覺，使得這個架構可以很容易的生成很長且連貫的文章，這樣一來，也不難理解為什麼 Sora 生成的影片比起其他模型，更有長、更有連貫性。白話文理解 Diffusion 模型和 U-Net、Transformer 的關係：現在有一張很模糊的圖片，然後模型需要透過不斷訓練和學習（這個步驟要使用 U-Net 或者 Transformer 等架構），去了解這張模糊的圖片，哪個部分是值得留下來的，從而去讓這張照片越來越清晰。上述整個過程稱為 Diffusion，不過 U-Net 並不是沒有優點，相對於 Transformer，它在判斷圖片有哪些部分值得留下來上，較有優勢。但 DiT 不是 Sora 所發明的，所以 Sora 的成功並非是模型有多厲害或多創新，這樣的品質仍就要歸功於 OpenAI 強大的算力和龐大的訓練數據（資本的力量），從而打破過去 AI 生成的影片只能拿來炫技或被當迷因，創造出符合真實世界的物理定律，並且對於輸入的文字有高度理解的影片。讀者可以至 YouTube 搜尋「Sora, Runway, Pika」，了解 Sora 和過去這兩個模型究竟有多大差別。如：Pasting Sora prompts in Runway, Stable Video, Morph & other AI video generators。但畢竟 Sora 所生成的影片，也還是以「機率」去建構這個世界，所以並非100%正確，就像是萬有引力存在地球上是確定的，只要我們把一顆蘋果拋在空中，它一定會墜地，但在 Sora 的世界不是，它的理解可能會是99%的時間，蘋果都會墜地，所以現階段來說並非完美。雖然 OpenAI 尚未向大眾開放使用 Sora，但已經有許多人開始想像它未來的應用，包括影視和遊戲產業等，此外，也需關注對於多模態的影響，因為 Sora 的誕生，意味著 OpenAI 越來越接近它們的目標－AGI。若有天 OpenAI 將目前現有的模型，包括GPT、Sora、DALL-E 結合，那將會成為下個生成式 AI 出圈的熱門話題。

白話文搞懂 OpenAI 最新模型 Sora

2024/03/13

ChatGPT , OpenAI , AI , Sora , 生成式AI

667

作者：游季婕

小原大

生成式 AI 這兩年的快速發展，使得不少 AI 界知名人士開始預測，5～10 年之內就會出現 AGI（強人工智慧），AGI 的定義就如電影所拍攝的一樣，不管是情感、思考還是學習等方面，都與人類相似度極高的 AI。

在 ChatGPT 問世後，AGI 的討論浮上水面，而今年 OpenAI 所發表的強大模型－Sora，Sora 對於這個世界物理規律的理解程度，又再次讓大家認為，接近人類的 AI 真的要來了！

Sora 誕生，加速影片生成 AI 發展，提升晶片計算量

OpenAI 在今年2月所發表的 Sora，為影片生成領域跨出一大步，它在影片品質、時長等方面都遠超其他競爭者，由於影片是一張張的圖片所組成，因此需要的晶片計算量、儲存量比起圖片、文字還來得更大，對於輝達(NVDA)、超微(AMD)、博通(AVGO)等這類 AI 晶片設計公司來說，無疑是一大利多。

其實 Sora 並不是第一個輸入文字描述，就可以讓 AI 生成影片的模型，它之所以能驚艷全世界，是因為它能生成高品質、高連貫性且長達1分鐘的影片，在此之前的模型大約都只能生成 10 秒以內的影片，甚至更短，而且品質堪憂，有時生成的結果還與使用者輸入的文字相去甚遠。

雖然有些人會解釋到，這是因為Sora的模型是基於 Diffusion Transformer（DiT）。大多影片生成 AI 模型也都以Diffusion 為主，但 Sora 將其中用來生成影片的架構 U-Net 改成 Transformer ，Transformer 是目前大型語言模型（LLM）所使用的主流架構，因為它會去找目前已生成的這個字和每個可能的字的關聯程度，再去決定下個字該是什麼，有一點迭代的感覺，使得這個架構可以很容易的生成很長且連貫的文章，這樣一來，也不難理解為什麼 Sora 生成的影片比起其他模型，更有長、更有連貫性。

白話文理解 Diffusion 模型和 U-Net、Transformer 的關係：

現在有一張很模糊的圖片，然後模型需要透過不斷訓練和學習（這個步驟要使用 U-Net 或者 Transformer 等架構），去了解這張模糊的圖片，哪個部分是值得留下來的，從而去讓這張照片越來越清晰。

上述整個過程稱為 Diffusion，不過 U-Net 並不是沒有優點，相對於 Transformer，它在判斷圖片有哪些部分值得留下來上，較有優勢。

但 DiT 不是 Sora 所發明的，所以 Sora 的成功並非是模型有多厲害或多創新，這樣的品質仍就要歸功於 OpenAI 強大的算力和龐大的訓練數據（資本的力量），從而打破過去 AI 生成的影片只能拿來炫技或被當迷因，創造出符合真實世界的物理定律，並且對於輸入的文字有高度理解的影片。

讀者可以至 YouTube 搜尋「Sora, Runway, Pika」，了解 Sora 和過去這兩個模型究竟有多大差別。如：Pasting Sora prompts in Runway, Stable Video, Morph & other AI video generators。

但畢竟 Sora 所生成的影片，也還是以「機率」去建構這個世界，所以並非100%正確，就像是萬有引力存在地球上是確定的，只要我們把一顆蘋果拋在空中，它一定會墜地，但在 Sora 的世界不是，它的理解可能會是99%的時間，蘋果都會墜地，所以現階段來說並非完美。

雖然 OpenAI 尚未向大眾開放使用 Sora，但已經有許多人開始想像它未來的應用，包括影視和遊戲產業等，此外，也需關注對於多模態的影響，因為 Sora 的誕生，意味著 OpenAI 越來越接近它們的目標－AGI。若有天 OpenAI 將目前現有的模型，包括GPT、Sora、DALL-E 結合，那將會成為下個生成式 AI 出圈的熱門話題。

理財工具推薦

下載簡單記帳APP

2022火速竄起記帳APP

3秒記一筆！迅速找出財務漏洞
介面清爽、無廣告、不惱人

白話文搞懂 OpenAI 最新模型 Sora

Sora 誕生，加速影片生成 AI 發展，提升晶片計算量

白話文理解 Diffusion 模型和 U-Net、Transformer 的關係：

理財工具推薦

下載簡單記帳APP

定期定額直接打包優質ETF三劍客，月月躺賺紅包財

《封面故事》高股息vs市值型ETF全都要陳重銘、股海老牛存股清單大公開

3月配息高於5%的五檔美ETF出爐！

9檔美ETF配息出爐 3月配息高於5%

連續獲利逾70個月！順流小畢親揭3「當沖誤區」

陳重銘、股海老牛聯手推薦，11檔存股名單別錯過！

3檔半導體ETF表現佳台積電、聯發科曝利多

定期定額直接打包優質ETF三劍客，月月躺賺紅包財

他做期貨、當沖「小賺大賠」…終悟長期投資心法，「自組ETF」提早退休不是夢！

即將迎接2024年終獎金！「股市爆料同學會」獨家揭密最會領最多星座、MBTI是他！

2024 年04月

Money錢

商城

會員中心

白話文搞懂 OpenAI 最新模型 Sora

Sora 誕生，加速影片生成 AI 發展，提升晶片計算量

白話文理解 Diffusion 模型和 U-Net、Transformer 的關係：

理財工具推薦

下載簡單記帳APP

近期熱門文章

猜你喜歡