× 首頁 保險獎 精選頻道 購物車(0) 序號開通 影音課程 登入/註冊
生成式 AI 這兩年的快速發展,使得不少 AI 界知名人士開始預測,5~10 年之內就會出現 AGI(強人工智慧),AGI 的定義就如電影所拍攝的一樣,不管是情感、思考還是學習等方面,都與人類相似度極高的 AI。 在 ChatGPT 問世後,AGI 的討論浮上水面,而今年 OpenAI 所發表的強大模型-Sora,Sora 對於這個世界物理規律的理解程度,又再次讓大家認為,接近人類的 AI 真的要來了! Sora 誕生,加速影片生成 AI 發展,提升晶片計算量 OpenAI 在今年2月所發表的 Sora,為影片生成領域跨出一大步,它在影片品質、時長等方面都遠超其他競爭者,由於影片是一張張的圖片所組成,因此需要的晶片計算量、儲存量比起圖片、文字還來得更大,對於輝達(NVDA)、超微(AMD)、博通(AVGO)等這類 AI 晶片設計公司來說,無疑是一大利多。 其實 Sora 並不是第一個輸入文字描述,就可以讓 AI 生成影片的模型,它之所以能驚艷全世界,是因為它能生成高品質、高連貫性且長達1分鐘的影片,在此之前的模型大約都只能生成 10 秒以內的影片,甚至更短,而且品質堪憂,有時生成的結果還與使用者輸入的文字相去甚遠。 雖然有些人會解釋到,這是因為Sora的模型是基於 Diffusion Transformer(DiT)。大多影片生成 AI 模型也都以Diffusion 為主,但 Sora 將其中用來生成影片的架構 U-Net 改成 Transformer ,Transformer 是目前大型語言模型(LLM)所使用的主流架構,因為它會去找目前已生成的這個字和每個可能的字的關聯程度,再去決定下個字該是什麼,有一點迭代的感覺,使得這個架構可以很容易的生成很長且連貫的文章,這樣一來,也不難理解為什麼 Sora 生成的影片比起其他模型,更有長、更有連貫性。 白話文理解 Diffusion 模型和 U-Net、Transformer 的關係: 現在有一張很模糊的圖片,然後模型需要透過不斷訓練和學習(這個步驟要使用 U-Net 或者 Transformer 等架構),去了解這張模糊的圖片,哪個部分是值得留下來的,從而去讓這張照片越來越清晰。 上述整個過程稱為 Diffusion,不過 U-Net 並不是沒有優點,相對於 Transformer,它在判斷圖片有哪些部分值得留下來上,較有優勢。 但 DiT 不是 Sora 所發明的, 所以 Sora 的成功並非是模型有多厲害或多創新,這樣的品質仍就要歸功於 OpenAI 強大的算力和龐大的訓練數據(資本的力量),從而打破過去 AI 生成的影片只能拿來炫技或被當迷因,創造出符合真實世界的物理定律,並且對於輸入的文字有高度理解的影片。 讀者可以至 YouTube 搜尋「Sora, Runway, Pika」,了解 Sora 和過去這兩個模型究竟有多大差別。如:Pasting Sora prompts in Runway, Stable Video, Morph & other AI video generators。 但畢竟 Sora 所生成的影片,也還是以「機率」去建構這個世界,所以並非100%正確,就像是萬有引力存在地球上是確定的,只要我們把一顆蘋果拋在空中,它一定會墜地,但在 Sora 的世界不是,它的理解可能會是99%的時間,蘋果都會墜地,所以現階段來說並非完美。 雖然 OpenAI 尚未向大眾開放使用 Sora,但已經有許多人開始想像它未來的應用,包括影視和遊戲產業等,此外,也需關注對於多模態的影響,因為 Sora 的誕生,意味著 OpenAI 越來越接近它們的目標-AGI。若有天 OpenAI 將目前現有的模型,包括GPT、Sora、DALL-E 結合,那將會成為下個生成式 AI 出圈的熱門話題。

白話文搞懂 OpenAI 最新模型 Sora

2024/03/13
ChatGPT , OpenAI , AI , Sora , 生成式AI

生成式 AI 這兩年的快速發展,使得不少 AI 界知名人士開始預測,5~10 年之內就會出現 AGI(強人工智慧),AGI 的定義就如電影所拍攝的一樣,不管是情感、思考還是學習等方面,都與人類相似度極高的 AI。

在 ChatGPT 問世後,AGI 的討論浮上水面,而今年 OpenAI 所發表的強大模型-Sora,Sora 對於這個世界物理規律的理解程度,又再次讓大家認為,接近人類的 AI 真的要來了!

Sora 誕生,加速影片生成 AI 發展,提升晶片計算量

OpenAI 在今年2月所發表的 Sora,為影片生成領域跨出一大步,它在影片品質、時長等方面都遠超其他競爭者,由於影片是一張張的圖片所組成,因此需要的晶片計算量、儲存量比起圖片、文字還來得更大,對於輝達(NVDA)、超微(AMD)、博通(AVGO)等這類 AI 晶片設計公司來說,無疑是一大利多。

其實 Sora 並不是第一個輸入文字描述,就可以讓 AI 生成影片的模型,它之所以能驚艷全世界,是因為它能生成高品質、高連貫性且長達1分鐘的影片,在此之前的模型大約都只能生成 10 秒以內的影片,甚至更短,而且品質堪憂,有時生成的結果還與使用者輸入的文字相去甚遠。

雖然有些人會解釋到,這是因為Sora的模型是基於 Diffusion Transformer(DiT)。大多影片生成 AI 模型也都以Diffusion 為主,但 Sora 將其中用來生成影片的架構 U-Net 改成 Transformer ,Transformer 是目前大型語言模型(LLM)所使用的主流架構,因為它會去找目前已生成的這個字和每個可能的字的關聯程度,再去決定下個字該是什麼,有一點迭代的感覺,使得這個架構可以很容易的生成很長且連貫的文章,這樣一來,也不難理解為什麼 Sora 生成的影片比起其他模型,更有長、更有連貫性。

白話文理解 Diffusion 模型和 U-Net、Transformer 的關係:

現在有一張很模糊的圖片,然後模型需要透過不斷訓練和學習(這個步驟要使用 U-Net 或者 Transformer 等架構),去了解這張模糊的圖片,哪個部分是值得留下來的,從而去讓這張照片越來越清晰。

上述整個過程稱為 Diffusion,不過 U-Net 並不是沒有優點,相對於 Transformer,它在判斷圖片有哪些部分值得留下來上,較有優勢。

但 DiT 不是 Sora 所發明的, 所以 Sora 的成功並非是模型有多厲害或多創新,這樣的品質仍就要歸功於 OpenAI 強大的算力和龐大的訓練數據(資本的力量),從而打破過去 AI 生成的影片只能拿來炫技或被當迷因,創造出符合真實世界的物理定律,並且對於輸入的文字有高度理解的影片。

讀者可以至 YouTube 搜尋「Sora, Runway, Pika」,了解 Sora 和過去這兩個模型究竟有多大差別。如:Pasting Sora prompts in Runway, Stable Video, Morph & other AI video generators

但畢竟 Sora 所生成的影片,也還是以「機率」去建構這個世界,所以並非100%正確,就像是萬有引力存在地球上是確定的,只要我們把一顆蘋果拋在空中,它一定會墜地,但在 Sora 的世界不是,它的理解可能會是99%的時間,蘋果都會墜地,所以現階段來說並非完美。

雖然 OpenAI 尚未向大眾開放使用 Sora,但已經有許多人開始想像它未來的應用,包括影視和遊戲產業等,此外,也需關注對於多模態的影響,因為 Sora 的誕生,意味著 OpenAI 越來越接近它們的目標-AGI。若有天 OpenAI 將目前現有的模型,包括GPT、Sora、DALL-E 結合,那將會成為下個生成式 AI 出圈的熱門話題。

bnmoney-640x250.jpg


理財工具推薦

下載簡單記帳APP

2022火速竄起記帳APP

3秒記一筆!迅速找出財務漏洞
介面清爽、無廣告、不惱人