生成式人工智慧：創意新世界

Jan 1, 2023

為何是時候了？

生成式人工智慧的「現在為何是時候了」與人工智慧更廣泛地來看是一樣的：更好的模型、更多的數據、更多的計算。這個類別正在以我們無法追蹤的速度改變，但是值得大略地回顧最近的歷史，以便將當前時刻放在背景中。

第一波：小型模型統治（2015 年之前）五年多前，小型模型被認為是理解語言的「最先進技術」。這些小型模型擅長於分析任務，並被用於從送貨時間預測到欺詐分類的工作。但是，它們並不具有足夠的表達能力來進行通用生成任務。生成人類水平的文字或代碼仍然是一個遙不可及的夢想。

第二波：規模競賽（2015 年至今）谷歌研究（Attention is All You Need）的一篇里程碑式論文描述了一種新的用於自然語言理解的神經網絡架構，稱為轉換器，可以生成優質的語言模型，同時具有更好的平行性，並且訓練所需的時間大大縮短。這些模型是少數次學習者，並且可以簡單地定制為特定領域。此外，由於這些模型可以更快地訓練，因此越來越多的數據被用於訓練，從而實現了更好的性能。此外，隨著計算能力的提高，更大的模型也得以開發出來，從而進一步提高了性能。這使得生成式人工智慧的應用可能性大大增加，從而使我們現在可以對人類水平的文本、音樂、影像等進行生成。

果然，隨著模型越來越大，它們開始提供人類水準，然後超越人類的結果。在 2015 到 2020 年間，用於訓練這些模型的計算能力增加了 6 個數量級，並且它們在手寫、語音和圖像識別、閱讀理解和語言理解等方面超越了人類的表現標準。OpenAI 的 GPT-3 突出顯示：該模型的表現大大超過了 GPT-2，並在程式碼生成到挖苦笑話撰寫等任務上提供了令人愉悅的 Twitter 展示。

儘管有了基本的研究進展，但這些模型並不普遍。它們很大，並且很難執行（需要 GPU 協調），並且在某些情況下，只能在封閉測試或封閉源程式下存取，並且在雲端服務中使用較昂貴。儘管存在這些限制，最早的生成式人工智慧應用程式開始浮現。

第三波：更好、更快、更便宜（2022+）計算成本下降。新技術（如擴散模型）縮小了訓練和推理所需的成本。研究界繼續開發更好的算法和更大的模型。開發人員的存取權由封閉測試擴展到公開測試，或者在某些情況下是開放程式碼。對於一直被 LLM 存取權抑制的開發人員，現在已經有了探索和應用程式開發的大門。應用程式開始蓬勃發展。

第四波：出現殺手級應用程式（現在）隨著平台層穩定下來，模型繼續變得更好/更快/更便宜，並且模型存取權趨於免費和開放源代碼，應用程序層就準備好迎接創意的爆炸了。

正如手機透過 GPS、相機和隨時連接等新功能釋放了新類型的應用程式一樣，我們預計這些大型模型將促進生成式人工智慧應用程式的新浪潮。正如十年前行動通信轉折點為少數殺手級應用程式打開了市場之門一樣，我們預計將出現生成式人工智慧的殺手級應用程式。競賽正在進行中。

模型

文字是最先進的領域。然而，自然語言很難掌握，且品質很重要。今天，模型在通用短/中形式寫作方面已經相當不錯（但即使如此，它們通常也用於迭代或第一稿）。隨著模型越來越好，我們應該期望看到更高品質的輸出、較長的內容和更好的垂直領域專用調整。
程式碼生成可能在近期對開發人員的生產力產生很大影響，就像 GitHub CoPilot 所顯示的那樣。它也將使程式碼的創意使用更加易於非開發人員使用。
圖像是一種較新的現象，但它們已經在網上瘋傳：在 Twitter 上分享生成的圖像要比分享文字有趣得多！我們正在看到具有不同美學風格的圖像模型的出現，以及用於編輯和修改生成圖像的不同技術。
語音合成已經存在一段時間（你好 Siri！）但消費者和企業應用程式才剛剛變得很好。對於電影和播客等高級應用程式而言，一次性生成優質人類語音但不會聽起來機械的門檻很高，但就像圖像一樣，今天的模型提供了進一步改進或用於功能性應用程式的最終輸出的起點。
影片和 3D 模型正在快速上升。人們對這些模型潛在地解鎖電影、遊戲、 VR、建築和實體產品設計等大型創意市場感到興奮。研究組織正在發布基礎 3D 和影片模型。
其他領域：在許多領域正在進行基礎模型研究，從聲音和音樂到生物和化學（生成蛋白質和分子？）下圖說明了我們可能期望看到的基礎模型進展以及相關應用程式的時間表。 2025 年及以後只是猜測。

此篇為翻譯文，請注意本文時間為 2022/9，原全文連結 https://www.sequoiacap.com/article/generative-ai-a-creative-new-world/

生成式人工智慧：創意新世界

Written by fox hsiao

No responses yet