AI人工智慧最新浪潮— ——停不下來的列車

 中華民國115年1月3日星期六天氣晴朗

作者——孫大千

^_^所謂局部微調,是將原本就有1百萬參數的A矩陣拆分成D矩陣和 E 矩陣的相乘,也就是A=DxE 。 D矩陣是一個1000xK的矩陣,而E矩陣是一個Kx1000的矩陣。K稱之為「維度」(Rank)。

^_^全面微調需要調整1百萬個參數,但是局部微調只需要調整10,000個參數,不論是G P U或是其他成本都只需要花費原本的1%,而省下的99%。

^_^雖然微調的方式已經可以大幅降低時間和資源的投入,但是如果使用參數高效微調(Parameter -Efficient Fine-Tuning,PEFT)可以將微調參數數量以及計算複雜程度度降到最低。

^_^參數高效微調包括多種方法如低維微調(Low-Rank Adatation ,LoRA),插件微調(Adapter Tuning), 前綴微調(Prefix Tuning),指令微調(Prompt Tuning)以及P微調(P-Tuning)。

^_^優化大模型的方法:微調vs.RAG

1、專用性vs 通用性:R A G模型可以外接不同領域的外部資料庫,所以具備通用性。而微調模型就屬於專用性,適用於完成特定任務。

2、是否具備可解釋性:由於R A G模型的輸出內容是來自於外部資料,可隨時查閱,因此具備可解釋性。而微調模型則是調整參數來進行學習,模型是基於什麼樣的認知來調整參數很難確定,所以輸出內容較不具備可解釋性。

*分析金融市場的即時動態和數據:金融市場瞬息萬變,因此在執行任務時大模型需要連結外部的金融市場資料庫,因此應該採用R A G。

*解決大模型的飄移或幻覺:因為學習資料庫的內容並無法提供相關的正確資料,若要解決這樣的問題可以針對不同的專業領域外接對應的專業資料庫,因此應該採用R A G。

* 電影視覺特效公司生成漫威電影場景:漫威電影中的人物和場景等數位資產(Digital Assets)都是屬於漫威公司所有,一般的影片生成大模型在訓練學習時不太可能取得相關資料。因此應該採用R A G。

3、是否具備即時性:R A G模型隨時可以因應不同目標外接相對應的外部資料庫,所以具備即時性。而微調模型,則必須經過學習過程,自然會耗費更多的時間。

*分析醫療診斷報告:由於病患的一聊診斷數據來源相當多元,而且報告中也充斥著許多醫療的專有名詞,原本的通用型大模型可能要經過在學習的過程才能符合特殊任務的使用,因此應該採用微調。

* 加快大模型回答的速度:在不涉及專業領域知識不足的情況下,改善通用型大模型回應速度的方法必須對大模型進行再次訓練,以調整參數,因此應該採用微調。

4、引用vs學習: R A G模型是引用外部資料庫來生成輸出內容,而微調模型,則是藉由學習過程來自行生成輸出內容。

^_^ LangChain是一個以大語言模型為基礎的框架,其核心概念是將許多不同的工具或組件連結在一起,打造更高級的語言模型應用,例如:聊天機器人、企業客服系統、特定領域的本文撰寫及摘要。

^_^ 大語言模型仍然有兩個層面的問題需要加以改善和優化,第一個層面是大語言模型在生成回答內容時,是否能夠參考到正確、即時且充分的資訊,畢竟模型在訓練學習過程中所使用的資料庫中的部分資訊可能會有過期、錯誤或者不足的問題,這樣的情況下有可能是天馬行空或是產生飄移。

因此我們需要類似「搜尋擴增生成R A G」的技術來提升大語言模型輸出答案的正確性。而藉由LangChain框架,可以在不改變大語言模型的情況下,外接其他特定或可靠的資料數據庫。

第二個層面是大語言模型,通常只能被動地根據指令來生成內容,缺乏主動性和通用性;但是應用LangChain框架之後,可以在大語言模型的基礎上,外接不同的工具模組以及外部資料庫,打造出因應不同特定任務的A I代理人。

LangChain就是一個組成人工智慧團體的平台及工具。

^_^ A I代理人完成一個輸入本文大綱即可生成一部電影的任務

1、故事大綱要先輸入理解模組,用來理解主任務的內容。

2、接著,記憶模組會確認是否有長期或短期記憶的內容需要提供。

3、然後計劃模組會接手,並且將主任務拆解成不同的任務,如果要生成一部電影,至少要經過撰寫劇本、角色設定、場景分鏡、分段生成,配音燈光以及合成成品這幾個主要的階段。

4、隨後,調度模組會針對不同的只任務調度各種模組工具。

5、而執行模組會按照調度模組的規劃展開行動。

@撰寫劇本的部分會調度另外一個大語言模型來執行。

@角色設定會調度製作虛擬人的工具來執行。

@場景分鏡會交給由本文生成影片的模型來執行。

@分段深層的工作再確定場景分鏡沒問題後,則會使用一個可以由影片生成影片的模型來執行。

@然後,配音燈光會結合另外的工具來執行。

@最後再調度一個合成各分段影片的工具來完成最終的作品。

^_^在五個模具中,理解模組扮演感知(Perception)的角色

記憶模組和計劃模組扮演大腦(Brain)的角色

而調度模組與執行模組則扮演的行動(Action)的角色

所以簡單來說, AI代理人具備的感知、思考和行動的能力。

^_^ AI代理人有許多不同的類型

1、自主型代理人(Autonomous Agent)

2、合作型代理人3、反射型代理人4、目標型代理人5、效果行代理人6、邏輯型代理人

^_^ 多模態大模型可以同時處理多種類型的資料,包括文字、圖表、數據、圖片、影片和程式碼都可以被同時輸入並且處理。如同具備了人類感知的聽覺和視覺,並藉此了解這個世界。

可以整合並理解輸入的多模態資訊。將輸入的各種類型的資料融會貫通後,形成看法並且輸出內容。如同人類從外界接收各種種資訊,分析思考後,做出判斷,然後採取行動行。

^_^ 提升多模態輸出的能力,建立可靠的資料庫,強化多模態資料的整合和推理能力。

^_^ 多模態大模型在自動駕駛(self-driving)的應用上,必須扮演著眼觀四面、耳聽八方的角色。

^_^ 2024年5月13日, openAI在春季發表會(Spring Update)推出的一款多模大模型ChatGPT-4o, o零代表Omni 源自於拉丁語,也就是「全能」的意思。

^_^ Gemini 1.5 flash雖然號稱輕量級,但卻可以用較低的預算成本來處理數量龐大的高頻率任務,並且展現的相當優異的多模態推理能力,擅長從大量的文件和表格中截取重點並做出摘要,也是能處理多種語言的詢問。

^_^傳統的多模態大模型L M M針對不同的模態會使用不同的編碼器和解碼器,也就是以不同模態資料訓練的模型先分開處理,之後再結合起來,這種方式稱之為「後期融合」,這樣的方式對於生成文字交錯圖像的輸出會有一定的限制。

^_^Chameleon採取一號稱「早期融合」的創新技術。可以在本文和圖像輸入時,採取同步嵌入的程序,透過不同模態的分詞器(Tokenizer),將本文和圖像的轉換成「詞元」(Token)並且無縫整合,投影到一個共同的向量空間,並可以直接生成本文和圖像交錯的序列。

^_^ 2024年7月4日,法國一間非營利人工智慧研究機構Kyutai推出了一個開源的即時語音對話,多模態大模型—-Moshi.團隊只有八人,僅花六個月的時間就順利完成,目前是一個開源且可以免費使用的大模型。

^_^ Moshi 最厲害的是,可以同時處理兩個音頻,代表聽和說是可以同步進行的,也可以進行即時語音對話,並且對話中可以隨時打斷,提供能無縫的對話體驗。

^_^Claude 3.5Sonnet  此次最大亮點就是增加一個全新的功能Artifacts 」這個功能可以在螢幕右邊的工作框中列出使用者要求生成的程式,讓使用者預覽,並且試運行一次,讓使用者可以根據結果來做成修正,這個功能對一般非專業使用者自行設計和生產遊戲相當有幫助。

^_^ 中國多模態大模型的創新影響力,排名前五名分別為:華為9%、騰訊8%、阿里巴巴7%、科大訊飛7%和百度7%。

^_^ 西方國家重視人工智慧模型的研究,中國則更注重如何讓人工智慧模型落地應用,強調做事和解決問題。

從中國數量龐大的多模態大模型以及建構在大模型上數以萬計的應用程式來看,中國在人工智慧技術和應用方面都具備了全球領先的實力。

^_^ 知名眼鏡品牌Solos 在2024年7月推出了首款支援ChatGPT 4.0的智能眼鏡AirGo Vision 使用者只需要以新台幣$8000左右,就能夠買到內建的智能眼鏡。

^_^ 截至2024年7月,百度的蘿蔔快跑已經在中國大陸11個城市進行試運。當然,美國的特斯拉、Google母公司Alphabet 旗下的自駕公司Waymo 和通用汽車G M旗下的 Cruise 也具備了一定的競爭實力。

^_^ 在未來,人工智慧的實力就代表一個國家的國力。人工智慧發展過程中,除了演算法和大模型的建立,有三大支柱扮演的關鍵性的角色,分別是:資料、算力和電力。

^_^ 資料,又稱為數據,是人工智慧發展過程中最重要的土壤,指的是合法、海量、正確和即時的多模態資料,可用於大模型的預訓練學習,以及後續的提問回應當然也包括了在R A G中使用與特定領域的外部資料庫。

^_^ 現金的大模型大多是以採用注意力機制的變換器模型為基礎,因此,大模型無論是學習或是使用時,都必須進行大量的、重複的、簡單地以及平行的矩陣或是向量的運算,而這就必須借助於G P U。沒有G P U,就沒有算力;沒有算力,就不會有大模型。

^_^ 人工智慧的算例必須靠電力來驅動,因此,供應無虞的電力人是維持順利的先決條件。

人工智慧的用電主要區分為兩個部分,第一個部分是在預訓練模型時數要消耗的電力,第二個部分是在實際應用時,模型在進行推論過程中以及生成答案所需消耗的能量。

講的更直接一點的,不論各家科技巨投買進了多少GPU,只要電力供應有問題,這一切都是空談。因此,黃仁勳說:「 A I的盡頭就是光電和儲能。」因為照現在AI的發展趨勢,未來光是要維持全球的電腦運作,就消耗14個地球的能源。

^_^ 奧特曼所提到的「核融合」就是俗稱的「人造太陽」,也被視為人類的「終極能源」。既然是終極,那就代表要達成這個目標,當然是一條漫漫長路。


留言

熱門文章