鯨品堂|Transformer大模型學習導引:光速掌握大模型

2024-03-18 849

龍年春節期間Sora的推出讓大模型又火了一把,作為重要的技術方向,很多同學都希望能夠深入掌握大模型的相關技術,經常有人問如何學習大模型技術?有哪些材料可以參考?這里筆者將收藏夾里面的地址整理了一下,并加上了筆者的一些思考,供大家參考。


01
基礎原理學習


Google的Transformer模型論文《Attention Is All You Need》發表于2017年,其實已經相當長的時間了,這幾年累積下來講Transformer模型的文檔非常多,比較通俗易懂的文章推薦如下:


1) 《超詳細圖解Self-Attention》,Transformer模型與傳統的CNN、RNN、Seq2Seq等神經網絡模型最核心的點就是引入了自注意力機制,本篇知乎文章對理解什么是自注意力機制非常有幫助。


圖片關鍵詞

掃碼查看推薦文章


2) 《The Illustrated Transformer(圖解Transformer)》,CSDN一篇文章,是國外一篇講解Transformer整體架構的博文的翻譯版,里面對每個Transformer架構的每個模塊都展開通過圖形示例等方式進行了講解,搞懂這些環節基本可以理解Transformer用到的關鍵技術。


圖片關鍵詞

掃碼查看推薦文章


3) 《手寫AI-逐行手寫GPT模型》,這個是Bilibili上的一個培訓視頻(雖然免費的課程并不完整,但是夠用了),講解了從零開始手寫一個GPT的實現,通過代碼講解可以更進一步了解GPT模型的技術原理是如何真正運行起來的,能夠真正理解整個過程。


圖片關鍵詞

掃碼查看推薦視頻


這幾份材料從細節到整體,從原理到實現,覆蓋比較全面,精讀之后對GPT模型的原理基礎會有一個比較深入的認識。



個人學習心得:



>>>>

Transformer架構的理解


1) 自注意力機制可以將上下文信息壓縮到每個token的向量中,實現帶上下文的并行計算,使得大規模參數和數據堆疊成為了可能,而海量參數和數據帶來的推理能力涌現是這次大模型技術的爆發點。


2) 目前大部分材料講解都是Encoder-Decoder架構,也就是論文上講的架構,而目前我們經常用的大模型一般都是Decoder-Only的架構(除了ChatGLM之外),所以如果想了解Decoder-Only的實現可以參考mingpt等開源代碼,只有300行。


圖片關鍵詞

掃碼查看參考文章


3) 文檔都有一定的滯后性,一些新的機制可以對照著看torch的源碼或者transformer的源碼,很多時候理論研究半天不如看幾行代碼理解的透徹,對于我們來說沒有必要把論文的公式都搞明白。


圖片關鍵詞

掃碼查看torch源碼


圖片關鍵詞

掃碼查看transformer源碼


>>>>

兩點疑問和思考


問:
模型各層計算時都是[ batch_size, sequence_length, hidden_size]這樣的三維矩陣,如何從這個矩陣中取出預測的下一個字符的?

我們都知道Transformer在輸出時是一個字符一個字符輸出的,并不能一次預測一段內容,但是我們計算矩陣實際上是三維的,這個對應關系如何?沒有看到這方面的解釋,從代碼logits[:,-1,:].max(dim=1)[1]可以看到,實際在推理輸出時,只使用了最后一個字符對應的那行向量來進行輸出,從中選出最大值并將這個值映射到字典表。從理論上猜測,下一個輸出字符與最后一個字符的關聯是最緊密的,而其他字符都通過注意力機制某種程度上在這組向量中都是有表達的。


問:
大模型的推理參數temperature,為何一個簡單的除法就可以實現了?

看到temperature參數的實現代碼:logits = logits[:, -1, :] / temperature感覺有點奇怪,為何對所有的向量直接做一個除法就可以改變模型輸出的風格?(保守 VS 激進),其實這個與top_p參數有關系( top_p是累計概率,找N個候選達到總體概率超過top_p的值就結束),所以當temperature對向量成比例的放大,選到的候選單詞就少,反之就會越多,通過這種方式來影響整體輸出。這也是為什么temperature和top_p參數通常只調一個。


02
大咖觀點學習


如果覺得技術原理太枯燥了,簡單了解一下也行,并不會影響我們使用大模型,因為即使看懂了代碼,大模型還是一個黑盒,哪些場景能夠實現,哪些場景不能夠實現也需要測試才能得到結論。當然如果我們僅僅從自己的經驗中去學習那就太局限了,我們可以聽聽業界大佬的見解,他們見多識廣,有很多思路可以學習。



周鴻祎:我的大模型產品方法論


甲小姐對話周鴻祎:不發展AI才是最大的不安全

注解:周鴻祎的兩篇觀點分享,一篇是2023年7月份,一篇是2023年12月份,周教主雖然言語比較犀利但是接地氣,直白易懂。



陳?。篊hatGPT發展歷程、原理、技術架構詳解和產業未來

注解:比較完整的關于ChatGPT的分析,信息量挺大,也很全面



百川智能王小川:大模型創業100天,我確認找到了屬于我的「無人區」 VS 太卷了!關于大模型和AIGC的36條筆記和真話

注解:可能是王小川對行業發展的一些觀察、經驗和思考。這些筆記和真話涵蓋了技術發展、應用場景、商業模式、市場動態、未來預測和創業心得。


總結一下,將兩篇文章放在一起,一個火山、一個冰川,對照閱讀。


大咖們的觀點各有千秋,大模型到底是否是奇點的開始可能還需要爭論一段時間,我個人的看法是:


大模型相對以前的小模型來說是個跨越,在通用性、質量上都有變革性的提升



大模型在知識壓縮、存儲、召回上實現了突破,實現了通過自然語言來檢索海量知識



但是從應用場景來看,大模型并沒有比小模型擴展出太多的范圍,與小模型一樣,依然缺乏場景和數據



目前語言模型的提升應該進入了瓶頸期,現在開始向MOE和多模態方向的探索


03
其他學習資料



Lora微調和超參信息

Lora是一種高效參數微調(PEFT)方法,也是目前最流行的模型訓練微調方法,很好的平衡了效率和質量,這篇文章雖然是英文,但是是科普性的,簡單易讀,能夠比較透徹的理解Lora、QLora等技術原理。


圖片關鍵詞

掃碼查看推薦文章



LLM大語言模型之Generate/Inference(生成/推理)中參數與解碼策略原理及其代碼實現

我們在使用OpenAI的接口調用大模型的時候,有很多參數,比如temperature、top_p、top_k、repeat_penality等,我們除了不斷優化Prompt之外,這些參數也應該仔細加以考慮以更匹配我們的場景。


圖片關鍵詞

掃碼查看推薦文章



RAG的概念和實現

RAG方向建議大家直接看llama.index這個開源社區,有文檔和代碼,很清晰。


圖片關鍵詞

掃碼查看推薦文章



Prompt工程的通用框架以及案例解析:模型本身智能才是關鍵,Prompt僅用做錦上添花

Prompt工程相關,是否需要仔細寫Prompt?是的,能起決定性作用么?不一定。


圖片關鍵詞

掃碼查看推薦文章


04
學習筆記總結


Transformer 是一種基于自注意力機制的深度學習模型,廣泛用于自然語言處理、計算機視覺和音頻處理等領域。以下是一些 Transformer 學習筆記:


? Transformer 模型由兩部分組成:編碼器和解碼器。編碼器將輸入序列編碼成一個連續的向量,解碼器則根據編碼器的輸出和已經生成的目標序列來生成下一個目標token。

? 自注意力機制是 Transformer 模型的核心。它允許模型在處理每個token時,查看序列中的所有其他token,并利用它們的信息來計算注意力權重。這些權重用于加權輸入序列中的所有token,生成一個加權的表示,作為下一個token的輸入。

? Transformer 模型使用了一種名為位置編碼的技術,將序列中每個token的位置信息編碼為它們的位置向量。這些位置向量被添加到token的嵌入向量中,使模型能夠理解序列中token的順序。

? Transformer 模型使用了一種名為多頭注意力機制的技術,它將輸入序列分成多個頭,每個頭計算不同的注意力權重。這有助于模型在處理每個token時,從不同的角度獲取輸入序列的信息,提高模型的表現。

? Transformer 模型使用了一種名為前饋神經網絡的技術,它將編碼器和解碼器中的每個層都連接起來。前饋神經網絡有助于模型在處理每個token時,更好地學習非線性變換,提高模型的表現。

? Transformer 模型的訓練過程可以使用多種技術,如學習率衰減、數據增強和正則化等。這些技術有助于模型在訓練過程中避免過擬合,提高模型的泛化能力。


Transformer 是一種強大的深度學習模型,具有很多優點,如并行計算能力、良好的表現和泛化能力等。但是,它也有一些缺點,如計算成本高、訓練時間長等。在實際應用中,需要根據具體任務和數據集選擇合適的模型和訓練技術。


05
學習體會


兩點體會分享:


① 字世界變化越來越快,必須得卷,也要相信世界真的在變化,可以根據自己的喜好去刷最新的論文,或者去刷開源社區,與外部對齊認知。


② 習慣往往制約了我們擁抱變化的能力,而開放的交流和不保留的分享其實是一種學習、成長的新方式。


官方微信公眾號

浩鯨云計算科技股份有限公司 版權所有 2003-2023

蘇ICP備10224443號-6       蘇公網安備 32011402011374號

亚洲精品免费视频_热99re6久精品国产首页青柠_精品国产专区91在线_亚洲美洲欧洲偷拍片区