Skip to content

Commit

Permalink
[Doc] Update README (#8817)
Browse files Browse the repository at this point in the history
* update readme

* update

* update

* update
  • Loading branch information
DrownFish19 committed Jul 26, 2024
1 parent 054c3ad commit 77c0b0e
Showing 1 changed file with 59 additions and 2 deletions.
61 changes: 59 additions & 2 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -65,8 +65,65 @@ Unified Checkpoint ๅคงๆจกๅž‹ๅญ˜ๅ‚จๆ ผๅผๅœจๆจกๅž‹ๅ‚ๆ•ฐๅˆ†ๅธƒไธŠๆ”ฏๆŒๅŠจๆ€ๆ‰ฉ

## ๆจกๅž‹ๆ”ฏๆŒ

* ๆจกๅž‹ๅ‚ๆ•ฐๅทฒๆ”ฏๆŒ LLaMA ็ณปๅˆ—ใ€Baichuan ็ณปๅˆ—ใ€Bloom ็ณปๅˆ—ใ€ChatGLM ็ณปๅˆ—ใ€Gemma ็ณปๅˆ—ใ€Mistral ็ณปๅˆ—ใ€OPT ็ณปๅˆ—ๅ’Œ Qwen ็ณปๅˆ—๏ผŒ่ฏฆ็ป†ๅˆ—่กจ๐Ÿ‘‰[ใ€LLMใ€‘ๆจกๅž‹ๅ‚ๆ•ฐๆ”ฏๆŒๅˆ—่กจ](https://github.com/PaddlePaddle/PaddleNLP/issues/8663)
* 4D ๅนถ่กŒๅ’Œ็ฎ—ๅญไผ˜ๅŒ–ๅทฒๆ”ฏๆŒ LLaMA ็ณปๅˆ—ใ€Baichuan ็ณปๅˆ—ใ€Bloom ็ณปๅˆ—ใ€ChatGLM ็ณปๅˆ—ใ€Gemma ็ณปๅˆ—ใ€Mistral ็ณปๅˆ—ใ€OPT ็ณปๅˆ—ๅ’Œ Qwen ็ณปๅˆ—๏ผŒ่ฏฆ็ป†ๅˆ—่กจ๐Ÿ‘‰[ใ€LLMใ€‘ๆจกๅž‹4D ๅนถ่กŒๅ’Œ็ฎ—ๅญๆ”ฏๆŒๅˆ—่กจ](https://github.com/PaddlePaddle/PaddleNLP/issues/8751)
* ๆจกๅž‹ๅ‚ๆ•ฐๅทฒๆ”ฏๆŒ LLaMA ็ณปๅˆ—ใ€Baichuan ็ณปๅˆ—ใ€Bloom ็ณปๅˆ—ใ€ChatGLM ็ณปๅˆ—ใ€Gemma ็ณปๅˆ—ใ€Mistral ็ณปๅˆ—ใ€OPT ็ณปๅˆ—ๅ’Œ Qwen ็ณปๅˆ—๏ผŒ่ฏฆ็ป†ๅˆ—่กจ๐Ÿ‘‰ใ€LLMใ€‘ๆจกๅž‹ๅ‚ๆ•ฐๆ”ฏๆŒๅˆ—่กจๅฆ‚ไธ‹๏ผš

| ๆจกๅž‹็ณปๅˆ— | ๆจกๅž‹ๅ็งฐ |
|:---------------------------------------------------------------------------------------:|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| [LLaMA](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/llm/config/llama) | facebook/llama-7b, facebook/llama-13b, facebook/llama-30b, facebook/llama-65b |
| [LLama2](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/llm/config/llama) | meta-llama/Llama-2-7b, meta-llama/Llama-2-7b-chat, meta-llama/Llama-2-13b, meta-llama/Llama-2-13b-chat, meta-llama/Llama-2-70b, meta-llama/Llama-2-70b-chat |
| [LLama3](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/llm/config/llama) | meta-llama/Meta-Llama-3-8B, meta-llama/Meta-Llama-3-8B-Instruct, meta-llama/Meta-Llama-3-70B, meta-llama/Meta-Llama-3-70B-Instruct |
| [Baichuan](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/llm/config/baichuan) | baichuan-inc/Baichuan-7B, baichuan-inc/Baichuan-13B-Base, baichuan-inc/Baichuan-13B-Chat |
| [Baichuan2](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/llm/config/baichuan) | baichuan-inc/Baichuan2-7B-Base, baichuan-inc/Baichuan2-7B-Chat, baichuan-inc/Baichuan2-13B-Base, baichuan-inc/Baichuan2-13B-Chat |
| [Bloom](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/llm/config/bloom) | bigscience/bloom-560m, bigscience/bloom-560m-bf16, bigscience/bloom-1b1, bigscience/bloom-3b, bigscience/bloom-7b1, bigscience/bloomz-560m, bigscience/bloomz-1b1, bigscience/bloomz-3b, bigscience/bloomz-7b1-mt, bigscience/bloomz-7b1-p3, bigscience/bloomz-7b1, bellegroup/belle-7b-2m |
| [ChatGLM](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/llm/config/chatglm/) | THUDM/chatglm-6b, THUDM/chatglm-6b-v1.1 |
| [ChatGLM2](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/llm/config/chatglm2) | THUDM/chatglm2-6b |
| [ChatGLM3](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/llm/config/chatglm2) | THUDM/chatglm3-6b |
| [Gemma](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/llm/config/gemma) | google/gemma-7b, google/gemma-7b-it, google/gemma-2b, google/gemma-2b-it |
| [Mistral](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/llm/config/mistral) | mistralai/Mistral-7B-Instruct-v0.3, mistralai/Mistral-7B-v0.1 |
| [Mixtral](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/llm/config/mixtral) | mistralai/Mixtral-8x7B-Instruct-v0.1 |
| [OPT](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/llm/config/opt) | facebook/opt-125m, facebook/opt-350m, facebook/opt-1.3b, facebook/opt-2.7b, facebook/opt-6.7b, facebook/opt-13b, facebook/opt-30b, facebook/opt-66b, facebook/opt-iml-1.3b, opt-iml-max-1.3b |
| [Qwen](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/llm/config/qwen/) | qwen/qwen-7b, qwen/qwen-7b-chat, qwen/qwen-14b, qwen/qwen-14b-chat, qwen/qwen-72b, qwen/qwen-72b-chat, |
| [Qwen1.5](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/llm/config/qwen/) | Qwen/Qwen1.5-0.5B, Qwen/Qwen1.5-0.5B-Chat, Qwen/Qwen1.5-1.8B, Qwen/Qwen1.5-1.8B-Chat, Qwen/Qwen1.5-4B, Qwen/Qwen1.5-4B-Chat, Qwen/Qwen1.5-7B, Qwen/Qwen1.5-7B-Chat, Qwen/Qwen1.5-14B, Qwen/Qwen1.5-14B-Chat, Qwen/Qwen1.5-32B, Qwen/Qwen1.5-32B-Chat, Qwen/Qwen1.5-72B, Qwen/Qwen1.5-72B-Chat, Qwen/Qwen1.5-110B, Qwen/Qwen1.5-110B-Chat, Qwen/Qwen1.5-MoE-A2.7B, Qwen/Qwen1.5-MoE-A2.7B-Chat |
| [Qwen2](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/llm/config/qwen/) | Qwen/Qwen2-0.5B, Qwen/Qwen2-0.5B-Instruct, Qwen/Qwen2-1.5B, Qwen/Qwen2-1.5B-Instruct, Qwen/Qwen2-7B, Qwen/Qwen2-7B-Instruct, Qwen/Qwen2-72B, Qwen/Qwen2-72B-Instruct, Qwen/Qwen2-57B-A14B, Qwen/Qwen2-57B-A14B-Instruct |

* 4D ๅนถ่กŒๅ’Œ็ฎ—ๅญไผ˜ๅŒ–ๅทฒๆ”ฏๆŒ LLaMA ็ณปๅˆ—ใ€Baichuan ็ณปๅˆ—ใ€Bloom ็ณปๅˆ—ใ€ChatGLM ็ณปๅˆ—ใ€Gemma ็ณปๅˆ—ใ€Mistral ็ณปๅˆ—ใ€OPT ็ณปๅˆ—ๅ’Œ Qwen ็ณปๅˆ—๏ผŒใ€LLMใ€‘ๆจกๅž‹4D ๅนถ่กŒๅ’Œ็ฎ—ๅญๆ”ฏๆŒๅˆ—่กจๅฆ‚ไธ‹๏ผš


| ๆจกๅž‹ๅ็งฐ/ๅนถ่กŒ่ƒฝๅŠ›ๆ”ฏๆŒ | ๆ•ฐๆฎๅนถ่กŒ | ๅผ ้‡ๆจกๅž‹ๅนถ่กŒ | | ๅ‚ๆ•ฐๅˆ†็‰‡ๅนถ่กŒ | | | ๆตๆฐด็บฟๅนถ่กŒ |
|:---------------------:|:--------:|:------------:|:--------:|:------------:|:------:|:------:|:----------:|
| | | ๅŸบ็ก€่ƒฝๅŠ› | ๅบๅˆ—ๅนถ่กŒ | stage1 | stage2 | stage3 | |
| Llama | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… |
| Llama2 | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… |
| Llama3 | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… |
| Qwen | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… |
| Qwen1.5 | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… |
| Qwen2 | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… |
| Mixtral(moe) | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… | ๐Ÿšง |
| Mistral | โœ… | โœ… | ๐Ÿšง | โœ… | โœ… | โœ… | ๐Ÿšง |
| Baichuan(ๅŒ llama) | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… |
| Baichuan2 | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… |
| ChatGLM | โœ… | โœ… | ๐Ÿšง | โœ… | โœ… | โœ… | ๐Ÿšง |
| ChatGLM2 | โœ… | ๐Ÿšง | ๐Ÿšง | โœ… | โœ… | โœ… | ๐Ÿšง |
| ChatGLM3 | โœ… | ๐Ÿšง | ๐Ÿšง | โœ… | โœ… | โœ… | ๐Ÿšง |
| Bloom | โœ… | โœ… | ๐Ÿšง | โœ… | โœ… | โœ… | ๐Ÿšง |
| GPT-2/GPT-3 | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… |
| OPT | โœ… | โœ… | ๐Ÿšง | โœ… | โœ… | โœ… | ๐Ÿšง |
| Gemma | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… |

* ๅคงๆจกๅž‹้ข„่ฎญ็ปƒใ€็ฒพ่ฐƒ๏ผˆๅŒ…ๅซ SFTใ€PEFT ๆŠ€ๆœฏ๏ผ‰ใ€ๅฏน้ฝใ€้‡ๅŒ–ๅทฒๆ”ฏๆŒ LLaMA ็ณปๅˆ—ใ€Baichuan ็ณปๅˆ—ใ€Bloom ็ณปๅˆ—ใ€ChatGLM ็ณปๅˆ—ใ€Mistral ็ณปๅˆ—ใ€OPT ็ณปๅˆ—ๅ’Œ Qwen ็ณปๅˆ—๏ผŒใ€LLMใ€‘ๆจกๅž‹้ข„่ฎญ็ปƒใ€็ฒพ่ฐƒใ€ๅฏน้ฝใ€้‡ๅŒ–ๆ”ฏๆŒๅˆ—่กจๅฆ‚ไธ‹๏ผš

| ๆจกๅž‹ๅ็งฐ/่ƒฝๅŠ›ๆ”ฏๆŒ | Pretrain | SFT | LoRA | Prefix Tuning | DPO | RLHF | Quantization | Torch convert |
|:------------------:|:--------:|:---:|:----:|:-------------:|:---:|:----:|:------------:|:-------------:|
| LLaMA | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… | โœ… |
| Qwen | โœ… | โœ… | โœ… | โœ… | โœ… | ๐Ÿšง | ๐Ÿšง | โœ… |
| Mixtral | โœ… | โœ… | โœ… | โŒ | ๐Ÿšง | ๐Ÿšง | ๐Ÿšง | ๐Ÿšง |
| Mistral | โŒ | โœ… | โœ… | โœ… | โœ… | ๐Ÿšง | ๐Ÿšง | โœ… |
| Baichuan/Baichuan2 | โœ… | โœ… | โœ… | โœ… | โœ… | ๐Ÿšง | โœ… | โœ… |
| ChatGLM-6B | โŒ | โœ… | โœ… | โœ… | ๐Ÿšง | ๐Ÿšง | โœ… | โŒ |
| ChatGLM2/ChatGLM3 | โŒ | โœ… | โœ… | โœ… | ๐Ÿšง | ๐Ÿšง | โœ… | โœ… |
| Bloom | โŒ | โœ… | โœ… | โœ… | ๐Ÿšง | ๐Ÿšง | โœ… | โœ… |
| GPT-3 | โœ… | โœ… | ๐Ÿšง | ๐Ÿšง | ๐Ÿšง | ๐Ÿšง | ๐Ÿšง | โœ… |
| OPT | ๐Ÿšง | โœ… | โœ… | ๐Ÿšง | ๐Ÿšง | ๐Ÿšง | ๐Ÿšง | โœ… |

------------------------------------------------------------------------------------------

Expand Down

0 comments on commit 77c0b0e

Please sign in to comment.