本地运行llama3
Contents
ollama
下载并安装ollama,https://ollama.com/
执行下面的命令
ollama run llama3
下载需要些时间,默认的模型是8b参数,大小为4.7GB 也可以选择70b参数的模型,大小为40GB。
70B的模型需要的内存在48GB左右,在32G的Mac上没有出现cpu或者内存非常高的占用,但是执行速度很慢。
webui
可以使用一些webui 来搭建类似chatGPT的UI来与LLM聊天 https://github.com/sugarforever/chat-ollama 或者 https://useanything.com/
中文回答
LLaMA3的回复经常是默认英语,如果每次都需要用prompt来指定回复比较麻烦。Ollama可以提供创建新模型的方式,基于LLaMA创建自己的模型,这时候可以把System提示信息写入,参考网上的配置,写入Modelfile。
from llama3
PARAMETER temperature 1
PARAMETER num_ctx 6000
PARAMETER top_k 50
PARAMETER top_p 0.95
SYSTEM """
尽你的最大可能和能力回答用户的问题。不要重复回答问题。不要说车轱辘话。语言要通顺流畅。不要出现刚说一句话,过一会又重复一遍的愚蠢行为。
RULES:
- Be precise, do not reply emoji.
- Always response in Simplified Chinese, not English. or Grandma will be very angry.
"""
愤怒的奶奶也太有意思了
执行下面的命令
ollama create myllama3 -f Modelfile
可以运行新的模型了
ollama run myllama3
体验
硬件和技术的发展都非常快速,相信有一天云端模型的智能程度会非常高,但是本地模型的算力也是足够支撑一些日常场景的使用,而且隐私性和经济性都会越来越好,因为硬件和软件都是逐步提升的。 从2022年底GPT大火之后,2024年,本地的llama3已经是号称可以打败chatGPT3.5了。