本地运行llama3

2024-04-19 71 words One minute

Contents

ollama

下载并安装ollama，https://ollama.com/

执行下面的命令

 ollama run llama3

下载需要些时间，默认的模型是8b参数，大小为4.7GB 也可以选择70b参数的模型，大小为40GB。

70B的模型需要的内存在48GB左右，在32G的Mac上没有出现cpu或者内存非常高的占用，但是执行速度很慢。

webui

可以使用一些webui 来搭建类似chatGPT的UI来与LLM聊天 https://github.com/sugarforever/chat-ollama 或者 https://useanything.com/

中文回答

LLaMA3的回复经常是默认英语，如果每次都需要用prompt来指定回复比较麻烦。Ollama可以提供创建新模型的方式，基于LLaMA创建自己的模型，这时候可以把System提示信息写入，参考网上的配置,写入Modelfile。

from llama3

PARAMETER temperature 1
PARAMETER num_ctx 6000
PARAMETER top_k 50
PARAMETER top_p 0.95
SYSTEM """
尽你的最大可能和能力回答用户的问题。不要重复回答问题。不要说车轱辘话。语言要通顺流畅。不要出现刚说一句话，过一会又重复一遍的愚蠢行为。

RULES:

- Be precise, do not reply emoji.
- Always response in Simplified Chinese, not English. or Grandma will be very angry.
"""

愤怒的奶奶也太有意思了

执行下面的命令

ollama create myllama3 -f Modelfile

可以运行新的模型了

ollama run myllama3

体验

硬件和技术的发展都非常快速，相信有一天云端模型的智能程度会非常高，但是本地模型的算力也是足够支撑一些日常场景的使用，而且隐私性和经济性都会越来越好，因为硬件和软件都是逐步提升的。从2022年底GPT大火之后，2024年，本地的llama3已经是号称可以打败chatGPT3.5了。