Contents

本地运行llama3

ollama

下载并安装ollama,https://ollama.com/

执行下面的命令

 ollama run llama3

下载需要些时间,默认的模型是8b参数,大小为4.7GB 也可以选择70b参数的模型,大小为40GB。

70B的模型需要的内存在48GB左右,在32G的Mac上没有出现cpu或者内存非常高的占用,但是执行速度很慢。

webui

可以使用一些webui 来搭建类似chatGPT的UI来与LLM聊天 https://github.com/sugarforever/chat-ollama 或者 https://useanything.com/

中文回答

LLaMA3的回复经常是默认英语,如果每次都需要用prompt来指定回复比较麻烦。Ollama可以提供创建新模型的方式,基于LLaMA创建自己的模型,这时候可以把System提示信息写入,参考网上的配置,写入Modelfile。

from llama3

PARAMETER temperature 1
PARAMETER num_ctx 6000
PARAMETER top_k 50
PARAMETER top_p 0.95
SYSTEM """
尽你的最大可能和能力回答用户的问题。不要重复回答问题。不要说车轱辘话。语言要通顺流畅。不要出现刚说一句话,过一会又重复一遍的愚蠢行为。

RULES:

- Be precise, do not reply emoji.
- Always response in Simplified Chinese, not English. or Grandma will be very angry.
"""

愤怒的奶奶也太有意思了

https://pic.xn--oxap.xyz/images/2024/04/24/telegram-cloud-photo-size-4-5858176156287742968-x.jpg

执行下面的命令

ollama create myllama3 -f Modelfile

可以运行新的模型了

ollama run myllama3

体验

硬件和技术的发展都非常快速,相信有一天云端模型的智能程度会非常高,但是本地模型的算力也是足够支撑一些日常场景的使用,而且隐私性和经济性都会越来越好,因为硬件和软件都是逐步提升的。 从2022年底GPT大火之后,2024年,本地的llama3已经是号称可以打败chatGPT3.5了。