fastgpt要结合oneapi才能对接到ollama,所以这里用dify,一键部署就好
这里部署在windows服务器上
驱动+cuda+cuDNN
win10自动装好了显卡驱动,需要手动把cuda和加速库给装上
https://developer.nvidia.com/rdp/cudnn-archive
https://developer.nvidia.com/cuda-toolkit-archive
先确定显卡支持的cuda版本
找到对应的版本,系统显示显卡支持12.2.79,这里选cuda 12.2的最后一个版本12.2.2
在选择自己的系统版本下载,然后安装
然后下载cuDNN加速库,对应选择支持12.x的版本,需要先注册才能下载,稍微填写一些信息即可
解压后将文件复制到cuda的安装目录
安装docker-desktop
docker: https://www.docker.com/products/docker-desktop/
直接下载安装即可,会自动安装docker-compose
安装ollama
下载ollama
https://ollama.com/download
安装以后是通过命令行来操作的
ollama ls #展示现有模型
ollama run qwen:7b #启动模型,本地没有的会去线上下载
ollama pull qwen:7b #下载模型
ollama的模型库,展示了支持的模型
https://ollama.com/library
配置系统环境变量(可选)
ollama默认只能在本机访问,默认是11434端口,如果要修改成公开访问就需要配置系统环境变量
在windows桌面搜索"编辑系统环境变量"
新建系统环境变量
OLLAMA_HOST
:0.0.0.0
修改模型存储路径
OLLAMA_MODELS
: F:\OllamaCache
修改端口
OLLAMA_HOST
::8000
安装dify
dify: https://dify.ai/zh
帮助文档: https://docs.dify.ai/v/zh-hans/getting-started/readme
github: https://github.com/langgenius/dify
下载最新的发行版
打开命令行,进入到对应目录,运行构建命令,我这里已经安装好了,如果没有安装过的会自动下载镜像
docker compose up -d
安装完成后就可以通过浏览器进行访问
首次访问会需要注册管理员账号
接入ollama,在设置中添加模型,地址要填本机的地址,不能是127.0.0.1,docker请求会不到
创建知识库,可以参考官方文档合成知识库数据, https://docs.dify.ai/v/zh-hans/learn-more/use-cases/train-a-qa-chatbot-that-belongs-to-you
创建应用,选择知识库