fastgpt要结合oneapi才能对接到ollama,所以这里用dify,一键部署就好

这里部署在windows服务器上

驱动+cuda+cuDNN

win10自动装好了显卡驱动,需要手动把cuda和加速库给装上
https://developer.nvidia.com/rdp/cudnn-archive
https://developer.nvidia.com/cuda-toolkit-archive
先确定显卡支持的cuda版本
微信图片_20240308112849.png
找到对应的版本,系统显示显卡支持12.2.79,这里选cuda 12.2的最后一个版本12.2.2
微信图片_20240308113317.png
在选择自己的系统版本下载,然后安装
微信图片_20240308113526.png
然后下载cuDNN加速库,对应选择支持12.x的版本,需要先注册才能下载,稍微填写一些信息即可
微信图片_20240308113200.png
解压后将文件复制到cuda的安装目录
微信图片_20240308113835.png

安装docker-desktop

docker: https://www.docker.com/products/docker-desktop/
直接下载安装即可,会自动安装docker-compose

安装ollama

下载ollama
https://ollama.com/download

安装以后是通过命令行来操作的
微信图片_20240308110927.png

ollama ls            #展示现有模型
ollama run qwen:7b   #启动模型,本地没有的会去线上下载
ollama pull qwen:7b  #下载模型

ollama的模型库,展示了支持的模型
https://ollama.com/library

配置系统环境变量(可选)
ollama默认只能在本机访问,默认是11434端口,如果要修改成公开访问就需要配置系统环境变量
在windows桌面搜索"编辑系统环境变量"
微信图片_20240308111501.png
新建系统环境变量
OLLAMA_HOST :0.0.0.0
微信图片_20240308111928.png

修改模型存储路径
OLLAMA_MODELSF:\OllamaCache
修改端口
OLLAMA_HOST ::8000

安装dify

dify: https://dify.ai/zh
帮助文档: https://docs.dify.ai/v/zh-hans/getting-started/readme
github: https://github.com/langgenius/dify

下载最新的发行版
微信图片_20240308114601.png
打开命令行,进入到对应目录,运行构建命令,我这里已经安装好了,如果没有安装过的会自动下载镜像

docker compose up -d

微信图片_20240308114948.png
安装完成后就可以通过浏览器进行访问
首次访问会需要注册管理员账号
微信图片_20240308115457.png
接入ollama,在设置中添加模型,地址要填本机的地址,不能是127.0.0.1,docker请求会不到
微信图片_20240308115619.png
创建知识库,可以参考官方文档合成知识库数据, https://docs.dify.ai/v/zh-hans/learn-more/use-cases/train-a-qa-chatbot-that-belongs-to-you
微信图片_20240308133630.png
创建应用,选择知识库
微信图片_20240308133831.png