https://kvcache-ai.github.io/ktransformers/en/install.html 仔细阅读官方安装步骤,网上很多教程因为作者有相当的基础,有很多细节作为常识并没有交代。如果使用ubuntu系统,推荐有魔法路由器,或者另外一台电脑开代理。ubuntu系统内配置某梯有点复杂。
安装ubuntu,网上教程一大把。
添加软件源,阿里云速度比较不错。
在附加驱动中,选择550,英伟达官方提供的驱动,安装后重启,并在终端中运行 nvidia-smi查看驱动安装情况,并在右上角查看支持的cuda最高版本。
安装cuda,一定要和驱动匹配,并高于12.1(Ktransformers官方指定)。https://developer.nvidia.com/cuda-toolkit-archive 这个链接可以选择cuda版本,直接搜索只能装12.8。
将cuda加入环境变量,也就是告诉你的机器去哪里找cuda:
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
export CUDA_PATH=/usr/local/cuda #这里有个坑,有的时候cuda文件夹会带版本号。如果有需要把
*/cuda改成 */cuda-12.4 (以12.4的版本为例)安装完成后使用 nvcc -V验证安装。
source ~/.bashrc #使环境变量立即生效
安装anaconda3。版本无所谓。
安装gcc g++以及cmake。命令如下:
sudo apt-get update
sudo apt-get install build-essential cmake ninja-build
构建虚拟环境,以后的步骤都在虚拟环境中进行:
conda create --name ktransformers python=3.11 #新建一个名字叫ktransformers的环境,使用python版本为3.11
conda activate ktransformers #激活并进入虚拟环境
conda install -c conda-forge libstdcxx-ng
strings ~/anaconda3/envs/ktransformers/lib/libstdc++.so.6 | grep GLIBCXX #安装并验证GLIBCXX是否包含 3.4.32版
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple #添加py源,不然下一步会很慢。
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126 #安装pytoch,特别注意pytorch版本一定要高于后面安装的一些依赖的要求版本号,否则会出问题!特别注意这里的cuda版本是12.6,请根据自己的版本安装!
pip3 install packaging ninja cpufeature numpy #ninja依赖
https://github.com/Dao-AILab/flash-attention/releases 去网页安装对应版本的flash-atten。这里有个坑,符合你cuda,python版本,并低于你安装的pytorch版本的文件中,有TRUE和FALSE两种,UP使用的是FALSE,之前用TRUE失败了
git clone https://github.com/kvcache-ai/ktransformers.git
cd ktransformers
git submodule init
git submodule update #开始Ktransformers文件git(可能需要安装git,系统会提示,或自行搜索命令)
bash install.sh #速度比较慢,安装ktransformers(这一步应该在 ./ktransformers文件夹中)
python -m ktransformers.local_chat --model_path deepseek-ai/DeepSeek-V2-Lite-Chat --gguf_path ./DeepSeek-V2-Lite-Chat-GGUF #这里设置的两个地址,一个是你放模型文件设置文件的地方,第二个是你放gguf文件的地方。