在 RTX 4060 笔记本上运行 Qwen 3.5 9B:llama.cpp 本地部署实录
之前写了在 Fedora 44 上编译支持 CUDA 的 llama.cpp 的过程,这次记录一下用编译好的二进制运行 Qwen 3.5 9B 模型的完整经历,包括踩坑和性能测试结果。 硬件与模型 项目 配置 CPU AMD Ryzen 7 7840HS GPU NVIDIA RTX 4060 Max-Q 8GB 内存 32GB DDR5 系统 Fedora 44 (Linux 7.0.9) 模型 Qwopus3.5-9B-coder-Exp-IQ4_XS.gguf (5.2GB) 视觉投影器 mmproj.gguf (921MB) 模型是 Qwen 3.5 系列的 9B 参数编码变体,IQ4_XS 量化后体积约 5.2GB。Qwen 3.5 是混合架构,同时使用 Transformer 注意力机制和 Mamba 状态空间模型(SSM),其中只有部分层(第 3、7、11、15、19、23、27、31 层)使用完整注意力,其余为 Mamba 层。这种设计使得 KV cache 占用比纯 Transformer 模型小得多。 编译产物在 /h...
在 Fedora 44 上编译支持 CUDA 的 llama.cpp:完整指南
llama.cpp 是本地运行大模型的首选推理引擎,但官方预编译版本在 Linux 上不提供 CUDA 支持。本文记录了在 Fedora 44 系统上,使用 Toolbox 容器从源码编译支持 CUDA 13.2 的 llama.cpp 的完整过程,包括环境配置、依赖解决和性能优化。 为什么选择自己编译? 在尝试了多种方案后,我决定从源码编译 llama.cpp,主要基于以下考虑: 方案 优点 缺点 llama.cpp 预编译 免编译 官方不提供 Linux CUDA 版本 Ollama 一键安装,自动 CUDA 封装层,略重 Vulkan 后端 无需 CUDA Toolkit 性能损失约 20-30% 源码编译 性能最优,可定制 需要解决依赖问题 关键发现:llama.cpp 官方发布的 Linux 版本只有 CPU、Vulkan、ROCm 和 SYCL 后端,没有 CUDA 后端。CUDA 预编译仅限 Windows。这意味着在 Linux 上用 NVIDIA GPU 跑 llama.cpp,要么从源码编译,要么接受 Vulkan 的性能损失...
Hermes WebUI 安装与使用指南
背景 Hermes Agent 默认在终端里交互,但终端对很多人来说不够直观。hermes-webui 是社区维护的专用 Web 前端,提供流式聊天、工具调用卡片、会话管理、文件浏览等功能,是目前体验最好的 Hermes 浏览器客户端。 本文介绍 hermes-webui 的安装、配置和日常使用。 hermes-webui 是什么 先厘清三个概念: hermes-webui hermes dashboard Open WebUI 定位 专用聊天前端 内置管理面板 通用 LLM 前端 仓库 nesquena/hermes-webui 内置命令 hermes dashboard open-webui/open-webui 聊天体验 流式输出、工具卡片、Mermaid 图 嵌入式终端 TUI 通用聊天界面 Hermes 特性 工具调用卡片、审批流、子代理卡片 配置编辑、Cron、技能、日志 无(不知道 Hermes 的存在) 适合场景 日常聊天 + 工作区 管理/运维/配置 多模型对比 推荐组合:hermes-webui 负责聊天,hermes ...
Hermes Agent 使用实践:核心机制与命令技巧
Hermes Agent 是 Nous Research 开源的 AI Agent 框架,模型无关、支持多平台。和传统 AI 聊天工具不同,它具备自进化能力——用得越久,积累的技能和记忆越多。本文重点介绍其核心机制和日常使用的命令技巧。 核心机制:它凭什么"越用越聪明" Hermes 的本质可以用一句话概括:让 AI 自己进化,而不是你当保姆。 传统 AI 工具是你写规则、调参数、加技能,整个过程依赖你持续输入。Hermes 把规则的生成过程自动化——它从经验中总结规则,写进系统。你只需要用,它在使用过程中反向构建自己的结构。 这个"自进化"的核心是一个五步闭环: 记住 → 总结 → 形成技能 → 用技能 → 根据反馈再改 这个循环不是偶尔触发,而是每一轮对话结束后都会发生。你每用一次,它就复盘一次。复盘不是"记录聊天",而是"提炼经验"——只记有用的东西,还会整理结构。 三层记忆:不是"存聊天记录"那么简单 很多人以为 AI 记忆就是存聊天记录。Hermes 搞了三层结构,每层...
小米 MiMo 模型本地部署实践:从选型到踩坑
本文参考: XiaomiMiMo HuggingFace Ollama 官方文档 MiMo-7B-RL 技术报告 小米开源的 MiMo 系列模型在推理能力上表现亮眼,尤其是 MiMo-7B-RL 在数学推理任务上甚至超过了 DeepSeek R1。本文记录了在一台消费级笔记本上本地部署 MiMo 模型的完整过程,包括硬件配置分析、模型选型、部署方案对比,以及实际遇到的问题和解决方案。 硬件环境 本机配置如下: 项目 配置 OS Fedora 43 Workstation CPU x86_64 GPU NVIDIA GeForce RTX 4060 Laptop (8GB VRAM) 内存 16GB 磁盘 128GB(可用 82GB) CUDA 驱动 580.142 (CUDA 13.0) 关键限制:8GB 显存。这直接决定了能跑什么模型、用什么量化方案。 模型选型 小米 MiMo 系列开源了多个模型: 模型 参数量 类型 本地部署可行性 MiMo-7B-RL 7B 纯文本推理 ✅ 单卡可跑 MiMo-7B-RL-05...
介绍并初步使用 Hermes Agent
本文参考: Hermes Agent 官方文档 Hermes Agent GitHub 仓库 Hermes Agent 是由 Nous Research 开发的开源 AI Agent 框架,运行在终端、消息平台和 IDE 中。它属于 Claude Code(Anthropic)、Codex(OpenAI)同类的自主编码和任务执行代理,通过工具调用与系统交互。Hermes 支持任意 LLM 提供商(OpenRouter、Anthropic、OpenAI、DeepSeek、本地模型等 15+ 种),可在 Linux、macOS 和 WSL 上运行。 与其他 AI Agent 相比,Hermes Agent 有几个显著特点: 通过技能自我改进:Hermes 通过将可复用的过程保存为技能(Skills)来学习经验。当它解决复杂问题、发现工作流或被纠正时,可以将这些知识持久化为技能文档,在未来的会话中加载。技能随时间积累,使代理在特定任务和环境中表现越来越好。 跨会话持久记忆:记住你是谁、你的偏好、环境细节和经验教训。可插拔的内存后端(内置、Honcho、Mem0 等)让你选择内存...
Linux 下将浏览器缓存放到内存,并在登录登出时进行同步
如果你使用浏览器比较频繁,那么你的浏览器缓存会造成大量的磁盘 IO。想要减少磁盘 IO,保护磁盘的同时加快浏览器速度,可设置缓存使用内存。但是单纯使用内存放置浏览器缓存,会在重启后丢失缓存。所以本文使用脚本在登录登出时将缓存从内存同步回磁盘。 linux 下不同浏览器缓存位置不同: 默认 Microsoft Edge 缓存位置在 ~/.cache/microsoft-edge 默认 Google Chrome 缓存位置在 ~/.cache/google-chrome 默认 Mozilla Firefox 缓存位置在 ~/.cache/mozilla/firefox/XXXXXXXX.default-release/cache2 本文以 Microsoft Edge 浏览器为例。 Firefox 浏览器缓存位置中 XXXXXXXX 为八位因人而异的随机代码,请自行查找你缓存文件的位置。 1. 缓存同步(打包解包)脚本 首先需要安装 tar 的 lzop,根据你的发行版自行安装。 然后在你喜欢的位置建立核心脚本并添加可执行权限: 建议将脚本建立在你的用户主目录下的某个位...
Fedora 使用脚本配置国内镜像源
Fedora 默认使用 Metalink 给出推荐的镜像列表,保证用户使用的镜像仓库足够新,并且能够尽快拿到安全更新,从而提供更好的安全性。所以通常情况下使用默认配置即可,无需更改配置文件。 由于 Metalink 需要从国外的 Fedora 项目服务器上获取元信息,所以对于校园内网、无国外访问等特殊情况,metalink 并不适用,此时可以如下方法修改配置文件。 本脚本在Fedora 36 至 Fedora 39 测试通过 更改 Fedora 镜像源 Fedora 的软件源配置文件可以有多个,其中: 系统默认的 fedora 仓库配置文件为 /etc/yum.repos.d/fedora.repo,系统默认的 updates 仓库配置文件为 /etc/yum.repos.d/fedora-updates.repo。此外还有相应的 modular 仓库。 备份文件 将仓库配置文件备份到 /etc/yum.repos.d/backup 文件夹下。 123456cd /etc/yum.repos.d/sudo mkdir backup/sudo cp fedora.repo b...
在 Fedora server 39 中纯手动部署 Nextcloud
本文参考: Nextcloud Installation and server configuration 本文主要演示了如何使用 Fedora Server 部署 LAMP 和 Nextcloud。搭建一个私人云。NextCloud 是一款开源免费的私有云存储网盘项目。网上的教程大多是使用宝塔面板或者各种脚本傻瓜式部署的方法。对于我这种追求清真的人不能接受。本文演示了纯手动部署 Nextcloud 的方法。 本文主要参考的是 Nextcloud 的官方文档。本人求新求快,追求对最新设备的支持,所以选择的是 Fedora Server。但是其他 rpm 系的部署方法应当与本文类似。 环境准备 部署 Nextcloud 需要先搭建 LAMP 环境。LAMP 即 Linux + Apache + Mysql/Mariadb + PHP。由于 Fedora 的软件仓库源足够的全面,并且相对较新。本文搭建环境全部从软件源中获取,无需另外下载编译。 从源中安装环境 使用下面的命令安装环境: 开始安装之前,建议先启用 rpmfusion 源。 1sudo dnf install...
使用 shell 脚本和 systemd 定时替换 Gnome 壁纸
本文参考: 定时替换 Gnome 壁纸 Gnome 的壁纸更换功能需要自己编写 2 个 xml 文件,xml 文件要手动将所有图片的地址写进去非常的麻烦。虽然 Gnome 下也有不少 Extensions 可以做到更换壁纸的效果,但是总体而言并不好用。 换壁纸的思路 使用 find 命令生成包含所有图片地址的列表。 从列表中随机挑选一张图片。 使用 gsettings 设置壁纸。 使用 systemd 定期执行脚本。 Bash 脚本 首先写一个 Bash 脚本,实现更换壁纸的目的,同时为了响应速度和硬盘寿命着想,所有相关文件都保存在 $XDG_RUNTIME_DIR。 $XDG_RUNTIME_DIR 是一个变量,后面将使用 systemd 传入你存放壁纸文件夹的路径这个变量。 生成地址列表 查找 $1 下面的图片,并且生成列表到 $XDG_RUNTIME_DIR/bg_db,如果已经生成过不需要重复生成。 123if [[ ! -f "${XDG_RUNTIME_DIR}/bg_db" ]]; then ...









