无妄当自持

在 RTX 4060 Laptop（8GB 显存）笔记本上部署 Qwen3.5-4B 和 Qwopus3.5-9B-Coder 的完整实战

发表于2026-06-18|技术分享

2026 年上半年，阿里发布了 Qwen3.5 系列模型，社区也涌现了不少基于它的微调版本。我在 RTX 4060 Laptop（8GB 显存）笔记本上用 llama.cpp 部署了 Qwen3.5-4B 和 Qwopus3.5-9B-Coder 两个模型，测试了 64K 上下文的实际表现。这篇文章整理从选型、配置到性能测试的完整过程。硬件环境组件规格 CPU i7-12650H（16 线程） RAM 15 GiB GPU RTX 4060 Laptop（8GB VRAM，compute 8.9） llama.cpp build 1，CUDA 后端模型选择两个目标：一个轻量模型做日常问答，一个专用模型做代码生成。 Qwen3.5-4B 阿里巴巴于 2026 年 2 月发布，Apache 2.0 协议。核心特点： 4B 参数，Dense 架构采用 Gated Delta Networks + Gated Attention 混合架构，具体为 8×(3×DeltaNet→FFN→1×Attention→FFN) 32 层，hidden_...

给 Hermes Agent 接入 Sciverse：5 分钟搞定学术搜索 MCP

发表于2026-06-18|技术分享

背景日常做急诊医学研究，需要频繁检索文献。之前一直靠浏览器打开 PubMed、Google Scholar 手动搜索，再把摘要粘贴给 AI 分析。这个流程重复且低效——如果 AI Agent 能直接调用学术数据库的 API，搜索 + 阅读 + 整理一步到位，体验会好很多。 Sciverse 是 OpenDataLab 推出的学术检索平台，号称覆盖 5.16 亿条知识记录、814 种语言、130 万+ 期刊和会议。它提供了一个标准的 MCP Server，理论上任何支持 MCP 的 AI Agent 都能直接接入。本文记录将 Sciverse MCP Server 接入 Hermes Agent 的完整过程，以及踩过的坑。 Sciverse 是什么 Sciverse 不只是学术搜索引擎，它是一个面向 AI Agent 的学术数据基础设施，包含三条产品线：产品定位数据规模 Sciverse 科学文献检索与元数据搜索 5.16 亿条知识记录，130 万+ 期刊 DianShi（点石）化学检索与逆合成 RAG 数千万化合物，数亿反应，数百万专利 Seq...

MinerU：让 AI Agent 读懂 PDF 的文档提取利器

发表于2026-06-18|技术分享

MinerU：让 AI Agent 读懂 PDF 的文档提取利器在 AI 时代，高质量的数据是模型训练的基石。而 PDF 文档由于其排版复杂（多栏、表格、公式、图片交叉），一直是数据清洗中的"硬骨头"。MinerU 是由上海人工智能实验室 OpenDataLab 团队推出的开源智能数据提取工具，专注于复杂 PDF 文档的高效解析与提取。什么是 MinerU MinerU 是一个完整的 document AI 引擎，能够将包含图片、公式、表格等元素的多模态 PDF 文档转化为易于分析的 Markdown 格式。它支持从网页和电子书中提取内容，提高 AI 语料准备效率。核心特性高精度解析：VLM+OCR 双引擎，支持复杂布局分析多格式支持：PDF、Word、PPT、Excel、图片、HTML、网页多语言支持：109 种语言，包括中日韩、阿拉伯语、泰语等双模式提取： flash-extract：快速模式，无需 token，适合小文件 extract：高精度模式，需要 token，支持大文件和批量处理技术架构 MinerU 的核心能力包括：...

用 Firecrawl + SearXNG 给 Hermes Agent 搭建本地搜索与网页抓取

发表于2026-06-02|技术分享

用 Hermes Agent 做本地 AI 助手，网页搜索和内容抓取是刚需。SearXNG 负责聚合多引擎搜索，Firecrawl 负责 JS 渲染抓取，两者用 Docker Compose 一键部署，通过 127.0.0.1:3002 暴露给 Hermes Agent 直连。为什么需要两层？直接上结论——单用 SearXNG 搜不到动态渲染页面的内容，单用 Firecrawl 的搜索功能又依赖外部服务。组合起来：能力 SearXNG Firecrawl 聚合搜索 ✓ ✓ (通过 SearXNG) JS 渲染抓取 ✗ ✓ (Playwright) 批量爬取 ✗ ✓ 结构化提取 ✗ ✓ 架构 123456789Hermes Agent ├── web_search → Firecrawl API (127.0.0.1:3002/v2/search) │ └── SearXNG (容器内 searxng:8080) │ ├── Google (走代理) ...

让服务器的 AI 读写你的 Obsidian 笔记库：从自建同步到 MCP 集成

发表于2026-06-02|技术分享

我的主力笔记工具是 Obsidian，本地通过插件直接管理文件，体验很好。但有一个问题：服务器上跑着 AI Agent（Hermes），它需要读写我的笔记库，而 Linux 服务器装不了 Obsidian 桌面客户端。Fast Note Sync 的 MCP 接口解决了这个问题——AI Agent 通过 MCP 协议直接操作笔记，本地依然用 Obsidian 管理，数据在两端实时同步。两条路径，一个笔记库整套方案的逻辑很简单： 1234567本地（有 Obsidian）服务器（无 Obsidian） ↓ ↓Obsidian + FNS 插件 AI Agent (Hermes) ↓ WebSocket ↓ MCP 协议Fast Note Sync Service (NAS, Docker) ↓ SQLite本地存储本地通过 Obsidian 客户端直接管理笔记，实时同步到服务端。服务器上的 AI Agent 通过 MCP 协议读写同...

在 RTX 4060 笔记本上运行 Qwen 3.5 9B：llama.cpp 本地部署实录

发表于2026-05-24|技术分享

之前写了在 Fedora 44 上编译支持 CUDA 的 llama.cpp 的过程，这次记录一下用编译好的二进制运行 Qwen 3.5 9B 模型的完整经历，包括踩坑和性能测试结果。硬件与模型项目配置 CPU AMD Ryzen 7 7840HS GPU NVIDIA RTX 4060 Max-Q 8GB 内存 32GB DDR5 系统 Fedora 44 (Linux 7.0.9) 模型 Qwopus3.5-9B-coder-Exp-IQ4_XS.gguf (5.2GB) 视觉投影器 mmproj.gguf (921MB) 模型是 Qwen 3.5 系列的 9B 参数编码变体，IQ4_XS 量化后体积约 5.2GB。Qwen 3.5 是混合架构，同时使用 Transformer 注意力机制和 Mamba 状态空间模型（SSM），其中只有部分层（第 3、7、11、15、19、23、27、31 层）使用完整注意力，其余为 Mamba 层。这种设计使得 KV cache 占用比纯 Transformer 模型小得多。编译产物在 /h...

在 Fedora 44 上编译支持 CUDA 的 llama.cpp：完整指南

发表于2026-05-24|技术分享

llama.cpp 是本地运行大模型的首选推理引擎，但官方预编译版本在 Linux 上不提供 CUDA 支持。本文记录了在 Fedora 44 系统上，使用 Toolbox 容器从源码编译支持 CUDA 13.2 的 llama.cpp 的完整过程，包括环境配置、依赖解决和性能优化。为什么选择自己编译？在尝试了多种方案后，我决定从源码编译 llama.cpp，主要基于以下考虑：方案优点缺点 llama.cpp 预编译免编译官方不提供 Linux CUDA 版本 Ollama 一键安装，自动 CUDA 封装层，略重 Vulkan 后端无需 CUDA Toolkit 性能损失约 20-30% 源码编译性能最优，可定制需要解决依赖问题关键发现：llama.cpp 官方发布的 Linux 版本只有 CPU、Vulkan、ROCm 和 SYCL 后端，没有 CUDA 后端。CUDA 预编译仅限 Windows。这意味着在 Linux 上用 NVIDIA GPU 跑 llama.cpp，要么从源码编译，要么接受 Vulkan 的性能损失...

Hermes WebUI 安装与使用指南

发表于2026-05-24|技术分享

背景 Hermes Agent 默认在终端里交互，但终端对很多人来说不够直观。hermes-webui 是社区维护的专用 Web 前端，提供流式聊天、工具调用卡片、会话管理、文件浏览等功能，是目前体验最好的 Hermes 浏览器客户端。本文介绍 hermes-webui 的安装、配置和日常使用。 hermes-webui 是什么先厘清三个概念： hermes-webui hermes dashboard Open WebUI 定位专用聊天前端内置管理面板通用 LLM 前端仓库 nesquena/hermes-webui 内置命令 hermes dashboard open-webui/open-webui 聊天体验流式输出、工具卡片、Mermaid 图嵌入式终端 TUI 通用聊天界面 Hermes 特性工具调用卡片、审批流、子代理卡片配置编辑、Cron、技能、日志无（不知道 Hermes 的存在）适合场景日常聊天 + 工作区管理/运维/配置多模型对比推荐组合：hermes-webui 负责聊天，hermes ...

Hermes Agent 使用实践：核心机制与命令技巧

发表于2026-05-18|技术分享

Hermes Agent 是 Nous Research 开源的 AI Agent 框架，模型无关、支持多平台。和传统 AI 聊天工具不同，它具备自进化能力——用得越久，积累的技能和记忆越多。本文重点介绍其核心机制和日常使用的命令技巧。核心机制：它凭什么"越用越聪明" Hermes 的本质可以用一句话概括：让 AI 自己进化，而不是你当保姆。传统 AI 工具是你写规则、调参数、加技能，整个过程依赖你持续输入。Hermes 把规则的生成过程自动化——它从经验中总结规则，写进系统。你只需要用，它在使用过程中反向构建自己的结构。这个"自进化"的核心是一个五步闭环：记住 → 总结 → 形成技能 → 用技能 → 根据反馈再改这个循环不是偶尔触发，而是每一轮对话结束后都会发生。你每用一次，它就复盘一次。复盘不是"记录聊天"，而是"提炼经验"——只记有用的东西，还会整理结构。三层记忆：不是"存聊天记录"那么简单很多人以为 AI 记忆就是存聊天记录。Hermes 搞了三层结构，每层...

小米 MiMo 模型本地部署实践：从选型到踩坑

发表于2026-05-06|技术分享

本文参考： XiaomiMiMo HuggingFace Ollama 官方文档 MiMo-7B-RL 技术报告小米开源的 MiMo 系列模型在推理能力上表现亮眼，尤其是 MiMo-7B-RL 在数学推理任务上甚至超过了 DeepSeek R1。本文记录了在一台消费级笔记本上本地部署 MiMo 模型的完整过程，包括硬件配置分析、模型选型、部署方案对比，以及实际遇到的问题和解决方案。硬件环境本机配置如下：项目配置 OS Fedora 43 Workstation CPU x86_64 GPU NVIDIA GeForce RTX 4060 Laptop (8GB VRAM) 内存 16GB 磁盘 128GB（可用 82GB） CUDA 驱动 580.142 (CUDA 13.0) 关键限制：8GB 显存。这直接决定了能跑什么模型、用什么量化方案。模型选型小米 MiMo 系列开源了多个模型：模型参数量类型本地部署可行性 MiMo-7B-RL 7B 纯文本推理 ✅ 单卡可跑 MiMo-7B-RL-05...