type
Post
status
Published
date
Oct 18, 2025
slug
ai-practice
summary
至目前的AI实践阶段性总结与设想的未来落地需求
tags
开发
category
技术分享
titleIcon
password
icon
insider
至目前的AI实践阶段性总结与设想的未来落地需求

全文所有方法均以Linux(Arch)为准
程序设计
- 主用codex,cc(claude code),可antigravity,gemini cli作2api




中转配置
- 关于中转站的使用方式
安装方式
- cc-switch与cherry studio为桌面应用,arch linux直接aur
- codex,cc可pnpm安装(现已有打包程序,优先aur直装)
- pnpm add -g @anthropic-ai/claude-code
- pnpm add -g @openai/codex
- 可选ccusage
- all api hub为浏览器插件
- cpa可docker compose
分工
- cli agent - cc | codex
- gui agent - cherry studio
- 纯cli简单配置调整 - zcf
- all api hub - 中转站管理与自动签到,api导出cherry,cc-switch使用
- cc-switch - 通过代理统一供应商从而保存会话历史,统一管理cc | codex | opencode 与供应商热切换
- cpa - 管理codex号池
- grok2api - 管理grok号池
codex - zcf配置
- codex - zcf按要求填入

- 基础url - 填写站点url/v1

codex - config配置
- 在配置文件自行写入

cc - ccr
- ccr ui填写,url填写站点url/v1/messages

- 选择模型与转换器,填写保存后需要右上角保存

cherry-studio
- 填写base url,OpenAI-Response对应v1/responses(new api通常),OpenAI对应chat completion(旧版new api通常), Anthropic对应v1/messages(cc用 通常),url为base url

ccswitch
打开代理实现供应商提供统一的入口配置,不会因供应商更改而无法恢复先前供应商的对话Codex不适用
- 便于切换cc,codex,opencode供应商
- 参考配置(仅base url,在codex配置自动为response,claude为Anthropic message)

cpa(cli-proxy-api)
- codex号池 + 中转站 统一网关
- 无感使用 - 可不更改配置
- 参考配置

- 如下接入

- 如出现以下情况,更换IP地区

all api hub
- 中转站汇总,自动签到与快捷导出至cherry studio,ccswitch,cpa


grok2api
- 点击导入进行token导入

- 部署时改端口需要改写命令,上游Dockerfile写死8000(docker ps显示8000,实为8999)

- AI解释

模型选择与应用特色
国外模型
- Gemini - 多模态优选(视频|音频|视觉)| 前端优选
- 3.1Pro - 时下没有用的意义
- 3.5Flash - AI Mode默认自带,简单多模态(图片翻译解析)/简单web搜索问答 - 查询快捷方便 | AI Studio原生视频转(非转文本,不依赖字幕,为切图+音频)总结笔记
- Stitch - 交互式设计前端页面,直出稿
- Grok - 快速较优的联网搜索
- grok-4.20-multi-agent-xhigh - 多Agent并行搜索,快捷易用,可以补足CC里第三方模型web search的空白(Codex下GPT web search已显著提升,无任何配合使用交叉验证必要)
- GPT - 不适宜前端与写作 | 完美的指令遵询 | 强逻辑推理 | debug优选
- 5.5xhigh + Codex - 除了前端与写作,稳稳接住你
- Claude - 向上可GPT 向下可国模 看不清定位
旧版论述
Gemini 3Pro - 详细话多的讲解
Gemini 3Pro + AI Studio - 极为便利的端到端视频理解
4.2 Beta-Grok - 联网搜索一骑绝尘
5.3 GPT-Codex - Codex - 适合xhigh解决需要多想的coding问题
4.6 Opus - Claude Code - 优秀的通用工程coding能力
4.6 Opus - 不需要纯零基础的冗余讲解时效果比较好,详略得当,GPT5.2/5.3-Codex < Gemini 3Pro < 4.6 Opus
grok与gpt5.2/5.3-codex搜索效果对比,grok(自带4Agent协作)更快更好,可以作成skill与mcp让gpt/claude调用
- grok与gpt5.2/5.3-codex搜索效果对比,grok(自带4Agent协作)更快更好,可以作成skill与mcp让gpt/claude调用

- 5.3+Cherry Studio Google搜索,5.3+自带搜索,4.2+自带搜索,5.2+自带搜索
- Google搜索0个信息源相关,自带搜索5.2仅2个信息源相关,5.3仅1个信息源相关度高,4.2信息源4个相关,唯一一个返回明确数据的(核查均对得上)



国内模型
- GLM - 非多模态且为编码任务且接受200k上下文能够handle handoff
- 5.1 thinking - mini opus,短上下文范围内编码可用
- DeepSeek - 写作 | 长下文任务(工具调用频繁,如浏览器自动化)
- v4 pro max - 后训练欠缺,偶发性工具调用出错,写作可以,长下文对跑多工具调用的自动化效果较好(且便宜大碗),编码偏弱,依赖于明确指令
- 不推荐:kimi-2.6 | mimo-2.5pro | minimax-m2.7
基本使用
prompt生成
- 描述预期行为,约束,案例,附件google prompt guide生成

- 可自行微调 Java → Python




AI Studio的视频概述
- 可调视频时长区间与采样fps


Codex
- 描述修改后工作流(格式化,语法检查,运行)让AI自行更新Agents.md,使其以后自动遵循工作流处理(CC未必完全遵循)

- 让AI自行启动应用,便于AI读取日志信息

SubAgent配置
- 也可以直接给AI会话中指定
Agent Skill框架/工作流 - superpowers
- 5.3-codex high测试
- 根据过往commits推patch特性

- 总结确认

- 迁移新版本(含breaking changes)计划

- 更加频繁的工具调用

- 自动编译,测试

- 5.4 xhigh测试
- debug + 要求继续提性能


- brainstorm方向

- 设计概况


- 撰写实现计划


- 写设计文档



- 更新计划,进行测试


- 验证测试文件



- 写测试


- subagent与worktree



Opus 4.6 1M max efforts
- Claude(CC)指令遵循相比GPT弱很多,GPT基本百分百触发superpowers的skill,Claude(CC)难说,没试过接Codex的效果,在CC概率性触发

- 设计


- 规格文档

codex更改上下文窗口与推理thinking budget
plan_mode_reasoning_effort = "xhigh"
model_context_window = 1000000

grok search mcp
- codex在~/.codex/config.toml配置
- CC在~/.claude.json配置




旧版论述



- 结合superpower校验修正文档






- cherry




opencli浏览器自动化
- 可自动爬取推文与按语义下载网站图片(复用chrome登录态,使用时不需要关闭chrome)

- 图片下载


项目级skill与配置覆写
- 参见上图,skills放在.claude(其他.agents,起个符号链接复用一下)下,会自动加载对应skills,其下settings.local.json可覆写项目模型选择
codegraph预处理代码上下文关系
- 不知道是不是mcp设计描述有问题,Agent高概率在codegraph mcp调用上不成功,还是得自己补个skill配着用
TODO: LSP
/goal 自动长时间任务
- 可以用来 1.超出现有额度使用 2.长时间自动重试上游连接

kitty窗口Agent多开
- 类似浏览器tab切换

Juice值事项
- 不同模型无比较意义
- 以gpt-5.4(3.6)而言 - 稳定xhigh512,high 96
原版cherry里只能开到high,可自行二开实现调用xhigh





二开项目
- 可以在不深入了解相关技术栈的情况下快速进行二开,逐特性检验效果,迭代,尽可能保持新上下文,提示可能修改方向(如重叠UI,提示z-index)即可。
vicinae(C++ QT)
- 图片预览

- 多选,多个删除 多个复制 多个剪贴(可逆序) 内容预览中的复制

spectacle
- 图片存储时返回file uri
cherry studio


24自用特性
grok search mcp
- 去除日用实际完全用不到的工具
- 改服务端并行查询,不依赖客户端请求方式
- 精简查询prompt
TODO:codegraph mcp
TODO:抽取skill (opencli | 论文 | 源码阅读)
科研积木
- AI驱动的科研搭积木,对组合式创新枚举,作不同分支进行效果尝试,对表现最优的分支让AI包装模块讲故事(可结合对应md - gemini/agents/claude .md,提示重复要求 - 新配置为所有数据集添加)。


Vibe Coding
rosereader(electron)
- 填补linux上找不到可以infinite scrolling的epub reader空白,加入一些阅读的统计信息,自选字体,间距,更符合个人审美的预设色彩搭配,划词跳转google ai mode解释,书签与高亮,自动监听文件系统变化识别新书。



- 嵌套高亮与跳转提示

- 类似code map的搜索提示

- 书籍搜索

- 划词跳转google ai mode释意


hanasato
- 实现类似pinterest的瀑布流布局查看本地图片,用于选图与图片批量删除移动。


- 文件夹访问历史与多标签页


- gallery


基本学习
- 给出需求场景获取方案
- 需求:转发服务器(无代理环境)流量到本地(代理环境) → 方案:SSH转发


设想需求
视频内容识别 - Video Grounding
- 找出视频包含XXX的某一帧
- 自动定位ost中音乐在番剧的集数与时间
游戏mod研发Agent
- RimWorld Mod研发Agent - 主要在于如何实现两点:1.需要反编译得到mods(二开)与游戏代码上下文,xml(配置文件)上下文 2.对相关上下文(数十万与百万行代码库)建索引
AI白噪音音乐
- 添加环境背景音于指定音乐
带正面反馈/更细粒度/更灵活的推荐系统
- 仅从用户使用的角度出发,很诡异的一点是推荐系统,从B站,知乎,小红书到Reddit,Youtube都不存在直接正面的反馈模式,只有负面,正面反馈都只依赖于固定模式的反馈,如点赞,收藏,喜欢等,但1.点赞,收藏,喜欢等都不应直接等同于正反馈 2.不存在直接正面反馈以挑选心仪内容,调整推荐优先级等的选项,如果三种交互都不做呢?
- 收藏≠喜欢,收藏可以作为一种不设上限的稍后再看使用,或者仅仅一种资源收藏使用,稍后再看的不等于喜欢的,囤积的资源也不等于常看的。
- 点赞同样≠喜欢,比如看了一个深度学习入门的组会汇报,点赞,可以是出于对创作者指标的贡献,视频质量的认可,不等于希望这样的内容更多地出现,“我最近看了深度学习入门教程”,“为这一入门教程点了赞”,完全可以是出于欣赏这一内容,作为教程而言很优秀的行为,不等于我需要更多相关的,不等于有“在学习深度学习“的用户画像,尤其是现有推荐系统往往颗粒度稀烂,会导致1.如果需要深度学习相关内容(推荐的内容与点赞体现的相同)的情形,会出现大量的入门教程,但入门教程只需要一个两个足以,总不能天天都在入门 2.如果不处于(推荐的内容与点赞体现的不同),用户也不能控制优先级,反馈的粒度(CV,NLP细分方向,实用教程与技术观点等)
- 现有APP的推荐方式存在在单一方向倾向过大,欠缺多样的选择,比如知乎倾向于不同的内容,对于观点类内容,常推不同观点的回答,但回答之间的价值不是等同的,用户缺少选择,且负面反馈效果欠佳,不喜欢还推,且对于知识类(需要相似相关)的又不能保证内容的相关性了,小红书相反
租房合同AI
- 通过对大量租房合同进行训练,使AI可以很好地应对租房中的经典qa
- 识别合同中潜在的风险与成本转嫁的问题
- 比如家具损坏责任认定,虚假的空调开销
- 水电费不走民电民水
- 打击房东在打工人与公司之间抽取过量利益的行为
将程序自动变成portable
- portable在迁移设备时方便,可以直接磁盘拷贝即可完全复制程序状态,但现有情况下,存在(主要面向win) 1.使用了注册表的程序 2.数据目录定死在APPDATA等C盘目录下 等情形,实现一种AI将程序完全变成完全portable的,比如尝试将第二种里APPDATA的访问链接化,APPDATA链接到安装根目录文件夹下
视频理解时间戳自动截图与汇入内容
- AI对传入的视频进行处理,能够截取出文字描述的对应时间戳,也能在对应时间戳按照格式(位置)等要求直接插入用户的添加内容
测试驱动开发 - 需求-测试用例/UT-代码实现-自动测试
- 通过多Agent实现这样一套研发流程
- 从结果出发,减少对AI的过程要求。通过I号Agent面向需求(包括产品产出的文档,UI产出的原型图,研发提出的性能指标与设计规格)设计对应的测试用例,通过II号Agent面向测试用例提供代码实现并要求通过测试用例,通过III号Agent面向实现代码进行Code Review并重测测试用例,通过IV号Agent实现自动化测试(比如Playwright等Web页面测试,相当于是最终用户与产品交互的测试)的开发流程。
MCP2APP - MCP代码转传统APP - 现可转cli实现
- MCP本身带有:吃RPM,吃Token,处理时间长,不便于中断等问题,对部分简单场景(如链接中Anki MCP场景)不适宜使用,成本高效果一般,相比下更适合作确定性的APP,可以实现一个AI Agent,专门用于在现有的MCP源码基础上构建一个确定的APP,将涉及AI(往往是数据转换与生成)的部分封装为一个RPC,结合到确定性的,不涉及AI的确定性业务流程中去。
AI逆向(bushi)
- 只要逆向功底高,一切都是开源的
- 续更:已经是烂大街的用途,AI逆向屡见不鲜,通过claude出计划,让gpt根据计划执行,绕开gpt的审查
- 二次续更:修改拒绝记忆
Context Learning
- 在用户交互的上下文中实时学习
- 通过MD存储
对抗现有学习经验的应用场景
- 对抗现有LLM经验的需求Agent(面向药效训练的LLM添加盈利的维度,A方案药效更优,B方案有回扣,如何衡量,如何自行动态分层给低端一套高端一套)
监听Git Commit触发HF Space的factory rebuild
- 对于HF Space多以Dockerfile的方式部署,没有像Vercel或Netlify上的新Commit触发部署更新,需要一个单独的APP实现,考虑上用Github Action在提交后Hook里进行HF Space的factory rebuild更新部署
带Prompt优化的基本交互工作流
- 虽然对于如Gemini2.5Pro这样的优秀模型而言,直接简单的一句话已经可以解决相当部分任务,但实践上,仅通过简单将Google自家的Prompt Guide丢进去让AI对用户描述(简单一句话)生成对应的Prompt再去执行任务,效果表现仍有相当明显的提升,可以将这一流程作为一个基本的交互块
- 下方案例里通过AI Studio用户输入,提供一个输入数据参考格式的例子和任务目标(通过MCP实现Anki自动制卡)
- 生成对应Prompt,将其放入Cherry Studio的助手Prompt里,往后直接CV输入数据,然后自行制卡

长上下文
- 模型能力(见Anthropic Opus4.6 1M捞针表现) + 对话压缩(见Codex) + Sub Agent编排任务(可参考oh my opencode) + 外置md/db存储(参考拓展阅读Claude Code治理)
元信息知识库
- 让模型在对anki制卡时,自行提醒(想到)日语字体的问题
参考:
- 参见二语习得文章
启发式交互
- 对于真正了解甚少的领域而言,用户是不能进行“提问“的,提问的前提是已经有一定的基础了解,至少知道该问什么,模型应该能实现一种树状的启发式的会话,用户给出某一个名词,模型逐步迭代从这个名词能延伸到的地方。
- 续更:GPT 5.3-codex,5.4有关倾向表现明显
视频审核
指出指定时间段不过审理由
提前学习
- 用于沉浸式学习方案,在观看视频前提前进行学习:
- 抽取视频文本
- 拆句(词汇/俚语/语法与固定(习惯)搭配/动词变形/游戏限定剧情上下文)
- 制卡(理想情况应该能把片段拆下来)
- 难点在于拆句的粒度 | 如何同时将片段也对应拆下来

魅力时刻
拓展阅读
TODO:
AI Studio 视频改阅读材料 Prompt
Auto Research 迭代 Skill - 相当不稳定,对不容易闭环验证,主观评价无法量化的不适宜
二语习得
旧有论述
模型选择与提词
- 选择世界知识较好的gemini 3flash
- 简单有效




语言学习
二语习得
其他语言的提示词制作
- 描述需要的元素(如词汇释义,语法解析,变形过程,拓展使用)与场景,贴上如下prompt 101文件,要求AI生成符合要求的提示词,可以达到结构化输出效果
工具使用 - notion
- 善用kde spectacle的截取活动窗口,不需要选中任何区域一键截取,减少中断时间,但截取有一定延迟,尽量不选取快切换句子的时候截图,可以使用截取矩形区域兜底(需手动选择区域)。
- 对已经熟悉但需要复习的,可以截图后批量反序粘贴(linux自行二开vicinae,win使用ditto)至notion。
- 仅存取图片,类似用作anki卡片正面。

工具使用 - ai studio
- 目前砍配额很严重,进一步使用需要cherry studio配合中转站,需支持视觉的模型调用。
- 在右边system instructions填入prompt,往后只粘贴图片(可填写名字实现存储,但只存于浏览器本地)


工具使用 - cherry studio
- 在助手处编辑,添加提示词


JP示例 - 日英释义
- 参考提示词
- 输入仅剪贴图片

- 整体释义与假名注音汉字

- 词汇释义 + 语法拆解 + 固定用语

- 拓展练习

- cherry studio案例




EN示例 - 英英释义
- 参考提示词
- 仅剪贴文本,此处在多文本中指明仅一处需释义

- 固定用语

- 替换

最佳实践
- Google AI Mode,快捷便利,效果够好,不需prompt,四字直出,一应俱全




AI驱动Linux系统
Codex APP
- 可进行重命名操作,在vscode插件与cli均可见



Claude Desktop
- 如下设置第三方API




源码指导的AGENTS.md的设计思路
TODO
以源码指导AGENTS.md
留痕与可观测

diff

subagent并行交叉验证


调研任务效果
- 子Agent调研占用(原则上可以多子Agent并行分方向调研,但容易429)

- 最终维护的进展兼结果留痕文档

- 主Agent最终占用

- 子Agent调研过程(反序)





- CC子Agent调研(自带的Explore)

非Anthropic格式接入CC
- 如果没有Anthropic格式支持可以ccswitch转一下

- 参考配置


- 由于外接模型不支持CC web search(仅官key支持),无web search可以通过grok search mcp(tavily/firecrawl)补一下





- glm不支持多模态,需要视觉MCP

![[2026.5.27]AI应用实践与设想需求](https://www.notion.so/image/attachment%3A5c5a5044-9013-4d90-a6a7-8cd5baadaed1%3A%E5%9B%BE%E7%89%87.png?table=block&id=290ca147-5df8-8072-bf3f-c5d758212bcc&t=290ca147-5df8-8072-bf3f-c5d758212bcc)






![[2026.4.22]CachyOS调校历程 | CamelliaV の BLOG](https://www.notion.so/image/attachment%3A76369e3c-58f3-4acb-951f-4bd2a6546a51%3A114518297_p0.png?table=block&id=2c1ca147-5df8-8010-b740-d61e13162107&t=2c1ca147-5df8-8010-b740-d61e13162107&t=34eca147-5df8-8038-8b36-c0b629036738)