[2026.5.27]AI应用实践与设想需求

type

Post

status

Published

date

Oct 18, 2025

slug

ai-practice

summary

至目前的AI实践阶段性总结与设想的未来落地需求

程序设计

主用codex，cc(claude code)，可antigravity，gemini cli作2api

中转配置

关于中转站的使用方式

安装方式

cc-switch与cherry studio为桌面应用，arch linux直接aur

codex，cc可pnpm安装（现已有打包程序，优先aur直装）

pnpm add -g @anthropic-ai/claude-code
pnpm add -g @openai/codex
可选ccusage

all api hub为浏览器插件

开始使用 | All API Hub - 中转站管理器

一个开源的浏览器插件，旨在优化管理New API等AI中转站账号的体验。用户可以轻松集中管理和查看账户余额、模型及密钥，并自动添加新站点

https://all-api-hub.qixing1217.top/get-started.html

cpa可docker compose

分工

cli agent - cc | codex

gui agent - cherry studio

纯cli简单配置调整 - zcf

all api hub - 中转站管理与自动签到，api导出cherry，cc-switch使用

cc-switch - 通过代理统一供应商从而保存会话历史，统一管理cc | codex | opencode 与供应商热切换

cpa - 管理codex号池

grok2api - 管理grok号池

codex - zcf配置

codex - zcf按要求填入

基础url - 填写站点url/v1

codex - config配置

在配置文件自行写入

cc - ccr

ccr ui填写，url填写站点url/v1/messages

选择模型与转换器，填写保存后需要右上角保存

cherry-studio

填写base url，OpenAI-Response对应v1/responses（new api通常），OpenAI对应chat completion（旧版new api通常）， Anthropic对应v1/messages（cc用通常），url为base url

ccswitch

~~打开代理实现供应商提供统一的入口配置，不会因供应商更改而无法恢复先前供应商的对话~~ Codex不适用

便于切换cc，codex，opencode供应商

参考配置（仅base url，在codex配置自动为response，claude为Anthropic message）

cpa(cli-proxy-api)

codex号池 + 中转站统一网关

无感使用 - 可不更改配置

参考配置

如下接入

如出现以下情况，更换IP地区

all api hub

中转站汇总，自动签到与快捷导出至cherry studio，ccswitch，cpa

grok2api

点击导入进行token导入

部署时改端口需要改写命令，上游Dockerfile写死8000（docker ps显示8000，实为8999）

AI解释

模型选择与应用特色

国外模型

Gemini - 多模态优选（视频|音频|视觉）| 前端优选

3.1Pro - 时下没有用的意义
3.5Flash - AI Mode默认自带，简单多模态（图片翻译解析）/简单web搜索问答 - 查询快捷方便 | AI Studio原生视频转（非转文本，不依赖字幕，为切图+音频）总结笔记
Stitch - 交互式设计前端页面，直出稿

Grok - 快速较优的联网搜索

grok-4.20-multi-agent-xhigh - 多Agent并行搜索，快捷易用，可以补足CC里第三方模型web search的空白（Codex下GPT web search已显著提升，无任何配合使用交叉验证必要）

GPT - 不适宜前端与写作 | 完美的指令遵询 | 强逻辑推理 | debug优选

5.5xhigh + Codex - 除了前端与写作，稳稳接住你

Claude - 向上可GPT 向下可国模看不清定位

旧版论述

Gemini 3Pro - 详细话多的讲解 Gemini 3Pro + AI Studio - 极为便利的端到端视频理解 4.2 Beta-Grok - 联网搜索一骑绝尘 5.3 GPT-Codex - Codex - 适合xhigh解决需要多想的coding问题 4.6 Opus - Claude Code - 优秀的通用工程coding能力 4.6 Opus - 不需要纯零基础的冗余讲解时效果比较好，详略得当，GPT5.2/5.3-Codex < Gemini 3Pro < 4.6 Opus grok与gpt5.2/5.3-codex搜索效果对比，grok（自带4Agent协作）更快更好，可以作成skill与mcp让gpt/claude调用

grok与gpt5.2/5.3-codex搜索效果对比，grok（自带4Agent协作）更快更好，可以作成skill与mcp让gpt/claude调用

5.3+Cherry Studio Google搜索，5.3+自带搜索，4.2+自带搜索，5.2+自带搜索

Google搜索0个信息源相关，自带搜索5.2仅2个信息源相关，5.3仅1个信息源相关度高，4.2信息源4个相关，唯一一个返回明确数据的（核查均对得上）

国内模型

GLM - 非多模态且为编码任务且接受200k上下文能够handle handoff

5.1 thinking - mini opus，短上下文范围内编码可用

DeepSeek - 写作 | 长下文任务（工具调用频繁，如浏览器自动化）

v4 pro max - 后训练欠缺，偶发性工具调用出错，写作可以，长下文对跑多工具调用的自动化效果较好（且便宜大碗），编码偏弱，依赖于明确指令

不推荐：kimi-2.6 | mimo-2.5pro | minimax-m2.7

基本使用

prompt生成

描述预期行为，约束，案例，附件google prompt guide生成

可自行微调 Java → Python

AI Studio的视频概述

可调视频时长区间与采样fps

Codex

描述修改后工作流（格式化，语法检查，运行）让AI自行更新Agents.md，使其以后自动遵循工作流处理（CC未必完全遵循）

让AI自行启动应用，便于AI读取日志信息

SubAgent配置

也可以直接给AI会话中指定

Subagents – Codex | OpenAI Developers

Use subagents and custom agents in Codex

https://developers.openai.com/codex/subagents

Marco Hefti on Twitter / X

Codex now has fully customizable role support for sub agents. By default, spawned sub agents take the same model as the host.If you're on the Pro Plan you should definitely consider adjusting the default models and make use of spark!~/.codex/config.toml[agents.explorer]… pic.twitter.com/5KWUFpBkgK— Marco Hefti (@mheftii) February 18, 2026

https://x.com/mheftii/status/2024054619161362813

Agent Skill框架/工作流 - superpowers

GitHub - obra/superpowers: An agentic skills framework & software development methodology that works.

An agentic skills framework & software development methodology that works. - obra/superpowers

https://github.com/obra/superpowers/tree/main

5.3-codex high测试

根据过往commits推patch特性

总结确认

迁移新版本（含breaking changes）计划

更加频繁的工具调用

自动编译，测试

5.4 xhigh测试

debug + 要求继续提性能

brainstorm方向

设计概况

撰写实现计划

写设计文档

更新计划，进行测试

验证测试文件

写测试

subagent与worktree

Opus 4.6 1M max efforts

Claude（CC）指令遵循相比GPT弱很多，GPT基本百分百触发superpowers的skill，Claude（CC）难说，没试过接Codex的效果，在CC概率性触发

设计

规格文档

codex更改上下文窗口与推理thinking budget

plan_mode_reasoning_effort = "xhigh" model_context_window = 1000000

grok search mcp

codex在~/.codex/config.toml配置

CC在~/.claude.json配置

旧版论述

结合superpower校验修正文档

cherry

opencli浏览器自动化

可自动爬取推文与按语义下载网站图片（复用chrome登录态，使用时不需要关闭chrome）

图片下载

项目级skill与配置覆写

参见上图，skills放在.claude（其他.agents，起个符号链接复用一下）下，会自动加载对应skills，其下settings.local.json可覆写项目模型选择

codegraph预处理代码上下文关系

不知道是不是mcp设计描述有问题，Agent高概率在codegraph mcp调用上不成功，还是得自己补个skill配着用

TODO: LSP

/goal 自动长时间任务

可以用来 1.超出现有额度使用 2.长时间自动重试上游连接

kitty窗口Agent多开

类似浏览器tab切换

Juice值事项

不同模型无比较意义

以gpt-5.4（3.6）而言 - 稳定xhigh512，high 96

原版cherry里只能开到high，可自行二开实现调用xhigh

二开项目

可以在不深入了解相关技术栈的情况下快速进行二开，逐特性检验效果，迭代，尽可能保持新上下文，提示可能修改方向（如重叠UI，提示z-index）即可。

vicinae(C++ QT)

图片预览

多选，多个删除多个复制多个剪贴（可逆序）内容预览中的复制

spectacle

图片存储时返回file uri

cherry studio

24自用特性

grok search mcp

去除日用实际完全用不到的工具

改服务端并行查询，不依赖客户端请求方式

精简查询prompt

TODO:codegraph mcp

TODO:抽取skill （opencli | 论文 | 源码阅读）

科研积木

AI驱动的科研搭积木，对组合式创新枚举，作不同分支进行效果尝试，对表现最优的分支让AI包装模块讲故事（可结合对应md - gemini/agents/claude .md，提示重复要求 - 新配置为所有数据集添加）。

Vibe Coding

rosereader(electron)

填补linux上找不到可以infinite scrolling的epub reader空白，加入一些阅读的统计信息，自选字体，间距，更符合个人审美的预设色彩搭配，划词跳转google ai mode解释，书签与高亮，自动监听文件系统变化识别新书。

嵌套高亮与跳转提示

类似code map的搜索提示

书籍搜索

划词跳转google ai mode释意

hanasato

实现类似pinterest的瀑布流布局查看本地图片，用于选图与图片批量删除移动。

文件夹访问历史与多标签页

gallery

基本学习

给出需求场景获取方案

需求：转发服务器（无代理环境）流量到本地（代理环境） → 方案：SSH转发

设想需求

视频内容识别 - Video Grounding

找出视频包含XXX的某一帧

自动定位ost中音乐在番剧的集数与时间

游戏mod研发Agent

RimWorld Mod研发Agent - 主要在于如何实现两点：1.需要反编译得到mods（二开）与游戏代码上下文，xml（配置文件）上下文 2.对相关上下文（数十万与百万行代码库）建索引

AI白噪音音乐

添加环境背景音于指定音乐

带正面反馈/更细粒度/更灵活的推荐系统

仅从用户使用的角度出发，很诡异的一点是推荐系统，从B站，知乎，小红书到Reddit，Youtube都不存在直接正面的反馈模式，只有负面，正面反馈都只依赖于固定模式的反馈，如点赞，收藏，喜欢等，但1.点赞，收藏，喜欢等都不应直接等同于正反馈 2.不存在直接正面反馈以挑选心仪内容，调整推荐优先级等的选项，如果三种交互都不做呢？

收藏≠喜欢，收藏可以作为一种不设上限的稍后再看使用，或者仅仅一种资源收藏使用，稍后再看的不等于喜欢的，囤积的资源也不等于常看的。

点赞同样≠喜欢，比如看了一个深度学习入门的组会汇报，点赞，可以是出于对创作者指标的贡献，视频质量的认可，不等于希望这样的内容更多地出现，“我最近看了深度学习入门教程”，“为这一入门教程点了赞”，完全可以是出于欣赏这一内容，作为教程而言很优秀的行为，不等于我需要更多相关的，不等于有“在学习深度学习“的用户画像，尤其是现有推荐系统往往颗粒度稀烂，会导致1.如果需要深度学习相关内容（推荐的内容与点赞体现的相同）的情形，会出现大量的入门教程，但入门教程只需要一个两个足以，总不能天天都在入门 2.如果不处于（推荐的内容与点赞体现的不同），用户也不能控制优先级，反馈的粒度（CV，NLP细分方向，实用教程与技术观点等）

现有APP的推荐方式存在在单一方向倾向过大，欠缺多样的选择，比如知乎倾向于不同的内容，对于观点类内容，常推不同观点的回答，但回答之间的价值不是等同的，用户缺少选择，且负面反馈效果欠佳，不喜欢还推，且对于知识类（需要相似相关）的又不能保证内容的相关性了，小红书相反

租房合同AI

通过对大量租房合同进行训练，使AI可以很好地应对租房中的经典qa

识别合同中潜在的风险与成本转嫁的问题

比如家具损坏责任认定，虚假的空调开销

水电费不走民电民水

打击房东在打工人与公司之间抽取过量利益的行为

将程序自动变成portable

portable在迁移设备时方便，可以直接磁盘拷贝即可完全复制程序状态，但现有情况下，存在（主要面向win） 1.使用了注册表的程序 2.数据目录定死在APPDATA等C盘目录下等情形，实现一种AI将程序完全变成完全portable的，比如尝试将第二种里APPDATA的访问链接化，APPDATA链接到安装根目录文件夹下

视频理解时间戳自动截图与汇入内容

AI对传入的视频进行处理，能够截取出文字描述的对应时间戳，也能在对应时间戳按照格式（位置）等要求直接插入用户的添加内容

测试驱动开发 - 需求-测试用例/UT-代码实现-自动测试

通过多Agent实现这样一套研发流程

从结果出发，减少对AI的过程要求。通过I号Agent面向需求（包括产品产出的文档，UI产出的原型图，研发提出的性能指标与设计规格）设计对应的测试用例，通过II号Agent面向测试用例提供代码实现并要求通过测试用例，通过III号Agent面向实现代码进行Code Review并重测测试用例，通过IV号Agent实现自动化测试（比如Playwright等Web页面测试，相当于是最终用户与产品交互的测试）的开发流程。

MCP2APP - MCP代码转传统APP - 现可转cli实现

MCP本身带有：吃RPM，吃Token，处理时间长，不便于中断等问题，对部分简单场景(如链接中Anki MCP场景)不适宜使用，成本高效果一般，相比下更适合作确定性的APP，可以实现一个AI Agent，专门用于在现有的MCP源码基础上构建一个确定的APP，将涉及AI（往往是数据转换与生成）的部分封装为一个RPC，结合到确定性的，不涉及AI的确定性业务流程中去。

再品MCP

MCP再体验