Skip to content

当我尝试用 Ai 给我写了”不可描述“的小说……

youxiaohanpian
Published date:

使用工具:

  1. open-webui:https://github.com/open-webui/open-webui
  2. T8star 收集的 json 文件
  3. ollama 最新阿里的开源大模型 qwq,现更新新模型:deepseekV3,有免费API可调用https://openrouter.ai/ 也很不错:DeepSeek V3 0324 (free) - API, Providers, Stats | OpenRouter

思路是进 open-webui 的社区安装Model,也可以自行创建,可以尝试下不同的现成的, 我选了一个NSFW的,按照建议进行设置,给ai一个json文件进行分析,然后提出写小说的要求,不断改进优化就可以得到你想要的小说了。

https://openwebui.com/models?query=writer

Image

有些很天马行空的创意和想法,我看的很欢乐 ……有合理的也有不合理的……到后面有些不适合发出来了,不过不管是自娱自乐还是技术研究都有一定的可操作性

现在讨论一些技术问题,也可以拉到最后看总结

我在本地配open-webui的时候,重复输出很多字,或者输出被截断,每个模型的表现还不太一样,当然越贵的会越好,如果我回复的很简单,到最后就会无限趋近于同一个回复

1. 重复输出很多字

可能的原因:


2. 输出被截断

可能的原因:

3. 简短回复导致输出无限趋近于同一个答案

可能的原因:

Open-WebUILLM 推理框架 (如 text-generation-webuiOllamaLM Studio )中,高精度推理通常涉及以下设置:


1. 精度模式

在 Open-WebUI 的后端(如 text-generation-webuillama-cpp-python ),可能会有以下几种精度模式:

Column 1Column 2Column 3Column 4
模式说明优点缺点
fp32 (单精度)32 位浮点计算最高精度,最稳定需要最多显存,速度较慢
bf16 (脑浮点)16 位浮点,但有更好的动态范围精度较高,速度快需要 GPU 支持(如 A100、4090)
fp16 (半精度)16 位浮点计算占用显存少,速度快可能会降低精度
int8 (量化)8 位整数计算省显存,适合低端显卡可能损失一部分质量
int4 (极端量化)4 位整数计算极致省显存,适合 CPU精度损失明显

🔹 如何设置?


2. 高精度模式可能导致的问题


3. 应该怎么做?

如果 显存充足(>=16GB) ,可以试试:

总结

之前本地跑小模型哪怕是70b的,调了很久的参数,后来发现换了Google大模型问题什么都解决了,所以还是模型被精简量化的太厉害了,要么付费买API ,要么有一个强力的电脑上强力模型,才能达到想要的效果。差距很大的,甚至可以说是老人机和智能机的区别,用完会有明显的感觉。

申明:以上仅做技术分享

Previous
Ai 绘图 · 道具篇
Next
中国风描述提示词