线上免费模型汇总

平台名称	所属公司	可白嫖模型	免费额度	特色功能 / 注意事项
硅基流动	-	DeepSeek R1（671B 满血版）	注册送 2000 万 Token，邀请好友双方各得 2000 万 Token	支持网页版和 API 接入 ChatBox，输出费用较高（16 元 / 百万 Token）
火山引擎	字节跳动	DeepSeek R1（671B）、DeepSeek V3（满血版）	新用户每个模型送 50 万 Token，邀请新用户送 30 元代金券（约 750 万 Token）	需实名认证，API 接入流程较复杂，支持联网搜索和多模型接入，目前使用人数较少，服务流畅。
阿里云百炼	阿里巴巴	近乎所有大语言模型（含 DeepSeek）	每个模型免费送 100 万 Token	支持 Web 访问和 API 接入，需开通模型部署，适合企业级场景，资源稳定性较高。
腾讯元宝	腾讯	DeepSeek 大模型	提问免费（不消耗 Token），无 API 服务	支持联网搜索和 AI Agent 创建，可通过提示词定制工具，但功能偏轻量化，适合普通用户日常使用。
问小白	元石科技	DeepSeek 多模态模型	提问免费（不消耗 Token）	首个支持 DeepSeek 多模态的产品，可展开联网搜索文档，适合精确搜索和多模态内容需求（如图文分析）。
纳米 AI 搜索	360	DeepSeek 大模型 + 联网搜索能力	搜索功能免费（不消耗 Token）	结合 360 亿级网页索引和学术论文库，适合学术研究和实时信息整合，搜索结果时效性强。
知乎直答	知乎	DeepSeek + 知乎问答知识库	提问免费（不消耗 Token）	依托知乎社区内容，擅长科技、学术类深度问答，回答兼具专业性和社区讨论视角。
国家超算互联网	科技部牵头	DeepSeek 7B/14B/32B 等版本	免费使用 3 个月 DeepSeek API 接口	政府主导的公共平台，无需复杂部署，适合科研机构和个人开发者短期使用，需通过官方渠道申请。
秘塔 AI 搜索	-	DeepSeek 大模型（“长思考 - R1” 模式）	搜索功能免费（不消耗 Token）	提供 “简洁 / 深入 / 研究” 三种模式，研究模式支持 “先搜后扩”“先扩后搜”，内容整合更全面，适合需要深度分析的场景。

平台	输入费用	输出费用	免费额度
硅基流动	4 元 / 百万 token	16 元 / 百万 token	注册送 2000 万 token，邀请好友双方各得 2000 万 token12
百度千帆	2 元 / 百万 token	8 元 / 百万 token	无明确提及长期免费额度，曾有免费使用至 2025 年 2 月 18 日的活动12
火山方舟	2 元 / 百万 token	8 元 / 百万 token	新用户每个模型赠送 50 万 token12

表格说明：

免费额度对比 ：硅基流动和火山引擎以 Token 形式赠送额度，腾讯 / 问小白等平台直接免费提问，国家超算平台提供固定期限免费 API。
功能差异 ：部分平台（如火山引擎、阿里云）需技术接入，适合开发者；腾讯 / 知乎等平台更侧重 C 端用户体验，操作简单。
注意事项 ：百度千帆曾有免费至 2025 年 2 月 18 日的活动，但当前教程未更新后续政策，表格暂未列入，建议使用前确认最新规则。

本地免费模型

https://ollama.com/SIGJNF/deepseek-r1-671b-1.58bit 671B 参数模型的动态 1.58 位量化版本（压缩至仅 131GB）满血版的蒸馏模型 https://ollama.com/huihui_ai/deepseek-r1-abliterated:7b 破限版 https://ollama.com/huanlin/Tifa-Deepsex-14b-CoT-GGUF-Q4 NFWS模型 https://ollama.com/krith/llama-3.3-70b-instruct:IQ1_M 70b的蒸馏17G https://ollama.com/krith/meta-llama-3.1-70b-instruct-abliterated 70b的蒸馏21G https://ollama.com/library/qwen2.5 阿里千问2.5，个人感觉有些问题回答的比deepseek的好： https://ollama.com/HammerAI/mythomax-l2准备下这个玩玩RolePlay

https://ollama.com/sjo/deepseek-r1-8b-llama-distill-abliterated-q8_0 破限版 8.5G https://ollama.com/hengwen/DeepSeek-R1-Distill-Qwen-14B 蒸馏 30G https://ollama.com/library/llava 火山 LLaVA 是一个新型的端到端训练的大规模多模态模型，结合了视觉编码器和 Vicuna，用于通用视觉和语言理解。更新至版本 1.6。将输入图像分辨率增加到多至 4 倍的像素，支持 672x672、336x1344、1344x336 分辨率 https://ollama.com/library/mixtral 精通英语、法语、意大利语、德语和西班牙语、数学和编程、函数调用、64K tokens 上下文窗口 https://ollama.com/library/llama3.2-vision 视觉模型模型蒸馏和模型量化是两种常用的模型压缩技术，旨在减少模型的计算资源需求和存储空间，同时尽可能保持模型性能。它们在目的、实现方法和应用场景上有所不同。

模型蒸馏（Knowledge Distillation） ：

目的：将大型预训练模型（教师模型）的知识传递给较小的模型（学生模型），使学生模型在保持较小规模的同时，尽可能接近教师模型的性能。
实现方法 ：通过让学生模型学习教师模型的输出概率分布（软标签）或中间特征表示，学生模型在训练过程中模仿教师模型的行为，从而获得类似的性能。
应用场景 ：适用于需要在资源受限环境中部署模型的情况，如移动设备或嵌入式系统。通过蒸馏，小模型可以在推理速度和存储方面具有优势，同时保持较高的准确性。 模型量化（Model Quantization） ：
目的：通过降低模型参数的数值精度，减少模型的存储空间和计算量，加速模型推理过程。
实现方法 ：将模型的权重和激活值从高精度（如32位浮点数）转换为低精度（如8位整数），从而减少计算复杂度和存储需求。
应用场景 ：适用于对计算资源和存储空间有限制的环境，如移动设备、物联网设备等。量化后的模型在这些环境中可以更高效地运行，但可能会带来一定的精度损失。 主要区别 ：

目的不同 ：蒸馏侧重于知识的迁移，使小模型获得大模型的性能；量化侧重于减少模型的计算和存储需求。
实现方法不同 ：蒸馏通过训练小模型模仿大模型的输出；量化通过降低模型参数的数值精度。
对模型结构的影响 ：蒸馏通常需要重新训练一个新的小模型；量化一般在不改变模型结构的情况下直接应用于已训练的模型。
性能影响 ：蒸馏后的模型在性能上更接近原始大模型；量化可能会引入一定的精度损失，但通过精心设计的量化策略，可以将这种影响降至最低。在实际应用中，蒸馏和量化技术常常结合使用，以同时实现模型的高效性和高性能。