| 1 |
all-in-rag |
一个面向大模型应用开发者的RAG(检索增强生成)技术全栈教程,旨在通过体系化的学习路径和动手实践项目,帮助开发者掌握基于大语言模型的RAG应用开发技能,构建生产级的智能问答和知识检索系统。 主要内容包括: RAG技术基础:深入浅出地介绍RAG的核心概念、技术原理和应用场景 数据处理全流程:从数据加载、清洗到文本分块的完整数据准备流程 索引构建与优化:向量嵌入、多模态嵌入、向量数据库构建及索引优化技术 检索技术进阶:混合检索、查询构建、Text2SQL等高级检索技术 生成集成与评估:格式化生成、系统评估与优化方法 项目实战:从基础到进阶的完整RAG应用开发实践 |
| 2 |
minimind |
此开源项目旨在完全从0开始,仅用3块钱成本 + 2小时!即可训练出仅为25.8M的超小语言模型MiniMind.项目所有核心算法代码均从0使用PyTorch原生重构!不依赖第三方库提供的抽象接口。 这不仅是大语言模型的全阶段开源复现,也是一个入门LLM的教程。 |
| 3 |
parlant |
一个专注于构建可控、可部署的 LLM(大语言模型)智能代理框架,旨在解决开发者在实际应用中遇到的各种问题,比如: 模型不遵守系统提示(system prompt) 在关键时刻产生幻觉(hallucination) 无法一致地处理边缘情况 对话表现不稳定.Parlant 的核心目标是构建 行为可控、规则可定义的 AI 代理系统,适用于生产环境。它通过“行为准则(Guidelines)”来确保代理在各种场景下都能遵守业务逻辑,比如: 用户询问退款 → 检查订单状态 → 决定是否符合退款条件 用户询问天气 → 调用天气 API → 提供友好回应 |
| 4 |
quant-wiki |
一个专注于 量化金融知识开源与汉化 的项目,旨在打破国内外量化金融行业的信息壁垒。 |
| 5 |
fish-speech |
一个开源的 语音合成(TTS)解决方案,目标是提供 最先进(SOTA, State-of-the-Art) 的文本转语音技术。fish-speech 的主要功能是: 实现高质量的 文本转语音(TTS)。 支持多种语言和语音风格。 提供灵活的模型训练和部署方式,适合研究和生产环境。 |
| 6 |
BettaFish |
一个从0实现的创新型 多智能体 舆情分析系统,帮助大家破除信息茧房,还原舆情原貌,预测未来走向,辅助决策。用户只需像聊天一样提出分析需求,智能体开始全自动分析 国内外30+主流社媒 与 数百万条大众评论。 |
| 7 |
MediaCrawler |
小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫 |
| 8 |
DeepCode |
一个基于深度学习的代码理解与分析框架,核心目标是: 代码表示学习:通过深度神经网络将源代码转换为向量表示,便于后续任务。 代码补全与生成:帮助开发者自动补全代码片段,甚至生成符合上下文的代码。 漏洞检测与质量分析:利用模型识别潜在的安全漏洞或代码质量问题。 跨语言代码迁移:支持不同编程语言之间的代码转换或迁移。 |
| 9 |
TrendRadar |
简单的舆情监控分析 - 多平台热点聚合+基于 MCP 的AI分析工具。监控35个平台(抖音、知乎、B站、华尔街见闻、财联社等),智能筛选+自动推送+AI对话分析(用自然语言深度挖掘新闻:趋势追踪、情感分析、相似检索等13种工具)。支持企业微信/个人微信/飞书/钉钉/Telegram/邮件/ntfy/bark/slack 推送,30秒网页部署,1分钟手机通知,无需编程。支持Docker部署 |
| 10 |
PythonRobotics |
一个用 Python 编写的机器人算法合集,主要用于: 学习和教学:帮助学生和开发者理解机器人学中的核心算法。 算法验证:快速验证路径规划、定位、控制等算法的效果。 原型开发:为机器人或自动驾驶系统的早期开发提供参考实现。 |
| 11 |
LightRAG |
一个由 HKUDS(香港大学数据科学团队) 开发的开源项目,主要聚焦于 轻量级 RAG(Retrieval-Augmented Generation)框架,旨在帮助开发者更高效地构建基于大语言模型(LLM)的知识检索与生成应用。LightRAG 的核心目标是: 简化 RAG 应用开发:提供轻量化、模块化的工具,帮助开发者快速集成检索与生成能力。 支持多种数据源:可以处理文本、文档、知识库等,结合 LLM 提供更精准的回答。 优化性能与资源消耗:相比传统 RAG 框架,LightRAG 更注重低资源环境下的高效运行。 |