/nlp-engineering

专注于Python/C++/CUDA、ML/DL/RL和NLP/KG/DS/LLM领域的技术分享。

Primary LanguagePythonMIT LicenseMIT

编程语言-Python编程

《Python2源码剖析》


《Python3源码剖析》

(1) Python3.7源码编译


《Python编程》

(1) Python 3.9.13安装过程
(2) 3种依赖管理工具实现requirements.txt文件生成
(3) python -m http.server在本地启动简单HTTP服务器的命令
(4) Python中的协程、线程和进程
(5) Python中的@abstractmethod
(6) Python函数加async,但没有加await可以异步吗
(7) Python中的cls语法
(8) Python中的装饰器
(9) BM25(Best Matching 25)算法基本**
(10) Python中的@property
(11) Centos创建一个Python虚拟环境
(12) Python中的__call__()方法
(13) Python中的__add__()方法
(14) Python中的__repr__()方法
(15) Python中的魔法方法
(16) Pydantic库介绍
(17) Python中的async和await用法
(18) concurrent.futures模块中ThreadPoolExecutor用法
(19) Python中vars用法
(20) Python操作SQLite指南
(21) 生产环境使用Flask+Tornado+Nginx组合来部署Flask应用程序
(22) SQLAlchemy(alembic)和Flask-SQLAlchemy(Flask-Migrate)入门教程
(23) Celery入门教程
(24) Poetry入门教程


《公众号文章》

(1) Python中的名称修改和特殊属性


编程语言-C++编程

《Boost程序库完全开发指南》

(1) 开发环境和构建工具
(2) C++基础知识点梳理1
(3) C++基础知识点梳理2


《公众号文章》



编程语言-CUDA编程

《CUDA C权威编程指南》

(1) 基于CUDA的异构并行计算
(2) CUDA基础知识点梳理1
(3) CUDA基础知识点梳理2
(4) CUDA基础知识点梳理3
(5) CUDA编程模型
(6) 给核函数计时


《DeepSpeed框架》

(1) 大纲和资料梳理


《公众号文章》



编程语言-网络爬虫编程

TODO


《公众号文章》



统计学习-机器学习

TODO


《公众号文章》

MIT线性代数中文笔记
标准化、归一化和正则化的关系
机器学习(公式推导与代码实现)--sklearn机器学习库
基于Python3实现的统计分析包Pingouin
典型相关分析CCA计算过程
SPSS统计教程:卡方检验
对抛硬币试验中后验概率的理解
对p值的理解


统计学习-深度学习

《PyTorch实战》

(1) PyTorch中的nn.LeakyReLU()、nn.Module和nn.ModuleList
(2) PyTorch中的Eager模式
(3) TorchDynamo原理和示例
(4) PyTorch中的FX图
(5) PyTorch中的AOTAutograd、PrimTorch和TorchInductor
(6) FX图中的节点代表什么操作
(7) PyTorch中的CUDA操作


《公众号文章》

多层前馈神经网络及BP算法
使用TorchLens可视化一个简单的神经网络


统计学习-强化学习

TODO


《公众号文章》



知识工程-知识图谱

《NebulaGraph实战》

(1) 1-NebulaGraph安装和基础操作
(2) 2-NebulaGraph手工和Python操作
(3) 3-信息抽取构建知识图谱
(4) NebulaGraph简介
(5) NebulaGraph结构框架和nGQL的思维导图
(6) NebulaGraph中nGQL命令汇总:函数
(7) NebulaGraph中nGQL命令汇总:通用查询语句
(8) NebulaGraph中nGQL命令汇总:子句和选项
(9) NebulaGraph中nGQL命令汇总:图空间语句
(10) NebulaGraph中nGQL命令汇总:TAG语句
(11) NebulaGraph中nGQL命令汇总:Edge type语句
(12) NebulaGraph中nGQL命令汇总:点语句
(13) NebulaGraph中nGQL命令汇总:边语句
(14) NebulaGraph中nGQL命令汇总:索引
(15) NebulaGraph中nGQL命令汇总:子图和路径
(16) NebulaGraph中nGQL命令汇总:查询调优
(17) NebulaGraph中nGQL命令汇总:运维
(18) NebulaGraph中nGQL常用的CRUD命令
(19) Nebula Siwi:基于图数据库的智能问答助手思路分析B站)(YouTube


《公众号文章》



知识工程-对话系统

《Rasa3源码剖析》

(1) 聊天机器人框架Rasa资源整理
(2) 报时机器人的rasa shell执行流程分析
(3) Rasa NLU中的组件
(4) 使用ResponseSelector实现校园招聘FAQ机器人
(5) rasa train nlu详解:1.1-train_nlu()函数
(6) rasa train nlu详解:1.2-_train_graph()函数
(7) 自定义Graph Component:1-开发指南
(8) 自定义Graph Component:1.1-JiebaTokenizer具体实现
(9) 自定义Graph Component:1.2-其它Tokenizer具体实现
(10) Rasa初始化聊天机器人的配置
(11) 打通Rasa Action Server和LLM接口的尝试方法
(12) Rasa中的tracker_store和event_broker
(13) 以报时机器人为例详细介绍tracker_store和event_broker


《公众号文章》

RasaGPT对话系统的工作原理


知识工程-大语言模型

《Llama2-Chinese项目》

(1) 1-项目介绍和模型推理
(2) 2.1-Atom-7B预训练
(3) 2.2-大语言模型词表扩充
(4) 2.3-预训练使用QA还是Text数据集
(5) 3.1-全量参数微调
(6) 3.2-LoRA微调和模型量化
(7) 4-量化模型
(8) 5-推理加速
(9) 6-模型评测
(10) 7-外延能力LangChain集成
(11) 8-TRL资料整理


《Langchain-Chatchat项目》

(1) 1-整体介绍
(2) 1.1-ChatGLM2项目整体介绍
(3) 1.2-Baichuan2项目整体介绍
(4) 通过GPT2模型来检索NebulaGraph
(5) Langchain计算器工具Agent思路和实现
(6) P-Tuning v2实现过程
(7) P-Tuning v2使用的数据集
(8) ChatGLM3-6B工具调用
(9) 梳理Langchain-Chatchat-UI接口文档
(10) langchain中的Document类
(11) 梳理Langchain-Chatchat知识库API接口
(12) 替换Langchain-Chatchat中的数据库为MySQL


《Transformers实战》

(1) LLM模型的generate和chat函数区别


《LangChain实战》

(1) LangChain介绍
(2) 使用langchain接入文心一言接口
(3) LangChain快速开始
(4) LCEL入门
(5) LCEL优势


《LlamaIndex实战》

(1) LlamaIndex中的CustomLLM(本地加载模型)
(2) LlamaIndex中的CustomLLM(在线加载模型)


《LLM从理论到实践》

(1) 1-本书介绍
(2) 2-绪论


《QAnything项目》

(1) 通过容器启动QAnything知识库问答系统
(2) QAnything接口文档
(3) 解析QAnything启动命令过程


《Dify项目》

(1) Dify入门指南
(2) Xorbits inference操作实战
(3) Dify自定义工具例子
(4) dify-on-wechat中涉及企业微信几个函数解析
(5) dify-on-wechat中的entrypoint.sh脚本
(6) Dify v0.6.9将自定义工作流作为工具
(7) Dify v0.6.9源码部署
(8) Dify中的docker-compose.yaml分析-api
(9) Dify中的docker-compose.yaml分析-worker
(10) Dify中的docker-compose.yaml分析-web、db、redis、weaviate、sandbox和ssrf_proxy
(11) Dify中的Makefile分析
(12) Dify后端源码目录结构和蓝图
(13) Dify中的API接口:对话、生成和工作流
(14) dify/api/models/account.py文件中的数据表
(15) dify/api/models/api_based_extension.py文件中的数据表
(16) dify/api/models/dataset.py文件中的数据表
(17) dify/api/models/model.py文件中的数据表
(18) dify/api/models/provider.py文件中的数据表
(19) dify/api/models/source.py文件中的数据表
(20) dify/api/models/task.py文件中的数据表
(21) dify/api/models/tool.py文件中的数据表
(22) dify/api/models/tools.py文件中的数据表
(23) dify/api/models/web.py文件中的数据表
(24) dify/api/models/workflow.py文件中的数据表
(25) dify-web的Dockerfile分析
(26) dify-api的Dockerfile分析
(27) Dify中的工具
(28) Dify工作流中的变量聚合节点
(29) Dify工作流中的参数提取节点
(30) Dify工作流中的迭代节点
(31) Dify中的RAG和知识库
(32) Dify中的知识库API列表
(33) Dify中的weaviate向量数据库操作
(34) 在Windows平台上通过PyCharm调试Celery任务
(35) Dify中FixedRecursiveCharacterTextSplitter的chunk长度计算方式
(36) Dify中高质量索引模式时,通过线程池处理chunk过程


《Xinference项目》


《公众号文章》

使用vLLM和ChatGLM3-6b批量推理
基于Llama2模型的开源模型
phixtral-2x2_8:由两个Microsoft/phi-2模型组成的MoE


知识工程-多模态模型

《ComfyUI项目》

(1) ComfyUI入门教程


《公众号文章》



知识工程-自然语言处理

《HuggingFace自然语言处理详解》

(1) 什么是HuggingFace
(2) 使用编码工具
(3) 使用数据集工具
(4) 使用评价指标工具
(5) 使用训练工具
(6) 使用管道工具
(7) 中文情感分类
(8) 中文完形填空
(9) 中文句子关系推断
(10) 中文命名实体识别
(11) 使用自动模型
(12) 手动实现Transformer
(13) 手动实现BERT
(14) 利用Hugging Face中的模型进行句子相似性实践


《公众号文章》

Word2Vec模型总结
TextCNN和TextRNN:原理与实践
残差神经网络:原理与实践
json-repair:修复LLM产生无效的JSON字符串


公众号:NLP工程化

专注于Python/C++/CUDA、ML/DL/RL和NLP/KG/DS/LLM领域的技术分享

星球号:NLP工程化

NLP工程化公众号社群交流平台。