/Tool_Kits

涵盖网络爬虫、数据库、数据分析、机器学习、可视化、文本分析、GUI、自动化办公

Tool_Kits

工具箱大全,主要是Python项目。

涵盖:

  1. 网络爬虫
  2. 数据库
  3. 数据分析
  4. 机器学习
  5. 可视化
  6. 文本分析
  7. GUI
  8. 自动化办公
  9. 其他

网络爬虫


Web

  • pelican Python静态网站生成库
  • flask 可以开发网站、分享rest-api接口;流行度top2的web框架
  • streamlitPyWebIO对Python小白最友好的的web库
  • fastapi web框架,高性能,易于学习,快速编写代码;
  • PyWebIO 不需要编写HTML和JS代码,就可以构建简单的基于浏览器的GUI应用。
  • mkdocs 制作文档网站

数据库

  • PyMySQL
  • Sqlite3 轻量级sql数据库(python内置库)
  • pymongo 非关系型MongoDB库
  • redis Redis数据库
  • py2neo 对接Neo4J数据库的python库
  • datasette 探索和发布数据的开源多功能工具,主要面向数据记者、博物馆馆长、档案管理员、地方政府、科学家、研究人员以及任何拥有希望与世界分享数据的人。

数据分析

  • pandas 必须Python数据分析库,读取文件、预处理数据、分析、存储
  • SciencePlots 科学绘图的Python工具包
  • Orchest 创建数据科学工作量的工具。Orchest是一款Web数据科学工具,可在文件系统上运行
  • statsmodels Python的统计计量统计库
  • linearmodels 添加线性模型,包括statsmodels中缺少的工具变量和面板数据模型。
  • streamlit 快速搭建本地数据分析类Web应用
  • modin pandas加速库,接口语法与pandas高度一致
  • dask pandas加速库,接口语法与pandas高度一致
  • plydata pandas管道语法库
  • networkx 社交网络分析库

机器学习

  • vowpal wabbit 机器学习的前沿库
  • scikit-learn 机器学习必学库,支持有监督、无监督多种算法,含文本分析功能
  • Orange3 点击操作的机器学习分析软件, 可文本分析
  • doccano 文本数据标注工具
  • label-studio 最牛掰的文本数据标注工具

可视化

  • streamlit 快速搭建本地数据分析类Web应用
  • matplotlib Python中最万能绘图库,很少有ta画不出来的图;但语法较难、静态图
  • matplotx Matplotlib扩展库,可以提供更多样式,简化样式设定
  • seaborn 基于matplotlib开发的简化版可视化库, 一般的图可以用ta绘制; 高度定制仍需要结合matplotlib进行样式定制;静态图
  • plotnine ggplot2语法的Python可视化库, 可与plydata 库结合使用
  • pyecharts 国人开发并封装的动态可视化图绘制库; 中文文档
  • plotly 动态可视化图绘制库
  • bokeh 动态可视化图绘制库
  • SciencePlots 科研论文绘图,基于matplotlib
  • datapane 数据分析报告生成
  • superset 开源商务智能分析可视化库

文本分析

  • nltk 自然语言分析套件,对中文不友好
  • skift 使用scikit-learn语法封装了fastText功能的包。
  • kwx Python 中基于 BERT、LDA 和 TFIDF 的关键字提取
  • spacy 工业级自然语言模型库,支持中文
  • jieba 中文文本分词库
  • snownlp 中文情感分析库
  • gensim 最好用、最全的话题模型
  • cntext 中文文本分析库,含词频统计、情感分析、可视化
  • label-studio 最牛掰的文本数据标注工具
  • doccano 文本数据标注工具
  • textstat 文本可读性计算包(算法全,但仅支持英文)
  • texthero 文本预处理、展示、可视化库,仅支持英文
  • textpipe 文本分析流水线
  • textplot 词语网络图
  • shifterator 通过让您查看单词使用方式的变化,单词移位可以帮助您进行从根本上更可解释的情感,熵和散度分析。量化不同单词对两个文本差异做出的贡献,以及它们如何发挥作用。
  • GuidedLDA 半监督LDA主题模型
  • corex_topic 层次非监督、半监督话题模型
  • BERTopic BERT话题模型
  • whatlies 词向量可视化
  • TextDescriptives 文本描述性统计,不支持中文
  • pdfdocx pdf、docx读取库
  • OCRmyPDF扫描的 PDF 文件添加了 OCR 文本层,允许对其进行搜索
  • Top2Vec 主题建模和语义搜索的算法, 自动检测文本中存在的主题并生成联合嵌入的主题、文档和词向量。 适用于短文本;
  • TextNet textnet将文档集表示为文档和单词的网络,为文本分析与可视化提供了新的可能性。
  • taguette 免费开源的定性研究工具

GUI窗体软件开发

  • tkinter Python内置的gui库
  • PySimpleGUI 最简单的gui开发库
  • pyqt5、pyside 最牛掰的gui软件开发库
  • DearPyGui 易于使用且功能强大的Python GUI框架,它提供了DearImGui的包装。
  • PyWebIO 快速构建 Web 应用的 Python 工具
  • kivy star数高达14k的gui库

自动化办公

  • zmail 自动化收发邮件管理库
  • pywinauto Windows电脑自动化Python库
  • WeasyPrint 自动化生产pdf报告
  • 对PDF文件读取、更改、添加信息
  • selenium 浏览器自动化框架,可以自动化点击浏览器,完成某些工作
  • mkdocx
  • python-docx 创建、修改docx文件库
  • python-ppt 创建、修改ppt文件库
  • openpyxl xlsx文件库
  • PyWebIO 不需要编写HTML和JS代码,就可以构建简单的基于浏览器的GUI应用。

其他

  • hiresearch 丢弃繁杂收藏夹,定义简洁办公的浏览器首页
  • reveal.js 最流行的幻灯片
  • slidev 编程人员使用的幻灯片
  • mkdocs 制作文档网站
  • mockoon 帮我们快速搭建 API 服务图形化界面工具
  • codepng 把代码转为美观的截图的website
  • toad 金融风险评分卡;覆盖了建模全流程,从 EDA、特征工程、特征筛选 到 模型验证和评分卡转化
  • best-resume-ever Latex项目, 基于 Web 的简历模板,可以生成网页简历,然后用浏览器打印成 PDF 文件。
  • pychorus 将音频文件中的高潮部分剪辑出来的python包
  • imageio 用于读取和写入图像数据的 Python 库;

如果

如果您是经管人文社科专业背景,编程小白,面临海量文本数据采集和处理分析艰巨任务,个人建议学习《python网络爬虫与文本数据分析》视频课。作为文科生,一样也是从两眼一抹黑开始,这门课程是用五年时间凝缩出来的。自认为讲的很通俗易懂o( ̄︶ ̄)o,

  • python入门
  • 网络爬虫
  • 数据读取
  • 文本分析入门
  • 机器学习与文本分析
  • 文本分析在经管研究中的应用

感兴趣的童鞋不妨 戳一下《python网络爬虫与文本数据分析》进来看看~

更多