[Resource] Useful tools & lecture related to data science

prophet：时序列预测用的工具，社内用这个预测营收之类的。这个模型MMM：Marketing Mix Modeling也不错，Ridge MMM
無料で使えるAI校正ツール - Shodo: 太小气了，免费试用很不方便
tts：tts工具，感觉日语的朗读不错。google的wavenet也不错，日语的话，wavenet-B的声音比较好
Stable Diffusion 2.0 | AUTOMATIC1111 Update Guide | NEW MODEL：2.0使用方法
Introducing LoRA: A faster way to fine-tune Stable Diffusion: the README on GitHub and the paper on arXiv . civitai上有很多AI生成的作品，Amber (Genshin Impact) LoRA
How to add new tokens to huggingface transformers vocabulary: tokenizer.add_tokens(list(new_tokens))，解释了为什么需要添加新词。主要是因为subword在specific domain上效果不好，容易忽视该词在特定领域中的含义，所以最好还是添加一些domain词典比较好
computer-science: CS的自学成才之路，有很多不错的公开课资料
The technology behind GitHub’s new code search: github团队介绍了code search技术背后的一些大致理念，其中关于index构建的部分挺有意思
txtai: 基于embeddings的语义检索工具，我也有过类似的想法，这个工具可以好好试一试，很多地方都能用上
cleanlab: 用于检验数据集noise并修正的工具。可以用于多分类，NER等各种类的数据集。examples，一些用法示例
推出ChatGPT的OpenAI股权投资协议设计的独特性: openai的股权投资协议挺有意思，保证了创始人等人的话语权，并按照盈利能力，保证投资人的投资。只不过这种做法其实对于偏贪婪的投资者来说，可能会不满，但对于维持公司创新能力很好
Advanced Visual Studio Code for Python Developers: 一份很不错的总结资料，其中关于测试module的部分写的很好
Deep Learning for Infinite (Multi-Lingual) Keywords: canva 是一个公开设计产品的平台，很多设计师将自己制作的ppt等设计资料上传，并能获得收入。但一部分作品没有关键字之类的信息，所以很难被搜索到。canva团队的方案是，使用生成模型，将图像转换为文字，以此来添加关键词。使用的模型是openai开发的CLIP，可以基于图像，生成文字
Pandas Illustrated: The Definitive Visual Guide to Pandas: pandas可视化讲解
Python Decorators: The Complete Guide: 解释python装饰器的视频
fastText/elmo/bert对比：fastText解释得不错
nlp中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert: 对于不同词向量的分类写得很好，基于词向量的固定表征：word2vec、fastText、glove，基于词向量的动态表征：elmo、GPT、bert。

2023/01

balance: 对于有bias的数据进行采样的工具。可惜只针对分类数据，无法应用到NER上
How I start every new Python backend API project：这个template很不错，整理地非常好
2023's Top Development Projects for Programmers: A Complete List of Tutorials and Tools for Mastering the Latest Technologies: 收集了很多项目，如果想要学一些其他领域的开发，可以参考里面的项目
stackoverflow 2022调查问卷：这个问卷结果挺值得参考的
PyTorch VS TensorFlow In 2022：研究领域pt完胜tf，model serving方面pt落后，不过现在也有了Torchserver，上手难度和易用性方面pt更好。在NLP领域，pt是第一选择，tf很多东西都没有实装
Let's build GPT: from scratch, in code, spelled out.: 视频时间太长，没仔细看，但感觉不错
How to improve Python packaging, or why fourteen tools are at least twelve too many: 把python关于封装库的一些重要工具树立了一遍，作者建议初学者可以尝试pip+venv或者pipenv。我个人的感觉，像是服务类的项目，与其说是代码，不如说是脚本，用pipenv就可以了。如果是针对某个项目开发很多代码的话，用poetry更合适一些。不管怎么样，所有工具里，poetry的功能最多，依赖问题的解决也最好。作者还介绍了一下js和C#领域是如何进行包管理的
An open source Python project CI pipeline: 这篇文章不错，总结了一下ci用到的工具，除了我熟悉的black，isort，还介绍了ruff，这个可以替代flake8，应该能在pyproject.toml里起到效果，不用像flake8一样，还需要单独的设定文件。bandit用于检查安全问题，coverage用于报告测试效果。
Two Killer Jupyter Hacks That Are Guaranteed To Save You Hours Of Work Time：介绍了jupyter里两个不错的用法。一个是用Out[1]，来获取之前某个cell输出的结果，方便赋值给某个参数。一个是在restart kernel之前，可以把参数的结果保存，restart之后，再读取，可以省去再次计算的时间。保存：%store value, 读取：%store -r value
MLops: My favorite Github project template for data science projects: pre-commit那块可以参考一下，但是因为没有用poetry，这个模板的库管理有点不好，不用参考
From Novice to Expert: How to Write a Configuration file in Python: 介绍了很多关于设定文件的工具和写法，但是对于NLP或DS项目来说，大部分都用不上。而且用poetry管理项目的话，某种意义上也可以说是试用了toml文件来管理
chatgpt：中文介绍
Local interpretable model-agnostic explanations (LIME)：文章，代码实例，LIME解决的问题是【为什么我要相信你（model）】。具体方法是对单个预测给出不同模型的预测效果，这样方便人类去做判断。这个方面的研究还是偏ML领域
一个日语的医疗文本相似度预测的数据集：数据集

2022

2022/12

pydantic: 花了整整一天，本来打算用pydantic给segal做数据验证的，结果最终还是放弃这个方案，直接在init里用if进行检查了。原因主要有两点，pydantic和pytorch这种封装严重的第三方库很不友好，比如Dataset class就无法进行验证，每次都会被pydantic报错。还有一个原因在于pydantic的test不好写。因为使用mock的时候，如果想要设定某个函数的输出值，比如sampler.query = MagicMock(return_value=2，会被pydantic报错，说sampler没有query这个属性值，但实际上query是函数。根据这次的经验，对pydantic的适用场景有了一些感想。主要适用于一些数据结构比较简单的，很少用到第三方依赖的项目。对于涉及到pytorch, tensorflow这种比较复杂的深度学习项目，还是直接用if进行判断做数据验证比较好

2022/10

Google Style Python Docstrings
Where to set the manual seed: 关于manual seed放在哪里的问题。放在一开始的文件里就行

PyCon JP的一些资料：

How to Transform Research Oriented Code into Machine Learning APIs with Python：将代码分成 preparation, preprocessing, ml三部分
続・小さく始めて大きく育てるMLOps2020 / Start small and grow big MLOps2020：用于MLop的工具，控制变量，记录log，管理workflow
Python × AWS × Serverless 初学者が次の一歩を踏み出すためのテクニック/Python & AWS & Serverless - Step to the next stage from a beginner：做个记录
最先端自然言語処理ライブラリの最適な選択と有用な利用方法 / pycon-jp-2020：比较了不同日语文本处理工具，还有之后用于模型训练的工具。处理日语文本的时候，可以参考这个文档
実践Streamlit & Flask - AIプロジェクトをいい感じにする技術 / Service development with Streamlit and Flask: 不论是enginner还是数据科学家，都希望能用可以展示的app进行演示。原型展示用streamlit，实际部署是将flask部署到GAE上
Pandas卒業？大規模データを様々なパッケージで高速処理してみる/pyconjp2022-hpc
：介绍了包括pandas在内的分析处理数据的工具，pandas, dask, vaex, pyspark。有实际的代码和例子可以自己尝试。各个工具有各自的优点，根据数据量，选择合适的工具
Fast API と学ぶ WebRTC：有实际的代码和演示，如果以后遇到WebRTC，可以回顾一下
SQLクエリ解析によるE2Eデータリネージの実現 / E2E-data-lineage: 主要介绍了用Stairlight给SQL得到的数据添加一些信息，方便之后使用的时候，知道信息的来源
Pythonで公的統計APIのオープンデータ活用(PyConJP2022): 介绍了很多获取政府公开数据的方法，还有一些比较便利的工具
Python ライブラリ開発における失敗談〜開発者に選ばれるライブラリを作るために必要なこと〜 / pycon-jp-2022：里面涉及到的比较不同nlp工具解析时间的部分还挺有用，而且介绍了很多针对日语的工具
Python使いのためのスポーツデータ解析のきほん - PySparkとメジャーリーグデータを添えて #PyConJP 2022：基于google的云服务，构建了一个分析棒球的服务。主要用到了PySpark。整个slide的制作和介绍非常值得参考
データに関する堅牢性と可読性を向上させるpydanticとpanderaの活用方法の提案.pdf: 主要介绍了pydantic和pandera的使用方法。pydantic针对所有的项目，pandera针对pandas里的dataframe。
pydantic: 用于验证python类型的工具
codespell：检查代码拼写错误的工具
日本的病例标注数据：70种NER标签，35种关系标签
基于日语的诊断文本学习的BERT：添加了很多病名的数据
抽取日语病名的工具

2022/09

Domain Version Compatibility Matrix for PyTorch: 下载与pytorch版本对应的torchvision
AWS CLIのCredentialの設定に嵌ったお話: 为了能使用aws cli上传大文件到s3里，需要进行Credential的设定
ML Engineer Interview Map: 这篇文章对于不同职种的分类和要求整理得不错。

2022/04

写日语文章的时候，可以用这个工具检查文法，prh, 还有vscode的扩展prh。可以把一些常见的错误写好，トレニング-> トレーニング、エンティティ->固有表現、デーテ->データ
关于OKR的设定，比如个人方面的目标设定Personal OKR Example

2022/03

直接将B站的视频转换为mp3的网站，offliberty

2022/02

通过cProfile来调查代码耗时最大的地方(プロファイリング)
- Pythonプロファイリング基礎
- Python プログラムが遅い原因を調べる方法
一些关于如何写好代码的建议
- オブジェクト指向の設計と実装の学び方のコツ
- オブジェクト指向エクササイズのススメ
YAGNI(You ain't gonna need it): 不要写自己觉得可能会用到的代码
关于test的文章
- How to Write 3v1L, Untestable Code
- 3A(Arrange, Act, Assert): Best practices for writing unit tests - .NET
- test的命名方法：TotT: Naming Unit Tests Responsibly
介绍代码复杂度Cyclomatic Complexity
- < 10 - a simple program with little risk 11 – 20 - more complex programs with moderate risk 21 – 50 - high complexity with high risk > 50 - an untestable program with very high risk
- 平时写代码可以在vscode或是.flake

2021

2021/08

「ひらがな書きが適当な語」 : 在比较正式的日语写作（技術文書）中，一部分副词要用ひらがな的形式来写。比如「例えば」->「たとえば」。

2021/05

Error-riddled data sets are warping our sense of how good AI really is: 这篇文章不错, 涉及到的论文

2021/04

Deepl: 这公司的翻译效果好像很不错
日语文本检查工具：テキスト校正くん, textlint と VS Code で始める文章校正

2021/01

Automator 设置快捷键插入当前日期, 参考的设置在这里

2020

2020/12

doc1: multiclass和multilabel的区别. multiclass的预测结果只有一个class，但是multilabel的情况，则是针对一个sample，预测多个label。
Understanding Best Practice Python Tooling by Comparing Popular Project Templates：这篇文章介绍了很多不错的python最佳实践工具。kedro看着挺不错的，打算试一下。
UnicodeDecodeError: 'shift_jis' codec can't decode bytes in position: 读取一个日语的csv文件，试了很多encoding的方法，最终这篇文章建议的cp932 起效果了
git branch的命名方法: 我就用这种吧, <feature/bugfix/experimental>/<issue-number>-<dscription_for_branch>
Step Functionsの入出力処理の制御パラメータ（InputPath、 Parameters、ResultPathおよびOutputPath）を理解するために参照したドキュメント: 有图例，比官方的好理解。简单来说，用于input方面控制的是inputpath和parameters，首先可以用Inputpath选中input中的某些value，而Parameters的作用是给这些value起一个新的key名称。用于output方面控制是的ResultPath和OutputPath，ResultPath的作用和Parameter一样，可以给输出起一个新的key名称，而OutputPath和InputPath一样，可以选择某些value作为输出。

2020/11

python mock

2020/10

The Ultimate Python Resource hub: 关于python学习渠道的整合

2020/8

自动生成高质量的readme

2020/7

FastAPI for Flask Users

2020/6

关于抗疫的视频，太感动了：

2020/5

关于投资

同事分享的投资学习资料，偏实战一些：

关于开发：

Node.jsとnpmをアップデートする方法
yahooquery: 这个包挺不错的，还用Selenium实现了登陆功能。代码挺值得学习的。
batch_size=256走一步和以batch_size=1从同一个点出发256次再平均有什么区别？: answer1。简单地说，从理论上来讲，都是一样的。但是题主是在每一次后都更新，而不是做累积，所以不一样了。
E902 TokenError: EOF in multi-line statement → プログラムファイルに括弧不整合
Our World in Data
一文揭秘！自底向上构建知识图谱全过程
如何理解数据的概率分布？
自然语言处理算法工程师历史最全资料汇总-基础知识点、面试经验
NLP、CV、语音相关AI算法工程师面试问题、代码、简历模板、知识点等资源整理分享
How a Facebook rejection pushed me to start and grow a profitable business in 12 months: 因为一次面试失败而决定做通过做一个项目来锻炼自己的能力。3步。1 从技术角度去考虑做一个有挑战的产品（a 所有一切全部从0开始自己做，锻炼自己的技术；b 不能太简单，比如涉及数学之类的；c 做一个有免费模式的Saas产品；d 不花一点钱，除了域名）2 找一个商业点子；3 想个名字。（我也按这个过程思考了一下自己可以做什么，我自己想要什么。作为一个作者，我希望能有一个keyword generation 工具，或者是brainstreaming keyword工具。就像corpus那个网站一样，可以查看不同单词在论文中的用法。作家也希望查看不同单词在作品中的使用方法（比如某个单词在不同类型的小说中的常见使用，在不同时代的使用）。但是这个产品的问题在于版权。我想从出版的书籍那里收集资料，因为经过了编辑检查，质量比较高，但是近代的产品都有版权问题。不方便。另外一个更简单的工具，写作灵感生成器。呃，查了一下有很多这样的工具啊。Fantasy Plot Generator， Character Generator， 'Take Three Nouns' Writing Prompt。中文的写作工具：中文人名生成器，这个网站能生成很多东西，人名，帮派名，地名等等
为什么有些学数学的看不惯甚至鄙视 Deep Learning？
由硅谷30年经验的连续创业者 Siimon Reynolds 所著的效率之书 Win Fast（《快赢》）
机器学习训练秘籍 - deeplearning.ai
ElasticsearchとBERTを組み合わせて類似文書検索 - Ahogrammer
查看关于pdf转txt的内容: Camelot
第8回 Amazon SageMaker 事例祭り｜体験ハンズオン
All_Leetcode_Q_20190610
leetcode题解，记录自己的leetcode解题之路: 这个repo关于刷题，挺不错的
PyTorchZeroToAll: 一个关于pytorch的视频课程, 这个课程的好处是直接对pytorch的代码做讲解，不是单单的理论
《Natural Language Processing with PyTorch》中文翻译
知識グラフの埋め込みとその応用
GitLab Communication
bert源码文章AINLP
Get Ready to Make 2048: 以后拿这个2048当做自己的练手项目吧。做一个web版本，一个手机版本
2048 TypeScript Refactor：有对应的github repo
中文自然语言处理 Chinese NLP
Building Machine Learning Powered Applications
Practical Deep Learning for Cloud, Mobile, and Edge: Real-World AI & Computer-Vision Projects Using Python, Keras & TensorFlow： github repo上不仅公开了代码，还有在线文档
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems 2nd Edition：这本书很有名，已经出第二版了
Practical NLP in PyTorch: 这个日本开发者的ptyorch scratch项目真得挺不错的
复盘所有NLP比赛的TOP方案，只关注NLP比赛，持续更新中！
Deep Learning from the Foundations: fast ai的课程
gramara

关于日语：

日语语法指南, 语法精要
見出し語=見出し, 意思是标题，headline。「私は新聞の見出ししか読まない」"I only read the headlines of newspapers"

2020/4

Scale, Standardize, or Normalize with Scikit-Learn：这篇文章总结得真好。下面一张图分析了MinMaxScaler, RobustScaler, StandardScaler, and Normalizer这四个的区别什么时候用。MinMaxScaler可以把数据缩小到一个范围内，保存原来的分布，但是对于outlier没有影响。StandardScaler会把数据的分布变为正态分布，对outlier有很好的效果。
Getting Real, online version
Dry programming: Don't repeat yourself
Apache UIMA

2020/3

暴食症的塔拉里
跑步膝: 关于髂胫束综合征的成因做了很好的解释，主要是臀中肌力量不足。但视频中只给出了舒缓的方法，其实还是需要增强肌力才能治本
Dow Jones Weekly Newsletter 「バロンズ・ダイジェスト」
Yahoo股价图
逆指値注文

2020/2

2020/1

個人開発の時間を最大化する方法〜サラリーマン→フリーランス→アプリ作家の活動変遷
自分らしいアプリを開発する方法〜人が喜ぶようなオリジナリティのあるアプリを作るにはどうすればよいか？
α（アルファ）とβ（ベータ）について：这里的α是投资领域的专业术语
检查英语是否地道的工具
pytorch和torchvision的版本最好配套下载: pip install torch==1.2.0 torchvision==0.4.0

2019

2019/12

一般人がVT、VTI、VOOを自分で買うことのデメリットを分かりやすく解説します
日経平均長期チャート 30年
Python3 错误UnicodeEncodeError: 'ascii' codec can't encode characters in ordinal not in range(128)
割と突き詰めてやったvim→vscode移行
VimとVSCodeVimの違いをなるべく減らす設定
Vim から VS Code へ覚悟を持って移行する
视频如何能快速生成普通话字幕
Python学习资料：Python 之旅, partial 函数, 装饰器。这本书其他地方也值得看一下，比如函数，函数式编程的章节，类
programcreek: 找代码样例的地方
Difference b/w driver.close() and driver.quit()
pytorch NLP 模板
Try it online!: 检测一个文件玩是否为空的bash脚本
Difference between single and double quotes in Bash, String interpolation
一条命令下载谷歌娘语音文件: https://translate.google.com/translate_tts?ie=UTF-8&client=tw-ob&tl=zh-CN&q=我想测试一下这个语音能不能支持日语（天気がいいから散歩しましょう。できないみたいだな）以及英语（Ramen is delicious）
Scikit-crf suite 用这个来做NER的评价工具
MeCab ソースコードリーディング私的メモ（形態素解析編）
日本語形態素解析の裏側を覗く！MeCab はどのように形態素解析しているか
Echarts
这几个学术写作工具，或许可以帮你赢得审稿人青睐
15个英文论文写作辅助网站介绍和使用技巧
英語論文執筆のために arXiv からの例文検索サービスを作った話
SIMPLE RULES 「仕事が速い人」はここまでシンプルに考える: 1 准备一周的衣服顺序 2 准备how to list
Machine Learning Production Pitch 5 テーマは「基盤」機械学習を支える基盤
High-glycemic-index carbohydrate meals shorten sleep onset: 这片论文说明睡前4小时吃碳水化合物，高gi的话，入睡时间会减少
计算一天所需卡路里
ML-NLP: 此项目是机器学习(Machine Learning)、深度学习(Deep Learning)、NLP面试中常考到的知识点和代码实现，也是作为一个算法工程师必会的理论基础知识。
sansan資料ダウンロード
形態素解析ツールインストール(MeCab,Juman++,Janome,GiNZA): 其中GINZA是基于spacy的模型，使用的解析器是SudachiPy，字典是150万語彙を備えるSudachi辞書
DatadogでフロントエンドのJSエラーを収集してサービス改善
貴方はいくつ知っている？あまり知られていない便利なChrome DevToolsの機能まとめ
長期投資予想／アセットアロケーション分析
动手学深度学习PyTorch实现: 这个和下面那个是两个基于pytorch的学习资料
Neural Network Programming - Deep Learning with PyTorch with deeplizard: 配套的视频下面还有练习题，高效入门pytorch B站
AWS GPU instance配置方法
Shell脚本编程30分钟入门
“Python 工匠”系列
Python与Solid设计原则：Piglei 上, Piglei 中, ajulovelife
你应该使用pathlib替代os.path
Can't delete a Mac app because it's still open? Here's the fix!：如果提示app已经打开无法删除，那么打开Activity Monitor，然后删除运行中的app
unlock-music: 在浏览器中解锁加密的音乐文件
BookStack: wiki管理平台
合字
Python PEP-8编码风格指南中文版
protected method和private method的区别: python里没有真正的protected（_）方法，还是能访问并修改的。而private(__)则不能被外界访问。
The Best of the Best Practices (BOBP) Guide for Python
多行Indentation
Line break occurred after a binary operator (W504)
线下使用Pytorch构建模型，然后将Pytorch 模型转成TensorFlow模型，在使用TensorFlow进行部署和在线serve
Python模型本地持久化存储
保存机器学习模型——pickle和joblib
Natural Language Processing trends
Knowledge Base trends
网页头部的声明应该是用 lang="zh" 还是 lang="zh-cn"，为什么使用语言属性?
Alternatives, Inspiration and Comparisons FastAPI是受StarAPI启发的。只不过StarAPI不再作为一个web framework了

PyCon china 2018:

⽤Python做有趣的事之实现⼀个⽹站应⽤
怎样教会零基础新人编程并找到开发工作: 有一些不错的分享资料，【计算机科学速成课】[40集全/精校] - Crash Course Computer Science, 流畅的 Python (前15章)
健壮高效的网络爬虫
这 16 年来我从 Python 学会了什么
动态语⾔⼀时爽，代码重构⽕葬场？聊聊编程原则

关于健身：

Dynamic Stretching Routine: Best Full Body Warm Up: 动态拉伸来热身。下腰触脚（拉伸大腿后侧），Knee To Chest（抱腿拉伸臀部肌肉），Side Lunge Touching Heel（拉伸大腿内侧），Lunge With A Lean（大腿前侧），Arm Circles（用手臂带动肩部的放松）
3 Reasons to Complete Challenging Exercises First: 先热身。然后把最重要的训练放在一开始，这些训练是那些需要用到多个关节和部位的训练。
Light Weights vs Heavy Weights for Muscle Growth，文章：低重量高频次和高重量低频次对于肌肉的增加效果基本一样。但是高重量低频次在抓举方面对于肌肉的增大效果更好。添加drop sets，通过低重量高频次来提高提高乳酸阈值。
How To Add Drop Set Training To Your Workout: 使用drop set的话，可以更好的利用上面两种训练效果。
How to Gain Muscle Faster With ‘time Under Tension’ Training: 这篇文章提到了TUT这个概念。它指的是在一个set里肌肉承受拉力的时间。为了能让肌肉增长，要保证受力时间。1 不要浪费大量时间在简单的锻炼上；2 保持一个稳定的节奏，each rep during a set would be 2/4/0 (lifting, lowering, pause)；3 在离心运动上花更多时间，指的是上面lowering的部分，时间越长对肌肉破坏越大，能促进增长；4 关注form，不要因为疲劳破坏姿势。这里我理解的是每次动作要做完整，每个rep不要只做到一部分；5 使用drop set；保持高强度，重量和锻炼一定要有挑战性，才能促进肌肉增长。比如Use at least 60% of your 1-rep max for a lift to maximize gains.

2019/11

Full Stack Deep Learning Bootcamp: 这个课程挺不错的。可以等udemy上的课程完成后再申请这个。可以作为研修费用报销。
A Guide to Production Level Deep Learning
picgo无法上传: 连接外接显示器的情况下，需要更改色彩描述文件为Color LCD
在线音乐转换器: 可以转换不同格式为mp3，也可以降低mp3的比特率
“知识共享”（CC协议）简单介绍
引用blog的bib生成工具
Python默认方法的一些时间复杂度
MIT 6.006: Introduction to Algorithms, notes
学习Mac app开发的一个好案例
hadolint: 一个检查Dockerfile语法正确的工具
用于处理JSON的JP命令行工具: jq コマンドを使う日常のご紹介, python json.tool虽然也能做到整形，但是解析结果是encode的结果，无法直接输出日语。jq输出的结果不仅直接是decode的日语结果，而且还有语法高亮
关于SentencePiece的一些文章总结: #289
关于unicode正则化的文章：
- 文字コード地獄秘話第3話：後戻りの効かないUnicode正規化
- Unicode正規化とは
如何将 Apache License 2.0 应用到你的项目
Jingbo Shang: 数据挖掘的大佬。有很多不错的论文和开源项目，个人网站上还有一些不错的tutorial。
机器学习-Confusion Matrix混淆矩阵、ROC、AUC
日本語言語資源・ツール

Some information about fuzzy matching: 没有找到日语的相关工具

fuzzywuzzy tool
Fuzzy matching entities in a custom entity dictionary: 简单地说，解决fuzzy matching的方法就是使用编辑距离
FuzzyWuzzy: Fuzzy String Matching in Python

2019/10

2019-2020国际会议日期和举办地
免费的高质量icon下载网站
Knowledge Extraction and Inference from Text (KDD 2018 Tutorial): Part 2，DS RE的部分能用于写书
Enterprise Knowledge Graphs for Large Scale Analytics from IBM
用Vue构建一个github“可视化大数据平台”
AAAI review score为4,5,6分的时候该如何回复: 还可以抢救一下
日本法人信息下载
KDD Tutorial T39 Building a Large-scale, Accurate and Fresh Knowledge Graph
通过Travis自动发布软件
在PyPI上发布软件
上传pypi的正确命令: twine upload --repository-url https://upload.pypi.org/legacy/ dist/*
开源许可的选择
Convert curl syntax to Python, Ansible URI, Node.js, R, PHP, Strest, Go, Dart, JSON, Rust: 把curl转换成python代码，写爬虫的时候用

2019/09

Interview with David Cournapeau, Head of the MLE Team: Engineering Products from Research Results: 这个QA质量非常高，David的看法我非常同意。不能把产品全部压在AI上，应该去做那些不怎么fancy的AI服务，重点是去解决问题，而是不拿AI说事。为了把研究快速变成产品，他的方法是在物理上把研究者和工程师放在一起，并促进二者的交流。想想现在自己的处境，真是心有戚戚焉。
有名ライブラリと比較した LightGBM の現在: 说了什么时候用LightGBM，什么时候用Catboost
Optuna ハイパーパラメータ最適化フレームワーク：Optuna支持LightGBM了
ML@Loft #5 (NLP)
- ママ向けコミュニティサービスを支えるNLP: 架构的部分挺不错。大致分成学习和推论两部分。其中学习的部分又分为3部分，1. S3保存gensim.word2vec的模型，还有保存corpus。2. 基于stepfunctions的ETL和前处理部分(RDS, Glue, Fargate, S3)。3. 基于sagemaker的学习和部署部分(sagemaker training & endpoint, S3)。最后实时的推论部分，raw data通过stepfunction的前处理部分变成向量，然后被交给sagemaker进行推论，然后返回推理结果。下面图1
- AWS SageMaker導入による機械学習インフラ大改善：通过引入sagemaker，减少代码量。下面图2。主要是3个不同的组件可以用不同的repo来管理，模块化之后更方便管理和更新。

（图1）

（图2）

Linux basic

Shell 教程. 文章最下面有5个链接。前两个里先看视频教程，速查表很多东西都没有涉及到，但视频里有讲。下面三个链接里，第一个Bash scripting cheatsheet
挺有方便的，写bash脚本的话直接拿来参考。
机器学习、深度学习中常用的Linux命令

Deep Learning Tools

nextjournal

可视化

The Power of Visualization, 很棒的一篇关于可视化的文章，介绍了很多可视化的案例。下面的Jazz也是里面找到的。
Linked Jazz Network Graph, Jazz音乐家的知识图谱，可视化的效果很棒

文章

关于RE的文章

[知识图谱]神经关系抽取: 对2018和2019的一些RE工作做了些介绍。大部分论文我也看过，不过依然有收获

关于Transformer的文章

The Illustrated Transformer: 这篇文章对于Transformer整体的介绍很不错，对于整体的了解有帮助。但是decoder部分讲得不好。
Transformer模型的PyTorch实现: 对一些细节的地方做了说明，比如为什么用残差连接，Context-attention是什么，Layer normalization是什么？Padding mask？Sequence mask？Positional encoding？
[整理] 聊聊 Transformer

关于BERT的文章

The Illustrated BERT, ELMo: 主要是介绍了ELMo，BERT的内部解释很少
Dissecting BERT Part 1: The Encoder: 把Q，K，V的作用讲清楚了。
Dissecting BERT Appendix: The Decoder: 讲了关于decoder的部分。但是bert没有用到decoder，所以这篇文章应该算作是transformer的解读文章。

Answer 1 · 2022-08-27T00:41:30.000Z

分词

英语分词
- https://towardsdatascience.com/tokenization-for-natural-language-processing-a179a891bad4 这篇文章里的图将各种分词方法总结的不错
- https://www.analyticsvidhya.com/blog/2020/05/what-is-tokenization-nlp/ 有具体例子，当做补充内容
- https://neptune.ai/blog/tokenization-in-nlp 有一些分词工具
- https://www.kaggle.com/code/satishgunjal/tokenization-in-nlp kaggle的分词教程，可以用来写教程
日语分词
- https://qiita.com/klis/items/bb9ffa4d9c886af0f531 文章介绍了konoha，文章里的link还有Mecab，Sentencepiece的用法，这些都是日语的分词工具
- https://cardinal-moon.hatenablog.com/entry/tokenize_and_subword 主要介绍了BPE和Sentencepiece
- https://www.nogawanogawa.com/entry/tokenizer 简单介绍了使用不同分词工具的分词结果

将text转换为特征向量

word embedding出现前，机器学习方式的特征转换
- https://www.analyticsvidhya.com/blog/2021/06/part-5-step-by-step-guide-to-master-nlp-text-vectorization-approaches/，主要方式有OHE，Count Vectorizer，BOW，N-grams，TF-IDF
基于神经网络，出现了word embedding
- https://towardsdatascience.com/understanding-nlp-word-embeddings-text-vectorization-1a23744f7223，主要有Word2Vec，Glove，Fasttext。这些技术刚出来的时候效果都很好，但是现在已经很少使用了
基于Transformers的embedding技术
其他
- https://www.turing.com/kb/guide-on-word-embeddings-in-nlp#bert-(bidirectional-encoder-representations-from-transformers)，梳理了不同方法的主要技术，算是总结性的文章

关于NLP的模型

将特征转换为特征向量后，可以使用一些传统的机器学习模型，比如随机森林，SVM等等
神经网络出现后，基于CNN，RNN的模型效果非常突出，最典型的是Bi-LSTM CRF
- https://qiita.com/wakafar/items/c9a05713f579f436d36d
- https://roy29fuku.com/natural-language-processing/ner-with-lstm-crf-model/
基于Transformers的Language model出现后，性能非常强，最典型的是BERT
- https://blog.brainpad.co.jp/entry/2021/01/06/113000
- https://ainow.ai/2021/06/25/256107/
- https://zenn.dev/yukiyada/articles/59f3b820c52571 有代码，可能比较难一些
- https://note.com/npaka/n/n5bb043191cc9 基于Huggingface开发的Transformers工具，里面自带了很多有名的Transformers模型，用起来很方便

关于NLP的task

可视化

词云可视化：表达文章中单词的重要性
- https://zhuanlan.zhihu.com/p/27626809
- [https://self-development.info/wordcloud%EF%BC%88%E3%83%AF%E3%83%BC%E3%83%89%E3%82%AF%E3…]%BD%9C%E6%88%90%E3%81%99%E3%82%8B%E3%80%90python%E3%80%91/
Embedding可视化：表达corpus中不同单词之间的联系
语法树可视化
- https://qiita.com/wf-yamaday/items/3ffdcc15a5878b279d61
- https://spacy.io/usage/visualizers