My TODO List

Question

hikettei opened this issue a year ago · 1 comments

今取り組んでることとか課題とかのTODO List

Environments / Backends

ネットワーク構築のAPI(defnode/define-impl/define-impl-op/defmodel/defmodel-as)の構築/テスト (Implemented Fairly well)
ただのNumpy-likeな行列演算ライブラリとして、cl-waffe2から分離したプロジェクトとして、コンパイルされたcl-waffe2のプログラムの集合をライブラリとして提供することができる (e.g.: topi in TVM)
RNNの実装に関して
- Control FlowをVMに実装するか defmodel-asで部分的にコンパイルしたネットワークをdefine-by-runっぽく繋げて動作する二つの方法のどっちかがある多分後者でRNN実装
defmodel-asの最適化:
-AOT Compiler, AbstractNodeにコンパイルするときはメモリの割り当てだけ後から変更して再利用できるように！
define-by-runモードの実装で一番の課題はコンパイル時間である。
- (メソッド割り当てが重い) 1. AbstractNodeネットワークの構築 2. ネットワークのコンパイル この二つに分けて最適化。
Conv2DのSubscript DSLのバグ
forward -> compiler-macro使ってインライン化できない？

defpathマクロによる検索ベースのFusionOpでデバイス特化の最適化を追加する
- 例えば!sumはBroadcastingとAddNodeベースだが、総和専用のKernelを書いた方が速度精度高い。
(log (1+ x))の微分のFusionOPは数値的安定性からMUSTである。これからFusionOPで実装する
最適化 -> (EXP X) -> A, B これを検出して最適化できる箇所がたくさんある。ソートをTensorじゃなくてAbstractNodeのIDベースでやればできそう
最適化: sin(x, out) <- outでcopy(x)するの無駄 allocする計算ノードにする

Answer 1 · 2023-10-11T02:19:09.000Z

Implementing State_Dict
Full Supports for Dynamic Shaping
Refactor: Device条件無しのCompile -> Later, デバイス割り当てしてコンパイル
Adding these Control Flow IRs: IfNode, MapNode
Enhacements: OpenMP, FusionOP, JITCPUTensor for Mathematical Operations, AVX512 Intrinsics, Polyhedral Compiler.
Refactoring whole system
- Rethinking these packages: cl-waffe2/vm cl-waffe2/vm.generic-tensor cl-waffe2/vm.node
  - should be integrated to one... or splitted into smaller one to keep modularity
  - -> cl-waffe2.tensor cl-waffe2.core cl-waffe2.networks cl-waffe2.polyhedral
- our docstring system should be improved
- concrete API specifications
🎉 Release as v0.1(beta)
ONNX <-> AbstractNode Translator
FP16 Support, nbit Quantization
Polyhedral Compiler For Deep Learning
OP Fusion
framework-level support for OpenMP
CUDA/MPS Backend
100% No dependency mode: Export to C mode.
Quantization Support
let's get llama3 worked using Export2C mode.