quantization

Here are 574 public repositories matching this topic...

intel / neural-compressor

SOTA low-bit LLM quantization (INT8/FP8/INT4/FP4/NF4) & sparsity; leading model compression techniques on TensorFlow, PyTorch, and ONNX Runtime

sparsity pruning quantization knowledge-distillation auto-tuning int8 low-precision quantization-aware-training post-training-quantization awq int4 large-language-models gptq smoothquant sparsegpt fp4 mxformat

Updated Jun 3, 2024
Python

cpldcpu / BitNetMCU

Star

Neural Networks with low bit weights on low end 32 bit microcontrollers such as the CH32V003 RISC-V Microcontroller and others

quantization tinyml ch32v003 ch32v003fun

Updated Jun 3, 2024
C

Model Compression Toolkit (MCT) is an open source project for neural network model optimization under efficient, constrained hardware. This project provides researchers, developers, and engineers advanced quantization and compression tools for deploying state-of-the-art neural networks.

machine-learning deep-neural-networks deep-learning neural-network tensorflow optimizer pytorch quantization qat network-quantization network-compression edge-ai ptq

Updated Jun 2, 2024
Python

hiyouga / LLaMA-Factory

Star

Unify Efficient Fine-Tuning of 100+ LLMs

Updated Jun 2, 2024
Python

quic / aimet

Star

AIMET is a library that provides advanced quantization and compression techniques for trained neural network models.

open-source machine-learning opensource deep-neural-networks compression deep-learning pruning quantization auto-ml network-quantization network-compression

Updated Jun 1, 2024
Python

Aisuko / notebooks

Sponsor

Star

Implementation for the different ML tasks on Kaggle platform with GPUs.

natural-language-processing computer-vision neural-network accelerator transformers pytorch kaggle quantization visulization fine-tuning peft multimodal wandb renforcement-learning large-language-models

Updated Jun 1, 2024
Jupyter Notebook

openvinotoolkit / training_extensions

Star

Train, Evaluate, Optimize, Deploy Computer Vision Models via OpenVINO™

machine-learning computer-vision deep-learning pytorch semi-supervised-learning image-classification object-detection transfer-learning image-segmentation quantization action-recognition automl incremental-learning anomaly-detection hyper-parameter-optimization self-supervised-learning openvino neural-networks-compression datumaro

Updated Jun 2, 2024
Python

mit-han-lab / TinyChatEngine

Star

TinyChatEngine: On-Device LLM Inference Library

c arm deep-learning cpp x86-64 quantization edge-computing cuda-programming on-device-ai large-language-models

Updated May 31, 2024
C++

Xilinx / brevitas

Star

Brevitas: neural network quantization in PyTorch

fpga deep-learning pytorch neural-networks xilinx quantization hardware-acceleration qat brevitas ptq

Updated May 31, 2024
Python

Picovoice / picollm

Star

On-device LLM Inference Powered by X-Bit Quantization

natural-language-processing compression self-hosted llama language-models quantization language-model gemma mistral model-compression efficient-inference llm llms generative-ai large-language-model llama2 mixtral llm-infernece llama3

Updated May 31, 2024
Python

huggingface / optimum-quanto

Star

A pytorch quantization backend for optimum

pytorch quantization optimum

Updated May 31, 2024
Python

openvinotoolkit / nncf

Star

Neural Network Compression Framework for enhanced OpenVINO™ inference

nlp sparsity compression deep-learning tensorflow transformers pytorch classification pruning object-detection quantization semantic-segmentation bert hawq onnx openvino mmdetection mixed-precision-training quantization-aware-training

Updated May 31, 2024
Python

PINTO0309 / onnx2tf

Sponsor

Star

Self-Created Tools to convert ONNX files (NCHW) to TensorFlow/TFLite/Keras format (NHWC). The purpose of this tool is to solve the massive Transpose extrapolation problem in onnx-tensorflow (onnx-tf). I don't need a Star, but give me a pull request.

android docker machine-learning deep-learning tensorflow models keras transformer lstm quantization coreml onnx model-converter tensorflow-lite tflite tfjs yolov7 onnx-tensorflow

Updated May 31, 2024
Python

huggingface / optimum-intel

Star

🤗 Optimum Intel: Accelerate inference with Intel optimization tools

optimization intel transformers inference pruning quantization distillation onnx openvino diffusers

Updated Jun 3, 2024
Jupyter Notebook

AntonioGr7 / pratical-llms

Star

A collection of hand on notebook for LLMs practitioner

quantization llm llm-serving genai llm-training llm-inference llm-evaluation

Updated May 31, 2024
Jupyter Notebook

dbohdan / hicolor

Star

🎨 Convert images to 15/16-bit RGB color with dithering

image-processing dithering quantization image-conversion color-quantization retro-graphics image-format image-library color-reduction high-color

Updated May 31, 2024
C

swastikmaiti / Llama-2-7B-Chat-PEFT

Star

PEFT is a wonderful tool that enables training a very large model in a low resource environment. Quantization and PEFT will enable widespread adoption of LLM.

quantization peft huggingface llama2-7b peft-fine-tuning-llm

Updated May 31, 2024
Jupyter Notebook

intel / auto-round

Star

SOTA Weight-only Quantization Algorithm for LLMs. This is official implementation of "Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs"

rounding quantization awq int4 gptq neural-compressor weight-only

Updated Jun 3, 2024
Python

intel / intel-extension-for-pytorch

Star

A Python package for extending the official PyTorch that can easily obtain performance on Intel platform

machine-learning deep-learning neural-network intel pytorch quantization

Updated Jun 3, 2024
Python

gaoj0017 / RaBitQ

Star

[SIGMOD 2024] RaBitQ: Quantizing High-Dimensional Vectors with a Theoretical Error Bound for Approximate Nearest Neighbor Search

nearest-neighbor-search quantization high-dimensional-vectors

Updated May 31, 2024
C++

Improve this page

Add a description, image, and links to the quantization topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the quantization topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

quantization

Here are 574 public repositories matching this topic...

intel / neural-compressor

cpldcpu / BitNetMCU

sony / model_optimization

hiyouga / LLaMA-Factory

quic / aimet

Aisuko / notebooks

openvinotoolkit / training_extensions

mit-han-lab / TinyChatEngine

Xilinx / brevitas

Picovoice / picollm

huggingface / optimum-quanto

openvinotoolkit / nncf

PINTO0309 / onnx2tf

huggingface / optimum-intel

AntonioGr7 / pratical-llms

dbohdan / hicolor

swastikmaiti / Llama-2-7B-Chat-PEFT

intel / auto-round

intel / intel-extension-for-pytorch

gaoj0017 / RaBitQ

Improve this page

Add this topic to your repo