ollama37

mirror of https://github.com/dogkeeper886/ollama37.git synced 2025-12-10 15:57:04 +00:00

Files

Jeffrey Morgan 08f1e18965 Offload layers to GPU based on new model size estimates (#1850 )

* select layers based on estimated model memory usage

* always account for scratch vram

* dont load +1 layers

* better estmation for graph alloc

* Update gpu/gpu_darwin.go

Co-authored-by: Bruce MacDonald <brucewmacdonald@gmail.com>

* Update llm/llm.go

Co-authored-by: Bruce MacDonald <brucewmacdonald@gmail.com>

* Update llm/llm.go

* add overhead for cuda memory

* Update llm/llm.go

Co-authored-by: Bruce MacDonald <brucewmacdonald@gmail.com>

* fix build error on linux

* address comments

---------

Co-authored-by: Bruce MacDonald <brucewmacdonald@gmail.com>

2024-01-08 16:42:00 -05:00

gpu_darwin.go

Offload layers to GPU based on new model size estimates (#1850 )

2024-01-08 16:42:00 -05:00

gpu_info_cpu.c

Fix windows system memory lookup

2024-01-03 08:50:01 -08:00

gpu_info_cuda.c

Detect very old CUDA GPUs and fall back to CPU

2024-01-06 21:40:29 -08:00

gpu_info_cuda.h

Detect very old CUDA GPUs and fall back to CPU