use fast attention

2025-12-15 02:07:03 +00:00 · 2025-03-07 17:38:36 -08:00
parent 0e886595bf
commit 8934324b72
3 changed files with 8 additions and 14 deletions
--- a/model/models/gemma3/model.go
+++ b/model/models/gemma3/model.go
@@ -138,8 +138,8 @@ func (m *Model) PostTokenize(ctx ml.Context, inputs []input.Input) ([]input.Inpu
 				{Token: 255999}, // "<start_of_image>""
 			}

-			// <image_soft_token>
-			imageInputs = append(imageInputs, slices.Repeat([]input.Input{{Token: 262144}}, 256)...)
+			// pad inputs with placeholders for image embeddings
+			imageInputs = append(imageInputs, slices.Repeat([]input.Input{{Token: 0}}, 256)...)
 			// <end_of_image>
 			imageInputs = append(imageInputs, input.Input{Token: 256000})