§ .`ƒi”ãó<—ddlmZddlmZddlZddlmZdZdZddgZ dej d ed ededej f d „Zdej e eze ej zde efd„Zdej e eze ej zdzdede efd„Zdej dede eeeefdej fd„Zdej dede eeeefdej fd„Zdejdej dede eeeefdej f d„Zdej dej dej fd„Zdeej deedeej dffd„Zdej e ej zdej fd „Zd!ej e ej zdej e ezdzd"edej fd#„ZdS)$é)ÚSequence)ÚcastNié)éér)rréÚinput_lengthÚpaddingÚkernel_sizeÚstrideÚreturncó$—|d|zz|z |zdzS)z6Calculate Conv1d output length using standard formula.rr©)r r rrs ú{/home/jaya/work/projects/VOICE-AGENT/VIET/agent-env/lib/python3.11/site-packages/vllm/model_executor/models/glmasr_utils.pyÚ_calculate_conv_output_lengthrs"€ð ˜1˜w™;Ñ&¨Ñ4¸Ñ?À!ÑCÐCóÚchunk_countscó—t|tj¦«r| ¦«S|rQt|dtj¦«r1t t tj|¦«}d„|D¦«Sd„|D¦«S)NrcóP—g|]#}t| ¦«¦«‘Œ$Sr)ÚintÚitem©Ú.0Úcs rú z)_as_list_chunk_counts.. s&€Ð5Ð5Ð5 !•A—F’F‘H”H‘ ” Ð5Ð5Ð5rcó,—g|]}t|¦«‘ŒSr)rrs rrz)_as_list_chunk_counts..!s€Ð)Ð)Ð)qC‰FŒFÐ)Ð)Ð)r)Ú isinstanceÚtorchÚTensorÚtolistrÚlist)rÚ tensor_countss rÚ_as_list_chunk_countsr#s‡€õ,¥¤Ñ-Ô-ð%Ø×"Ò"Ñ$Ô$Ð$Øð6 <°¤?µE´LÑAÔAð6ÝT¥%¤,Ô/°Ñ>Ô>ˆ Ø5Ð5 }Ð5Ñ5Ô5Ð5Ø)Ð)˜LÐ)Ñ)Ô)Ð)rÚ num_chunkscó0—|€dg|zSt|¦«S©Nr)r#)rr$s rÚ_normalize_chunk_countsr'$s%€ðÐØˆsZÑÐÝ Ñ.Ô.Ð.rÚ audio_lengthsÚmerge_factorÚconv_paramscóN—|D]\}}}t||||¦«}Œ||z |zdzSr&)r)r(r)r*r rrs rÚ&_get_audio_output_lengths_from_lengthsr,-sK€ð )4ð ð Ñ$ˆ˜fÝ5Ø˜7 K°ñ ô ˆ ˆ ð ˜LÑ(¨\Ñ9¸AÑ=Ð=rÚmaskcóN—| d¦«}t|||¦«S)Néÿÿÿÿ)Úsumr,)r-r)r*r(s rÚ#_get_audio_output_lengths_from_maskr19s,€ð —H’H˜R‘L”L€MÝ1Ø| [ñôðrÚaudio_towercó¤—t|d¦«r| |¦«\}}n|}|D]\}}}t||||¦«}Œ||z |zdzS)a Calculate the output lengths after audio processing. The output length accounts for: 1. Convolution layers (downsampling) 2. Merge factor (further downsampling during projection) Args: audio_tower: The audio encoder module audio_lengths: Input feature lengths [batch_size] merge_factor: Factor for merging adjacent features conv_params: List of (padding, kernel_size, stride) for each conv layer Returns: Output lengths after all processing [batch_size] Ú _get_feat_extract_output_lengthsr)Úhasattrr4r) r2r(r)r*Ú_Úconv_output_lengthsr rrs rÚ#_get_audio_output_lengths_for_towerr8Ds‰€õ.ˆ{Ð>Ñ?Ô?ð Ø!,×!MÒ!MØñ" ô" ÑˆÐÐð,ÐØ,7ð ð Ñ(ˆG[ &Ý"?Ø# W¨k¸6ñ#ô#ÐÐð ,Ñ.°<Ñ?À!ÑCÐCrÚaudio_featuresÚaudio_output_lengthscó—|j\}}}| d¦«}tj|¦« ||¦« |j¦«|k}|| d|¦«S)Nrr/)ÚshapeÚ unsqueezerÚarangeÚexpandÚtoÚdeviceÚview)r9r:r$Úmax_audio_tokensÚ embed_dimÚaudio_features_masks rÚ!_flatten_audio_features_by_lengthrFks‚€ð/=Ô.BÑ+€JÐ )Ø/×9Ò9¸!Ñ<Ô<Ðå ŒÐ%Ñ&Ô&ß Š Ð,Ñ -Ô -ß ŠÐ Ô'Ñ (Ô (Ø ò ððÐ-Ô.×3Ò3°B¸ ÑBÔBÐBrÚchunk_embeddings.có¨—g}d}|D]=}||||z…}| tj|d¬¦«¦«||z }Œ>t|¦«S)Nr)Údim)ÚappendrÚcatÚtuple)rGrÚgrouped_embeddingsÚcurrent_idxÚcountÚaudio_chunkss rÚ_group_audio_embeddingsrQzsp€ðÐØ€KØððˆØ'¨°kÀEÑ6IÐ(IÔJˆØ×!Ò!¥%¤)¨L¸aÐ"@Ñ"@Ô"@ÑAÔAÐAØuÑˆˆÝÐ#Ñ$Ô$Ð$rcóÄ—t|t¦«rJ|r4t|dtj¦«rtj|¦«ntj|¦«S|S)z>Convert mask to tensor, handling both list and tensor formats.r)rr!rrÚstackÚtensor)r-s rÚ_normalize_to_tensorrU‡s^€å$ÑÔð ðð $Ý" 4¨¤7E¬LÑ9Ô9ð $EŒK˜ÑÔÐå”˜dÑ#Ô#ð ð €KrÚfeature_attention_maskÚitem_idxcón—|€F||}t|tj¦«r| d¦«St |¦«St|¦«}t |d|…¦«}|||z}t|tj¦«r |||…S|||…}t |¦«S)z1Extract attention mask for a specific audio item.Nr)rrrr=rUr#r0)rVrrWr-ÚcountsÚ start_idxÚend_idxÚ mask_slices rÚ_extract_mask_for_itemr]’sÁ€ðÐà% hÔ/ˆÝÐ,e¬lÑ;Ô;ð %Ø—>’> !Ñ$Ô$Ð$Ý# DÑ)Ô)Ð)õ# <Ñ 0Ô 0€FÝF˜9˜H˜9Ô%Ñ&Ô&€IØ˜& Ô*Ñ*€GõÐ(%¬,Ñ7Ô7ð9Ø% i°Ð&7Ô8Ð8Ø'¨ °'Ð(9Ô:€JÝ Ñ+Ô+Ð+r)Úcollections.abcrÚtypingrrÚtorch.nnÚnnÚDEFAULT_MAX_AUDIO_LEN_SÚDEFAULT_MERGE_FACTORÚDEFAULT_CONV_PARAMSrrrr!r#r'rLr,r1ÚModuler8rFrQrUr]rrrúrfsCðð%Ð$Ð$Ð$Ð$Ð$ØÐÐÐÐÐà€€€ØÐÐÐÐÐàÐØÐð! )Ð,ÐðDØ”,ðDØ),ðDØ;>ðDØHKðDà „\ðDðDðDðDð*Ø”, c¤Ñ*¨T°%´,Ô-?Ñ?ð*à ˆ#„Yð*ð*ð*ð*ð/Ø”, c¤Ñ*¨T°%´,Ô-?Ñ?À$ÑFð/àð/ð ˆ#„Yð/ð/ð/ð/ð >Ø”<ð >àð >ðe˜C c˜MÔ*Ô+ð >ð„\ð >ð >ð >ð >ðØ Œ,ðàððe˜C c˜MÔ*Ô+ðð„\ð ðððð$DØ”ð$Dà”<ð$Dðð$Dðe˜C c˜MÔ*Ô+ð $Dð „\ð$Dð$Dð$Dð$DðNCØ”LðCàœ,ðCð„\ðCðCðCðCð %Ø˜uœ|Ô,ð %à˜3”-ð %ðˆ5Œ<˜ÐÔð %ð %ð %ð %ð˜uœ|¨d°5´<Ô.@Ñ@ðÀUÄ\ððððð,Ø!œL¨4°´Ô+=Ñ=ð,à”, c¤Ñ*¨TÑ1ð,ðð,ð„\ð ,ð,ð,ð,ð,ð,r