cuadron11 commited on
Commit
3763069
·
verified ·
1 Parent(s): b9e144c

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,803 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - dense
7
+ - generated_from_trainer
8
+ - dataset_size:5999
9
+ - loss:MultipleNegativesRankingLoss
10
+ base_model: BSC-LT/MrBERT
11
+ widget:
12
+ - source_sentence: Zein da paleoartisten eginkizuna kaskezurren berreraikuntzan?
13
+ sentences:
14
+ - 'Behargin bat hil da Urizaharrean
15
+
16
+
17
+ Behargin bat hil da gaur arratsaldean Urizaharreko (Araba) harrobian izan den
18
+ lan istripuan. Ertzaintzak 14:26an izan du gertakariaren berri, eta larrialdi
19
+ zerbitzuak istripua gertatu den lekura bertaratu dira, baina ez dute langilea
20
+ erreskatatzea lortu. Oraindik ez dute argitu istripua zerk eragin duen, baina,
21
+ lehen informazioen arabera, langilea makina batean harrapatuta geratu da. Larrialdi
22
+ zerbitzuak istripua jazo den lekuan dira oraindik. Ertzainak eta Arabako suhiltzaileak
23
+ bertaratu dira.
24
+
25
+
26
+ Aurten Euskal Herrian beharrean ari zela hil den zortzigarren langilea da, eta
27
+ aste honetako laugarrena. Atzo bertan gizon bat hil zen Errenteriako (Gipuzkoa)
28
+ Altzate auzoan, aldamio batetik erorita. Eta herenegun garraiolari bat hil zen
29
+ Cadreitako (Nafarroa) istripu batean. Astelehenean, berriz, beste langile bat
30
+ hil zen istripuz, Nafarroa iparraldean, Arriben (Araitz). Eskailera bat egiten
31
+ ari zela, zortzi metrotik erori zen.'
32
+ - 'Gimenezek oharatarazi du: «Orain badugu modua herri proiektua berriz lantzeko,
33
+ eta proiekturik gabe ez dago herritarrak motibatzerik». Izan ere, aldi berean
34
+ arazoaren fruitua eta arazoaren parte dira independentismoari iragarritako emaitzak
35
+ eta hautagaitzen atomizazioa. Peña-Lopezek hauxe azpimarratu du: «Ez dago inolako
36
+ adostasunik urriaren 1ekoaren analisia egiteko orduan, eta, beraz, ezinezkoa da
37
+ batasuna izatea eta herri proiektu batua osatzea baita gutxienekoetan edo ekintzetan,
38
+ helburuetan edo mugetan ere. Kontua ez baita proiektua bizkorrago edo mantsoago
39
+ egitea, ezkerreko aldera jotzea edo eskuineko aldera jotzea, baizik eta zehaztu
40
+ gabe daudela denontzako moduko gutxieneko batzuk».
41
+
42
+
43
+ «2015eko irailaren 29an, parlamentuko deklarazioa bozkatu zen egunean, argi geratu
44
+ zen independentismoak gaizki kalkulatu zuela zer-nolako hegemonia zuen benetan,
45
+ eta hori ordaindu egiten da», nabarmendu du Pachecok. «Orain ikusten ari gara
46
+ zein diren ondorioak: gehiengoa gal daiteke parlamentuan, eragin sozialak larriak
47
+ dira, alde batera geratzen ari da oinarria zabaltzeko ideia, eta indarra galdu
48
+ da gizartean». Eta irmo azpimarratu du: «Nolabaiteko arinkeriaz jokatu zuten gobernua
49
+ egituratzeko orduan. Erbesteko gobernu bat osatzea erabakitzen bada, modu serioan
50
+ egin behar da, ondorio guztietarako».
51
+
52
+
53
+ Motibatzailea eta gizarte talde askoren batzailea izandako prozesu hura presaka
54
+ abiatu izanaren ondorio da, hiru politologoen ustez, independentismoaren zatiketa.
55
+ Hirurak bat datoz desilusioa ekarri duela edo, behintzat, egoera batekin gehiegi
56
+ lotutako motibazioa bultzatu zuela deklarazioak epe bat jarri izanak (18 hilabete),
57
+ pentsatu gabe atzeraldiak eta gatazka instituzional eta sozialak izan zitezkeela.
58
+ Pachecok gogorarazi duenez, «garai batean jende guztiak bere kabuz pentsatzen
59
+ zuen nolakoa izan behar zuen herrialdeak, besteekin kontrastatu gabe, bakoitzak
60
+ bere eredua amestuta».
61
+
62
+
63
+ «Erbesteko gobernu bat osatzea erabakitzen bada, modu serioan egin behar da, ondorio
64
+ guztietarako».'
65
+ - 'Kas-kas kaskezurrari
66
+
67
+
68
+ Mundu honetan Beltzaren eskuek egin zidaten batzarri, ene kaskezurra fermuki hartu
69
+ zuelarik. Hola abiatu nuen pasaia gizatiarra.
70
+
71
+
72
+ Adrie Kennisek hala dio: «Burezurretik hasten da dena». Alfons anaia biritxiarekin
73
+ batera, kaskezurra eskuetan hartu eta biziarazten dute. Alta, ez dira emaginak,
74
+ ezta ere doulak: Herbehereetako paleoartistak baizik. Konparazione, Lucy australopitekusaren
75
+ burezurra eskuetan tinkatu eta gorpuztu dute, DNA izpi batek lagundurik.
76
+
77
+
78
+ Neolitoko Ötzi momifikaturik atzeman zutelarik Alpeetan, haren eskultura obratu
79
+ zuen bikoteak 2011n. Gerora, ordea, zientziaren aitzinamenduek azaleratu dute
80
+ larrua aisa ilunagoa zuela, eta burusoila omen zela. Horregatik ere, Britainia
81
+ Handiko Cheedar ehiztari-biltzailearen berreraikitze berria eskatu diete artistei,
82
+ paleogenetikaren aurkikuntzek erakutsi baitute, larruaren iluntasunez gain, begi
83
+ urdinak ere bazituela.
84
+
85
+
86
+ Ene buruari galdetu diot ea ene kaskezurrak nehoiz salatuko ote duen nolakoak
87
+ ziren ene gorputz-adierazpenak eta morfologia.'
88
+ - source_sentence: Zer dinamika eta proposamen alternatibo behar dira egungo ekoizpen
89
+ eta kontsumo eredua aldatzeko?
90
+ sentences:
91
+ - 'Tapiak fiskalaren aurrean deklaratu zuen iaz, ''Davalor auziari'' lotuta
92
+
93
+
94
+ Arantxa Tapia Eusko Jaurlaritzako Ekonomiaren Garapen, Jasangarritasun eta Ingurumen
95
+ sailburuak fiskaltzaren aurrean «ikertu gisa» deklaratu zuen 2023a amaitu aurretik.
96
+ Nafarroako PPko buruzagi ohi Jaime Ignacio del Burgok jarritako salaketa baten
97
+ harira egin zuen. Hark «influentzia trafikoa» leporatu zion Tapiari, Nafarroako
98
+ Gobernuko Garapen Ekonomikoko kontseilari ohi Manu Aierdi konbentzitu zuelakoan
99
+ Davalor enpresari 2,6 milioi euroko diru laguntza bat emateko, Sodena sozietate
100
+ publikoaren bitartez.
101
+
102
+
103
+ Fiskaltzaren zitazioa jaso ostean, Tapiak Eusko Jaurlaritzako Etika Publikorako
104
+ Batzordeari eman zion haren berri, eta Gobernantza Publiko eta Autogobernuko sailburu
105
+ Olatz Garamendik zuzendutako taldeak abenduaren 27an ebatzi zuen haren inguruan;
106
+ Eldiario.es-en arabera, Tapiak jada deklaratu zuen ordurako. Ebazpenean ageri
107
+ denez, auzia ikerketa aurreko fasean zegoela jaso zuen Tapiak —dokumentuan ez
108
+ da izenik ageri— «ikertu gisa entzuna izateko» EAEko Fiskaltzaren zitazioa. Hau
109
+ da, auzia ez da epaitegietara iritsi; kasu honetan, EAEko Auzitegi Nagusiko instrukzio
110
+ epaitegi batera, sailburua foruduna baita.
111
+
112
+
113
+ Etika Publikorako Batzordeak abenduan ebatzi zuen ez dagoela Tapiak bere karguan
114
+ jarraitzeko arazorik ere, epaitegi batek ahozko epaiketa ireki ezean. Era berean,
115
+ adierazi zuen sailburuak fiskalari eta, hala «badagokio, instrukzio epaitegiari»,
116
+ laguntzen jarraitu behar duela.'
117
+ - '2022an Nafarroako esportazioak %11,2 hazi ziren 2021aren aldean. Baina aldi berean
118
+ inportazioak are gehiago hazi ziren, %26,8. Horrela, energia gutxiago kontsumitzen
119
+ dugun itxuraren atzean, BPGa igota ere, albiste txar bat ezkutatzen da: barneko
120
+ energia-kontsumoaren beherakadak energia kontsumo esternalizatua, kontabilizatu
121
+ gabea eta sostengaezina eskatzen du, planetako beste leku batzuetatik ondasunak
122
+ inportatu eta garraiatzen direlarik. Munduko energia-kontsumoaren eta berotegi-efektuko
123
+ gasen isurketen hazkundeari egiten diogun ekarpena da.
124
+
125
+
126
+ Erakundeen diskurtsoak, kapitalismo berdearen bozgorailu gisa, errealitatearekin
127
+ talka egiten du. Hazkunde ekonomikoaren eta ondasunen ekoizpenaren ilusioa inposatu
128
+ nahi zaigu, energia-iturri berriztagarrien eta garapen teknologikoaren bidez.
129
+ Egiatan, energia-kontsumo bera (barrukoa gehi kanpora ateratakoa) eta kutsadura-maila
130
+ bera mantentzen edo hau handiagotzen jarraitzen dugu; aldiz, berriztagarriekin
131
+ ez gara erregai fosilak ordezkatzen ari, eta berriztagarrien hedapenak material
132
+ berrien estraktibismoa areagotzen du, honek ekosistemen jasangarritasunean duen
133
+ inpaktuarekin. Datuek eta ebidentzia zientifikoek beste bide baten beharra adierazten
134
+ digute.
135
+
136
+
137
+ Beste dinamika eta proposamen batzuk behar ditugu, egungo ekoizpen, kontsumo eta
138
+ enpresa-irabazien bilaketarako eredua zalantzan jartzen duten agertoki berriak
139
+ irekitzeko. Baliabide naturalen eta kutsaduraren erabilera murriztuz, egiazkoak
140
+ eta materialki eraginkorrak diren politikak garatuz, hemen eta planetako gainerako
141
+ lekuetan berdintasun sozialera eta ongizate kolektibora eramango gaituztenak.'
142
+ - 'Norabidea berrestea
143
+
144
+
145
+ Iragan urteetako joerak finkatzen ari direla iritzi diote BERRIAko musika kritikariek:
146
+ hala nola elektronikaren hedapena eta post-punkaren indartzea. Dena dela, «eszenaren
147
+ pluraltasuna» ere nabarmendu dute.
148
+
149
+
150
+ Urte berri bat hasteak ekar dezake, batzuetan, kolpez bidea aldatzea. Baita musikan
151
+ ere. Inoiz, ailegatu dira euskal eszena guztiz astindu duten joera berri eta apurtzaileak,
152
+ aurrez ezarritako ildoetatik apartekoak zabaldu dituztenak, eta erakutsi dituzte
153
+ beste paisaia batzuk. 2023an, baina, zenbait talderen pausa eta agur iragarpenak
154
+ eta beste salbuetsita, susmo bat da nagusi: 2022aren aldean, noranzkoa berbera
155
+ ez ote den. Oro har, tesia hori dela iradoki dute, nork bere manerara, Urko Ansa,
156
+ Julen Azpitarte, Ihintza Orbegozo eta Andoni Tolosa BERRIAko musika kritikariek.
157
+ «Ez dut uste euskal musika asko aldatzen denik urte batetik bestera», esplikatu
158
+ du Azpitartek. «Norabidearen berrestea» aipatu Orbegozok.
159
+
160
+
161
+ «Inpresioa daukat aurreko urteetako joerak berretsi direla», garatu du Orbegozok
162
+ ideia. Inguruari erreparatuz, aise antzeman ditu aipatu joera horietako batzuk.
163
+ Adibidez, belaunaldi berriek Euskal Herrian «errotutako» rockaren eta punkaren
164
+ tradizioa hautsi nahia, orain dela zenbait hamarkada genero horietan ari ziren
165
+ gazteen antzerako «errebeldiaz» baina rap, trap, reggaetoi doinuak eginez eta
166
+ entzunez. Bestalde, kritikariak nabarmendu du musika elektronikoa are eta gehiago
167
+ hedatu dela aurten. «Beste leku batzuetan baino beranduago bada ere, eta horri
168
+ eskerrak, elektronikaren azpigeneroen inguruko ezagutza gero eta zabalagoa da,
169
+ eta, izatez, horietako asko kultuzko musika motatzat ere jotzen dira gaur egun».
170
+
171
+
172
+ Eztanden segidak'
173
+ - source_sentence: Zer neurri hartu ditu EAJk pailazoen ikuskizunaren inguruan?
174
+ sentences:
175
+ - 'Donostiako Onkologikoaren integrazioa Osakidetzan
176
+
177
+
178
+ Osasun Saila: «Aukera emango du Euskadi nazioartean kokatzeko onkologiaren arloan»
179
+
180
+
181
+ Onkologikoa sare publikoan integratu ostean, protoi terapiako zentro berrian jarri
182
+ du arreta Alberto Martinezen taldeak. Haien esanetan, bi azpiegura horiek jauzi
183
+ garrantzitsu bat ekarriko dute onkologiako zerbitzuen garapenean.
184
+
185
+
186
+ Alberto Martinez Osasun sailburuak iragarri zuen otsailean: ekainaren 30ean ipini
187
+ zuen Onkologikoa Osakidetzaren barruan integratzeko data. Hamabi urte igaro dira
188
+ 2013an Eusko Legebiltzarrak onartu zuenetik Onkologikoa osasun sistema publikoan
189
+ txertatzea eskatzeko mozioa.
190
+
191
+
192
+ Urteak joan eta urteak etorri, 2018an heldu zion Jaurlaritzak eskaerari: orduan
193
+ sartu zen indarrean Onkologikoaren publifikazioa arautuko zuen dekretua. Handik
194
+ gutxira, Onkologikoa hasia zen bere jarduerak egokitzen Osakidetzaren plangintzara.
195
+
196
+
197
+ Bost urteko geldialdiaren ostean berrekin zion prozesuari —COVID-19ak eragindako
198
+ pandemia tartean—. 2023an hasi zuten integrazioa gauzatzeko pausoak ematen: hasieran
199
+ zerbitzuena bakarrik, eta, gero, funtzionala —azpiegiturak eta langileak barne—.
200
+
201
+
202
+ 2024ko urrian, Osasun Sailak jakitera eman zuen Onkologikoaren izaera monografikoa
203
+ baztertzeko erabakia, «Donostialdea ESIko profesionalei entzun ondoren».
204
+
205
+
206
+ Luze joan da prozesua. Osasun Sailak argudiatu duenez, «konplexutasun handiko
207
+ prozesua da administrazioaren, zuzenbidearen eta lanaren ikuspegitik». Dena dela,
208
+ gustura daude emaitzarekin: «Onkologikoa Donostialdeko ESIan integratzeko prozesuak,
209
+ protoi terapiako eraikin berriaren ondoan, eragin positiboa izango du euskal gizarte
210
+ osoarentzat, eta aukera emango du Euskadi nazioartean kokatzeko onkologiaren arloan».
211
+
212
+
213
+ Protoi terapiako zentroa nola izango den irudikatzen duen infografia. BERRIA
214
+
215
+
216
+ Protoi terapiako zentroa, 2027rako prest'
217
+ - 'Rousseauk jakinarazi du protesta ekintzak egingo dituztela aste osoan, «eta beharrezkoa
218
+ den denbora guztian ere».
219
+
220
+
221
+ Bilera, arratsaldean
222
+
223
+
224
+ Parisko gobernua laborarien haserrea baretu nahian dabil azken egunotan. Gabriel
225
+ Attal lehen ministroa eta Marc Fesneau Laborantza ministroa 18:00etan bilduko
226
+ da FNSEAren eta haren gazte adarreko buruzagiekin. Aurretik, Fesneauk iragarri
227
+ du gibeleratu egingo dutela laborantzako lege proiektua. Etzi zuen aurkeztekoa,
228
+ baina aste batzuk hartuko dituzte orain zenbait aldaketa egiteko; horien artean,
229
+ laborari gazteak instalatzeko prozedurak errazteko.
230
+
231
+
232
+ Duela bi aste hartu zuen gobernuaren gidaritza Attalek, eta nekazarien krisiari
233
+ aurre egin behar dio lehen-lehenik. Asko du jokoan, Emmanuel Macron presidenteak
234
+ ez duelako nahi laborarien haserrea jaka horien protestaren mailara iristea. Osagai
235
+ politikoak ere baditu krisiak, eskuin muturra (RN Batasun Nazionala) eta eskuina
236
+ (Errepublikanoak) krisiari etekin politikoa atera nahian dabiltzalako.'
237
+ - 'duela egiten. Haien asmoa ez da inor betatzea, inor debekatzea edota jazartzea,
238
+ baina aizu, terrorismoaren biktimak mintzen badira, EAJren lana da pailazoei belarritik
239
+ tira egitea, haien ikuskizuna agendatik kentzea, espazio publikoa galaraztea eta,
240
+ zergatik ez, «ikerketa» bat abiatzea. Nor mintzen du ikerketa batek, erruduna
241
+ ez bada? Ikerketa bat gauza immakulatua da, gardena eta zuria. Ez da hainbesterako!
242
+ Ikerketa hitzak, ordea, tresna politiko bezala erabilita, mezu inplizitu bat uzten
243
+ du herritarren kontzientzian: «Ez da guk esaten dugulako, baina, ikusten?, ezker
244
+ abertzale inguruko jende guztiak darama terrorista'
245
+ - source_sentence: Zer irizpide etiko unibertsal ikasi zituen Joshuak Egipton?
246
+ sentences:
247
+ - 'EAJk botoen laurdenak galdu ditu Urdaibaiko 22 udalerrietan
248
+
249
+
250
+ Hauek dira Urdaibaiko biosferaren erreserbaren koordenatuak: ipar latitudea, 43º
251
+ 12’ eta 43º 28’ bitartean; mendebaldeko longitudea, 2º 33’ eta 2º 46‘ bitartean.
252
+ Espazio babestu horretan, Bizkaiko 22 udalerri daude, gehienak Busturialdekoak
253
+ (hemeretzi), eta horietan denetan izan da gai garrantzitsua botoa erabakitzean
254
+ biosferaren barruan eraiki nahi duten Guggenheim berriaren proiektua. Horietako
255
+ udalerri gehienak herri txikiak dira; hirugarren sektorea eta bereziki turismoari
256
+ lotutako jarduerak indarrez bultzatuko lituzkeen egitasmo horren eragina igar
257
+ lezakete leku horietan. Bada, 2019tik 2023ra, bere botoen ia laurdenak galdu ditu
258
+ Guggenheim berria sustatzen ari den alderdi politikoak, EAJk, erreserbako 22 udalerriak
259
+ osorik hartuta. 18.089 boto lortu zituen 2019ko udal hauteskundeetan, eta 13.692
260
+ atera zituen iazko udal bozetan, 4.397 boto galduta. Urdaibain egitekoa den proiektu
261
+ horren eztabaida pil-pilean den honetan, %24,3ko boto galera hori beste aldagai
262
+ bat da luze gabe egingo diren Eusko Legebiltzarrerako hauteskundeen ekuazioan.'
263
+ - 'Gutunaren testuan, Dusselek dio Joshuaren familiak, Daviden dinastiaren ondorengoak,
264
+ Belenera joan behar izan zuela haurra jaiotzera. Baliabiderik ez zutenez, etorkin
265
+ pobreak zirenez, Mariak behartsu erditu bide zuen haurra, «pixoihaletan bildu
266
+ eta aska batean etzan zuen, ostatuan lekurik aurkitu ez zutelako». Erromatar Inperioko
267
+ monarka kolonialak, Herodesek, Daviden ondorengo bat jaio zitekeela jakitean,
268
+ egun batean boterea lehiatuko ote zitzaion beldurrez, «Belenen eta bere inguruetan
269
+ bi urtetik beherako ume guztiak hiltzea» agindu zuen. Josek «Herodes mutikoa hiltzeko
270
+ haren bila zebilela» jakin zuenean, bere familia hartu, Egiptora joan eta han
271
+ geratu ziren Herodes hil zen arte. Beraz, Joshuaren bizitza pobreziaren, umiliazioaren,
272
+ zapalkuntzaren arriskuan hasi zen eta jaio orduko ia hil egin zuten. Jazarri politiko
273
+ bat zen orduan! Bai, jazarri politikoa eta ez erlijiosoa, hiltzen saiatu zirelako,
274
+ «zeren Joshuaren genealogian, Gantzuduna, Daviden ondorengoa zela adierazten baitzen».
275
+
276
+
277
+ Gero, Joshua, Egipton, erbesteratu politiko eta etorkin gisa bizi izan zen, eta
278
+ han asko ikasi zuen zibilizazio hartatik. Ikasi zituenen artean, garrantzitsuenak,
279
+ Azken Judizioan oinarrizko printzipio gisa zerrendatzen dituen irizpide etiko
280
+ unibertsalak izan ziren. Gertaera hau oso ospatua izan ohi zen egiptoar tradizioetan,
281
+ eta Ma''at justiziaren Jainkosa Handia zen protagonista eta epaile gorena. Ma''at
282
+ jainkosak bere aurrean Berpizkundea eskatuz agertzen zitzaion hildakoari galdetzen
283
+ zion zein ekintza on egin zuen bere bizitzan, eta hildakoak erantzuten zion: «Nik
284
+ eman diot ogia gosetuari, ura egarrituari, jantzia biluziari, txalupa erromesari».
285
+ Egiptoko Hildakoen Liburuko 125. kapitulua, Joshuak Mateoren Ebanjelioan berregiten
286
+ duena.'
287
+ - 'Espazioa
288
+
289
+
290
+ Denbora eta espazioa, unibertsoaren ardatz. Lotuak daude ezinbestean, baina biak
291
+ banatzen hasita, eta bakarra aukeratu behar bagenu, zertan moldatzen garen hobeto,
292
+ huraxe hautatuko genuke bakoitzak. Nik, denbora. Aski ongi kalkulatzen dut, erlojuen
293
+ premiarik gabe, denboraren joana. Aldiz, sumatzen dut espazio kontuetan trakets
294
+ hutsa naizela. Oso umetan antzematen dio haurrak zertan den iaio eta zertan baldar...
295
+
296
+
297
+ Donostiara iritsi ziren traktoreen argazkia zekarren berripaper honek atzo, lehen
298
+ orrian. Aldarrikapen martxa zen laborariena, eta argazkiko lehen traktorearen
299
+ aurrealdean, kartoi batean eskuz idatzia, argi irakur zitekeen: «Baserritar gabe
300
+ bizirik ez». Muturrekoa. «Baserritarrik gabe bizirik ez» espero nuen nik. Gero
301
+ ohartu nintzen ez zela hain larria. Ez zela sen eskasia. Zela espazioaren kudeaketa
302
+ okerra soilik. Txartela eskuz egin zuena Baserritarrik idazten hasiko zen eta
303
+ kartoiaren ertzera azkartxo iritsi. Presaka ariko zen —espazioa eta denbora elkarri
304
+ lotuak daudela jakiteko ez dago Einstein izan beharrik—, eta beste bati ez ekitea
305
+ erabakiko zuen. Total...
306
+
307
+
308
+ Bilintxen bertsorik ezagunenetarikoa ere hala iritsi zaigu: «... maite bat maitatzen
309
+ det, baina haren jabe, sekula izateko esperantza gabe». –RIK = R.I.P.'
310
+ - source_sentence: Nor dira Hiria lokatzetan podcasteko zuzeneko saioan parte hartuko
311
+ duten Lokatza podcast feministaren sorkuntza taldeko kideak?
312
+ sentences:
313
+ - 'Era berean, saiorako propio sortutakoak izango dira Lasaren bideoak ere.
314
+
315
+
316
+ Eta biharkoaren ondoren izango al dira Lokatza gehiago? Ezetz, Agirrek berehala.
317
+ «Itzulera puntual bat da hau».'
318
+ - 'Duela hogei urte pasa New Yorken jaiotako diziplinarteko Zaharregia, txikiegia
319
+ agian proiektuaren berrinterpretazio bat ere eskainiko dute Loraldian Kirmen Uribe
320
+ idazleak, Mikel Urdangarin, Rafa Rueda eta Bingen Mendizabal musikariek eta Mikel
321
+ Valverde artistak. Martxoaren 13an izango da saio hori, Arriaga antzokian, emanaldiaren
322
+ jatorrizko titulua moldatuta: Munduari begiratzeko.
323
+
324
+
325
+ Hiria lokatzetan podcasta zuzenean egingo dute martxoaren 10ean. Lokatza podcast
326
+ feministaren sorkuntza taldeak hartuko du parte. Bertan izango dira Ainara Lasa,
327
+ Amagoia Gurrutxaga, Idurre Eskisabel, Lorea Agirre, Miren Narbaiza, Miren Amuriza
328
+ eta Lizar Begoña. Guggenheim museoaren entzungelan egingo dute zuzeneko saioa.
329
+
330
+
331
+ Horrez gainera, Basabi taldeak emanaldia izango du martxoaren 9an, Neomak taldea
332
+ ere izango da oholtzan, martxoaren 14an. Jean Mixel Bedaxagarrek martxoaren 16an
333
+ joko du Itsasmuseumen. Eta Jon Maia bertsolariak martxoaren 23an eskainiko du
334
+ Kantu berri bat gara emanaldia Euskaldunan. Bilaka kolektiboak Mitologia txikiak
335
+ dantza emanaldia eskainiko du 19an. Amaraun taularatuko dute Oihana Iguaran eta
336
+ Amaiur Luluagak 20an, eta dantza bertikaleko ikuskizun hibrido bat aurkeztuko
337
+ du Harrobia dantza taldeak 23an. Dantzariak ez ezik, bertan izango dira Itziar
338
+ Ituño aktorea eta Toti Martinez de Lezea idazlea ere.
339
+
340
+
341
+ Euskararen geroa
342
+
343
+
344
+ Hiru hitzaldiko ziklo bat ere antolatu dute: Euskara bihar. Hurrengo hamarkadetan
345
+ jarraitu beharreko norabideaz gogoeta egitea da jaialdiaren asmoa, eta Jon Sarasua,
346
+ Xan Aire eta Gartzen Garaio Atxurrak ordubeteko hitzaldi bana emango dute. Biran
347
+ izango dira saio guztiak. Martxoaren 6an ariko da Sarasua, 11n Aire, eta 18an
348
+ Garaio.'
349
+ - 'Segurtasuna bermatu
350
+
351
+
352
+ Lehendakariak azpimarratu zuen 2020ko uztailerako «Euskadi osasun zaintzako fasean»
353
+ egongo zela, eta hauteskundeak «erabateko segurtasun bermeekin» egingo zirela.
354
+ EH Bilduk, Elkarrekin Podemosek eta PPk, baina, ez zuten uste boto emaileen segurtasuna
355
+ bermatzeko baldintzak betetzen zirenik. Martxotik indarrean ziren neurri gogorrak,
356
+ tartean itxialdia, atzean utzi behar ziren herritarrak bozkalekuetara joan zitezen,
357
+ eta, osasun krisiarekin batera krisi ekonomikoa abian zela, koalizio abertzaleak
358
+ argi esan zuen hura «lehertu aurretik» egin nahi zituela hauteskundeak Urkulluk.
359
+
360
+
361
+ Batera edo bestera, Jaurlaritzako buruak uztailerako deitu zuen bozetara, pandemiaren
362
+ eta haren aurkako neurri gogorren nekea eta haserrea biziagotu aurretik herritarren
363
+ artean. Parte hartzea %52koa izan zen, inoizko apalena, eta EAJk irabazi zituen
364
+ bozak, 31 eserleku eskuratuta, aurreko hauteskundeetan baino bi gehiago, nahiz
365
+ eta 50.000 boto galdu zituen.
366
+
367
+
368
+ Uztailaren 12ko hauteskundeen aurreko asteetan, orduko Jaurlaritzako Osasun sailburu
369
+ Nekane Murga maskararik gabe azaltzen zen pandemiaren berri emateko agerraldietan.
370
+ Itxialdi gogorrak emaitza onak izan zituela azpimarratu zuten ekain bukaera eta
371
+ uztail hasiera hartan, baina, hauteskundeak egin eta egun gutxira, maskararekin
372
+ azaltzen hasi zen jarduneko sailburua, berriro ere kutsatzeen berri emateko, eta
373
+ herritarren ardura eskatzen zuen etengabe.
374
+
375
+
376
+ Europako hauteskundeak
377
+
378
+
379
+ Ordularia aurreratu egin du orain Urkulluk, eta aurrerapen hori gaur-gaurkoak
380
+ diren zenbait aldagai aintzat hartuz azaldu daitezke. Alde batera utzita bertan
381
+ behera geratutako 2020ko apirileko deialdi hark logika ematen dion ala ez aurtengo
382
+ deialdiari, Europako Parlamenturako bozak dira Urkulluren erabakia azaltzeko aldagai
383
+ garrantzitsuetako bat; ekainaren 9an egingo dira horiek. EAJk behin baino gehiagotan
384
+ adierazi du Europarako bozak «Pedro Sanchezen inguruko plebiszitu bat» izango
385
+ direla, Espainiako Estatu osoan batera egingo baitira.'
386
+ pipeline_tag: sentence-similarity
387
+ library_name: sentence-transformers
388
+ metrics:
389
+ - cosine_accuracy
390
+ model-index:
391
+ - name: SentenceTransformer based on BSC-LT/MrBERT
392
+ results:
393
+ - task:
394
+ type: triplet
395
+ name: Triplet
396
+ dataset:
397
+ name: jaunbert berria
398
+ type: jaunbert-berria
399
+ metrics:
400
+ - type: cosine_accuracy
401
+ value: 0.8679999709129333
402
+ name: Cosine Accuracy
403
+ ---
404
+
405
+ # SentenceTransformer based on BSC-LT/MrBERT
406
+
407
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [BSC-LT/MrBERT](https://huggingface.co/BSC-LT/MrBERT). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
408
+
409
+ ## Model Details
410
+
411
+ ### Model Description
412
+ - **Model Type:** Sentence Transformer
413
+ - **Base model:** [BSC-LT/MrBERT](https://huggingface.co/BSC-LT/MrBERT) <!-- at revision f3426f14d263e48daee6c4d4157169bacbd4cda6 -->
414
+ - **Maximum Sequence Length:** 8192 tokens
415
+ - **Output Dimensionality:** 768 dimensions
416
+ - **Similarity Function:** Cosine Similarity
417
+ <!-- - **Training Dataset:** Unknown -->
418
+ <!-- - **Language:** Unknown -->
419
+ <!-- - **License:** Unknown -->
420
+
421
+ ### Model Sources
422
+
423
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
424
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
425
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
426
+
427
+ ### Full Model Architecture
428
+
429
+ ```
430
+ SentenceTransformer(
431
+ (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'ModernBertModel'})
432
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
433
+ )
434
+ ```
435
+
436
+ ## Usage
437
+
438
+ ### Direct Usage (Sentence Transformers)
439
+
440
+ First install the Sentence Transformers library:
441
+
442
+ ```bash
443
+ pip install -U sentence-transformers
444
+ ```
445
+
446
+ Then you can load this model and run inference.
447
+ ```python
448
+ from sentence_transformers import SentenceTransformer
449
+
450
+ # Download from the 🤗 Hub
451
+ model = SentenceTransformer("cuadron11/jaunbert_berria")
452
+ # Run inference
453
+ sentences = [
454
+ 'Nor dira Hiria lokatzetan podcasteko zuzeneko saioan parte hartuko duten Lokatza podcast feministaren sorkuntza taldeko kideak?',
455
+ 'Duela hogei urte pasa New Yorken jaiotako diziplinarteko Zaharregia, txikiegia agian proiektuaren berrinterpretazio bat ere eskainiko dute Loraldian Kirmen Uribe idazleak, Mikel Urdangarin, Rafa Rueda eta Bingen Mendizabal musikariek eta Mikel Valverde artistak. Martxoaren 13an izango da saio hori, Arriaga antzokian, emanaldiaren jatorrizko titulua moldatuta: Munduari begiratzeko.\n\nHiria lokatzetan podcasta zuzenean egingo dute martxoaren 10ean. Lokatza podcast feministaren sorkuntza taldeak hartuko du parte. Bertan izango dira Ainara Lasa, Amagoia Gurrutxaga, Idurre Eskisabel, Lorea Agirre, Miren Narbaiza, Miren Amuriza eta Lizar Begoña. Guggenheim museoaren entzungelan egingo dute zuzeneko saioa.\n\nHorrez gainera, Basabi taldeak emanaldia izango du martxoaren 9an, Neomak taldea ere izango da oholtzan, martxoaren 14an. Jean Mixel Bedaxagarrek martxoaren 16an joko du Itsasmuseumen. Eta Jon Maia bertsolariak martxoaren 23an eskainiko du Kantu berri bat gara emanaldia Euskaldunan. Bilaka kolektiboak Mitologia txikiak dantza emanaldia eskainiko du 19an. Amaraun taularatuko dute Oihana Iguaran eta Amaiur Luluagak 20an, eta dantza bertikaleko ikuskizun hibrido bat aurkeztuko du Harrobia dantza taldeak 23an. Dantzariak ez ezik, bertan izango dira Itziar Ituño aktorea eta Toti Martinez de Lezea idazlea ere.\n\nEuskararen geroa\n\nHiru hitzaldiko ziklo bat ere antolatu dute: Euskara bihar. Hurrengo hamarkadetan jarraitu beharreko norabideaz gogoeta egitea da jaialdiaren asmoa, eta Jon Sarasua, Xan Aire eta Gartzen Garaio Atxurrak ordubeteko hitzaldi bana emango dute. Biran izango dira saio guztiak. Martxoaren 6an ariko da Sarasua, 11n Aire, eta 18an Garaio.',
456
+ 'Era berean, saiorako propio sortutakoak izango dira Lasaren bideoak ere.\n\nEta biharkoaren ondoren izango al dira Lokatza gehiago? Ezetz, Agirrek berehala. «Itzulera puntual bat da hau».',
457
+ ]
458
+ embeddings = model.encode(sentences)
459
+ print(embeddings.shape)
460
+ # [3, 768]
461
+
462
+ # Get the similarity scores for the embeddings
463
+ similarities = model.similarity(embeddings, embeddings)
464
+ print(similarities)
465
+ # tensor([[1.0000, 0.6196, 0.3253],
466
+ # [0.6196, 1.0000, 0.2515],
467
+ # [0.3253, 0.2515, 1.0000]])
468
+ ```
469
+
470
+ <!--
471
+ ### Direct Usage (Transformers)
472
+
473
+ <details><summary>Click to see the direct usage in Transformers</summary>
474
+
475
+ </details>
476
+ -->
477
+
478
+ <!--
479
+ ### Downstream Usage (Sentence Transformers)
480
+
481
+ You can finetune this model on your own dataset.
482
+
483
+ <details><summary>Click to expand</summary>
484
+
485
+ </details>
486
+ -->
487
+
488
+ <!--
489
+ ### Out-of-Scope Use
490
+
491
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
492
+ -->
493
+
494
+ ## Evaluation
495
+
496
+ ### Metrics
497
+
498
+ #### Triplet
499
+
500
+ * Dataset: `jaunbert-berria`
501
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
502
+
503
+ | Metric | Value |
504
+ |:--------------------|:----------|
505
+ | **cosine_accuracy** | **0.868** |
506
+
507
+ <!--
508
+ ## Bias, Risks and Limitations
509
+
510
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
511
+ -->
512
+
513
+ <!--
514
+ ### Recommendations
515
+
516
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
517
+ -->
518
+
519
+ ## Training Details
520
+
521
+ ### Training Dataset
522
+
523
+ #### Unnamed Dataset
524
+
525
+ * Size: 5,999 training samples
526
+ * Columns: <code>anchor</code> and <code>positive</code>
527
+ * Approximate statistics based on the first 1000 samples:
528
+ | | anchor | positive |
529
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
530
+ | type | string | string |
531
+ | details | <ul><li>min: 7 tokens</li><li>mean: 17.61 tokens</li><li>max: 37 tokens</li></ul> | <ul><li>min: 80 tokens</li><li>mean: 327.13 tokens</li><li>max: 483 tokens</li></ul> |
532
+ * Samples:
533
+ | anchor | positive |
534
+ |:-------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
535
+ | <code>Zein da Ondarroako aire zabaleko museo proiektuaren ezaugarri nagusia?</code> | <code>Aire zabaleko museo bilakatzen ari da Ondarroa?<br><br>Iaz, nirearen ondoan dagoen beste mural batek munduko hirugarren muralik onenaren saria jaso zuen, eta horrek izena eman zion Ondarroari. Proiektu oso polita da abian dagoena. Kanpoko artistak gonbidatzen dituzte, baina ez da egitasmo inbaditzailea, herriarekin eta auzoarekin harreman bat sortzen baitu sortzaileak, errespetuz. Herriko kultura irudikatzen da proiektuaren bidez, ez dira kanpoko gauzak ekartzen.<br><br>Zer abantaila ditu kalean lan egiteak?<br><br>Nik inoiz ez dut egin estudioko lanik, inoiz ez dut jarri nire artelanik erakusketetan. Nire ibilbide guztia kalean egin dut, eta kalean margotuz; edonork ikusi eta kritikatu dezake nire lana. Besteentzat marrazten dut, herriekin eta auzoekin harremana sortuz, eta nire egoa atzean utziz.<br><br>Zer esanahi du sariak zuretzat?<br><br>Nik beti esan izan dut artea ezin dela saritu. Baina, hala ere, pozgarria da horrelako aitorpen bat jasotzea; nire bizitza osoko lana saritu dutela sentitzen dut. Era berean,...</code> |
536
+ | <code>Zer ekitaldi antolatu dituzte ikastolan martxorako?</code> | <code>Martxoaren 2an Zurak eta ezpalak deitu duten proposamena izango da. Ikastolaren lehen urratsetan jardun zuten haiei ikastetxeko ateak zabalduko dizkiete, eta ikasleei emango diete hitza, aitzindari haiei azal diezaieten zer-nola ikasten duten egun ikastolan. Jai giroan egingo da, «belaunaldien arteko» harremana sustatzeko.<br><br>Martxoaren 10ean Beskoitzera (Lapurdi) bisita egingo dute, hango ikastola egoera zailean baita bertako herriko etxearen erabakien ondorioz. Ikastolen arteko elkartasun keinu bat izango da, eta elkarren berri izatekoa. Martxoaren 14an Korrika hasiko da, eta horren inguruan ere egingo dituzte ekintzak.<br><br>Ekainean jaiaren abestia eta bideoklipa aurkeztuko dituzte.</code> |
537
+ | <code>Zein da hizkuntza berean ari diren sortzaileak batuko lituzkeen elkarte baten garrantzia?</code> | <code>Multzo bateko kide sentitu, jardun berean ari direnei begira ikasi, elkarrekin aurrera egin, mugimendua sortu, jardunaren ikusgarritasuna bilatu, prestigiatu, duindu, presiobidea sortu... Elkarteei dagokien babes hori, gaur, egoera anormal, prekario, injustu eta betikotu honetan, hizkuntza berean ari garen irudigile, musikari, idazle, bertsolari, kazetari eta gainontzekoak batuko lituzkeen elkarteak emango liguke, ofizioz ofizioko zatiketak baino gehiago.</code> |
538
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
539
+ ```json
540
+ {
541
+ "scale": 20.0,
542
+ "similarity_fct": "cos_sim"
543
+ }
544
+ ```
545
+
546
+ ### Evaluation Dataset
547
+
548
+ #### Unnamed Dataset
549
+
550
+ * Size: 6,000 evaluation samples
551
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
552
+ * Approximate statistics based on the first 1000 samples:
553
+ | | anchor | positive | negative |
554
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
555
+ | type | string | string | string |
556
+ | details | <ul><li>min: 6 tokens</li><li>mean: 17.29 tokens</li><li>max: 35 tokens</li></ul> | <ul><li>min: 87 tokens</li><li>mean: 328.19 tokens</li><li>max: 526 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 153.42 tokens</li><li>max: 551 tokens</li></ul> |
557
+ * Samples:
558
+ | anchor | positive | negative |
559
+ |:----------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
560
+ | <code>Noiz iritsi ziren Erromako lehen tropak Ebroko ibarrera?</code> | <code>Duela bi mende, Viana eta Logroño arteko errepidea zabaldu zutenean, beroien herria erditik ebaki zuten; ez ziren jabetu zer kalte eragin zuten. 1971n Juan Cruz Labeaga ikerlariak aurkitu zituen material dezente toki horretan, eta orduan jabetu ziren Burdin Aroko herri baten aztarnategi bat zegoela errepideak moztutako eremuan.<br><br>2.000 urtez labore lurrak izan dira, eta aztarnategia ez dago lur azaletik oso sakon. Urteetan «lapurreta handia» izan da inguru horretan, Armendarizen esanetan, eta material arkeologiko ugari galdu da. «La Custodian esku hartu behar zen aspaldi. Ni horregatik hasi nintzen hor lanean, nola zegoen ikusita. Gauza asko suntsitu dira, baina oraindik ere merezi du lanean jarraitzea».<br><br>2017an georradarrarekin eremua aztertu, eta 2018an hasi ziren indusketak egiten; bost kata egin dituzte harrezkero, baina herria zenaren %0,2 besterik ez dute induskatu. «Esfortzua handia da, asko kostatzen da. Baina horrela egin behar dira gauzak, poliki-poliki», azaldu du Armendarize...</code> | <code>Handik kilometro gutxira, Shengjineko portuan altxatutako lehen identifikazio zentrora, 16 asilo eskatzaile iritsi ziren iragan urriaren 16an.</code> |
561
+ | <code>Zenbat muga biofisiko gainditu ditugu jada, adituen arabera?</code> | <code>Otxandianok balizko trantsizio klimatiko gisa izendatzen duenaz ere badago zer esanik. Energia iturri fosilak ordezkatzeari buruz ari da behin eta berriz, eta jakina, denok ados gaude horretan, baina egiten duen proposamenarekin ez. Egungo larritasun ekologikoa neurtzeko erabiltzen den metodologia ezagunenak bederatzi muga biofisiko hartzen ditu kontuan, eta horietako bakar bat gainditzeak egun ezagutzen dugun oreka ekologikoa apurtzeko arrisku erreala dakarrela diote adituek. Iturri beren arabera, sei gainditu omen ditugu jada. Hori jakinda, Otxandiano eta konpainiaren proposamenak klima larrialdiari erantzuteko pretentsioa du soilik, hau da, sei puntutik bakar bati erantzuteko ahalegina da, berau aurrera eraman ahal izateko egin behar den mineral eta material ezberdinen erauzketak, ekoizpenak eta abarrek beste puntu guztietan arazoa handitzea dakarten bitartean.<br><br>Baina proposamenaren antzutasuna ez da horretara mugatzen. Proposamen hau aurrera eraman ahal izateko egungo energia konts...</code> | <code>Horren adierazle, parke eolikoen egoera beste inork baino hobeto ezagutzen duten enpresa bazkideek bultzatu dute Renercycle. «Badakite zer behar dagoen. Horregatik inbertitu dute. Badakite badagoela merkatua eta behar horri erantzun beharko zaiola».<br><br>Renercycleren asmoa da parkeen jabeei zerbitzu osoa eskaintzea: «Hor barruan sartuko da makinak desmuntatzea eta zati horiek garraiatzea». Eragozpen handiko operazioak dira. Hasteko, denbora asko pasatu delako parkeak eraiki zirenetik: «Maiz, jabeak aldatu dira, baina ez diote elkarri dokumentaziorik eman, eta zailtasun teknikoak egon ohi dira horregatik». Gainera, inbertsio handia eskatzen dute: «Eraikitzeko erabili ziren tonaje handiko garabiak mobilizatu behar dira». Renercycleren asmoa da «metodo eraginkorrago bat» baliatzea parkea eraiki zenekoa baino.<br><br>Faltzesko logistika gunea<br><br>Legediaren arabera, enpresak behartuta daude mendia zegoen bezala uztera. «Ez dago baimendua —eta ongi dago hala izatea— dorreak moztea eta kutxak desegitea....</code> |
562
+ | <code>Zein da Ekuadorreko Penitenciaría del Litoral kartzelako presoen bizi-baldintza?</code> | <code>Kazetaria. Kazetaritzako irakaslea Euskal Herriko Unibertsitatean<br><br>Ekuador, bere infernuaren preso<br><br>Gas-sukaldea eta mahaiak zituzten jatetxeak, ile apaindegia, denda txiki bat edozein auzotakoa bezalakoa... eta, haren kanpoaldean, korridore luze batean, Portako publizitate-kartel txiki bat zintzilik; orduan, herrialdean telefonia mugikorreko zerbitzuak eskaintzen zituzten hiru konpainietako bat zen Porta. Ez zegoen zalantzarik, hor saltzen ziren, iragarki eta guzti, telefonia mugikorreko aurreordainketako txartelak. Errudun baino errugabe eta sistema ustel baten biktima izatearen susmagarri ziren presoekin harremanetan nengoenez, eskertzen nuen eurek aukera horretaz gozatzea, baina ez nion harritzeari uzten: jakin nezakeen kartzelan une bakoitzean zer gertatzen zen, betiere atxilotuak bere mugikorrean saldoa bazuen. Izan ere, horietako batzuk nire iturri egonkorrak ziren. Noizean behin, funtzionarioek sarekadaren batean konfiskatzen zizkieten telefonoak, barne-ordena mantentzeko baino...</code> | <code>Salhaketak lan baldintza onak opa dizkie Zaballako langileei, baina eskatu du ez dezatela presoen bizkar presio egin.</code> |
563
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
564
+ ```json
565
+ {
566
+ "scale": 20.0,
567
+ "similarity_fct": "cos_sim"
568
+ }
569
+ ```
570
+
571
+ ### Training Hyperparameters
572
+ #### Non-Default Hyperparameters
573
+
574
+ - `eval_strategy`: epoch
575
+ - `learning_rate`: 2e-05
576
+ - `num_train_epochs`: 5
577
+ - `warmup_ratio`: 0.1
578
+ - `batch_sampler`: no_duplicates
579
+
580
+ #### All Hyperparameters
581
+ <details><summary>Click to expand</summary>
582
+
583
+ - `overwrite_output_dir`: False
584
+ - `do_predict`: False
585
+ - `eval_strategy`: epoch
586
+ - `prediction_loss_only`: True
587
+ - `per_device_train_batch_size`: 8
588
+ - `per_device_eval_batch_size`: 8
589
+ - `per_gpu_train_batch_size`: None
590
+ - `per_gpu_eval_batch_size`: None
591
+ - `gradient_accumulation_steps`: 1
592
+ - `eval_accumulation_steps`: None
593
+ - `torch_empty_cache_steps`: None
594
+ - `learning_rate`: 2e-05
595
+ - `weight_decay`: 0.0
596
+ - `adam_beta1`: 0.9
597
+ - `adam_beta2`: 0.999
598
+ - `adam_epsilon`: 1e-08
599
+ - `max_grad_norm`: 1.0
600
+ - `num_train_epochs`: 5
601
+ - `max_steps`: -1
602
+ - `lr_scheduler_type`: linear
603
+ - `lr_scheduler_kwargs`: {}
604
+ - `warmup_ratio`: 0.1
605
+ - `warmup_steps`: 0
606
+ - `log_level`: passive
607
+ - `log_level_replica`: warning
608
+ - `log_on_each_node`: True
609
+ - `logging_nan_inf_filter`: True
610
+ - `save_safetensors`: True
611
+ - `save_on_each_node`: False
612
+ - `save_only_model`: False
613
+ - `restore_callback_states_from_checkpoint`: False
614
+ - `no_cuda`: False
615
+ - `use_cpu`: False
616
+ - `use_mps_device`: False
617
+ - `seed`: 42
618
+ - `data_seed`: None
619
+ - `jit_mode_eval`: False
620
+ - `use_ipex`: False
621
+ - `bf16`: False
622
+ - `fp16`: False
623
+ - `fp16_opt_level`: O1
624
+ - `half_precision_backend`: auto
625
+ - `bf16_full_eval`: False
626
+ - `fp16_full_eval`: False
627
+ - `tf32`: None
628
+ - `local_rank`: 0
629
+ - `ddp_backend`: None
630
+ - `tpu_num_cores`: None
631
+ - `tpu_metrics_debug`: False
632
+ - `debug`: []
633
+ - `dataloader_drop_last`: False
634
+ - `dataloader_num_workers`: 0
635
+ - `dataloader_prefetch_factor`: None
636
+ - `past_index`: -1
637
+ - `disable_tqdm`: False
638
+ - `remove_unused_columns`: True
639
+ - `label_names`: None
640
+ - `load_best_model_at_end`: False
641
+ - `ignore_data_skip`: False
642
+ - `fsdp`: []
643
+ - `fsdp_min_num_params`: 0
644
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
645
+ - `fsdp_transformer_layer_cls_to_wrap`: None
646
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
647
+ - `parallelism_config`: None
648
+ - `deepspeed`: None
649
+ - `label_smoothing_factor`: 0.0
650
+ - `optim`: adamw_torch
651
+ - `optim_args`: None
652
+ - `adafactor`: False
653
+ - `group_by_length`: False
654
+ - `length_column_name`: length
655
+ - `ddp_find_unused_parameters`: None
656
+ - `ddp_bucket_cap_mb`: None
657
+ - `ddp_broadcast_buffers`: False
658
+ - `dataloader_pin_memory`: True
659
+ - `dataloader_persistent_workers`: False
660
+ - `skip_memory_metrics`: True
661
+ - `use_legacy_prediction_loop`: False
662
+ - `push_to_hub`: False
663
+ - `resume_from_checkpoint`: None
664
+ - `hub_model_id`: None
665
+ - `hub_strategy`: every_save
666
+ - `hub_private_repo`: None
667
+ - `hub_always_push`: False
668
+ - `hub_revision`: None
669
+ - `gradient_checkpointing`: False
670
+ - `gradient_checkpointing_kwargs`: None
671
+ - `include_inputs_for_metrics`: False
672
+ - `include_for_metrics`: []
673
+ - `eval_do_concat_batches`: True
674
+ - `fp16_backend`: auto
675
+ - `push_to_hub_model_id`: None
676
+ - `push_to_hub_organization`: None
677
+ - `mp_parameters`:
678
+ - `auto_find_batch_size`: False
679
+ - `full_determinism`: False
680
+ - `torchdynamo`: None
681
+ - `ray_scope`: last
682
+ - `ddp_timeout`: 1800
683
+ - `torch_compile`: False
684
+ - `torch_compile_backend`: None
685
+ - `torch_compile_mode`: None
686
+ - `include_tokens_per_second`: False
687
+ - `include_num_input_tokens_seen`: False
688
+ - `neftune_noise_alpha`: None
689
+ - `optim_target_modules`: None
690
+ - `batch_eval_metrics`: False
691
+ - `eval_on_start`: False
692
+ - `use_liger_kernel`: False
693
+ - `liger_kernel_config`: None
694
+ - `eval_use_gather_object`: False
695
+ - `average_tokens_across_devices`: False
696
+ - `prompts`: None
697
+ - `batch_sampler`: no_duplicates
698
+ - `multi_dataset_batch_sampler`: proportional
699
+ - `router_mapping`: {}
700
+ - `learning_rate_mapping`: {}
701
+
702
+ </details>
703
+
704
+ ### Training Logs
705
+ | Epoch | Step | Training Loss | Validation Loss | jaunbert-berria_cosine_accuracy |
706
+ |:------:|:----:|:-------------:|:---------------:|:-------------------------------:|
707
+ | 0.1333 | 100 | 1.735 | - | - |
708
+ | 0.2667 | 200 | 0.5189 | - | - |
709
+ | 0.4 | 300 | 0.2915 | - | - |
710
+ | 0.5333 | 400 | 0.2672 | - | - |
711
+ | 0.6667 | 500 | 0.1271 | - | - |
712
+ | 0.8 | 600 | 0.1018 | - | - |
713
+ | 0.9333 | 700 | 0.0856 | - | - |
714
+ | 1.0 | 750 | - | 0.5461 | 0.8155 |
715
+ | 1.0667 | 800 | 0.0578 | - | - |
716
+ | 1.2 | 900 | 0.0282 | - | - |
717
+ | 1.3333 | 1000 | 0.0302 | - | - |
718
+ | 1.4667 | 1100 | 0.0415 | - | - |
719
+ | 1.6 | 1200 | 0.032 | - | - |
720
+ | 1.7333 | 1300 | 0.0448 | - | - |
721
+ | 1.8667 | 1400 | 0.043 | - | - |
722
+ | 2.0 | 1500 | 0.0264 | 0.4523 | 0.8348 |
723
+ | 2.1333 | 1600 | 0.0231 | - | - |
724
+ | 2.2667 | 1700 | 0.0133 | - | - |
725
+ | 2.4 | 1800 | 0.0085 | - | - |
726
+ | 2.5333 | 1900 | 0.0139 | - | - |
727
+ | 2.6667 | 2000 | 0.0163 | - | - |
728
+ | 2.8 | 2100 | 0.0144 | - | - |
729
+ | 2.9333 | 2200 | 0.0144 | - | - |
730
+ | 3.0 | 2250 | - | 0.4185 | 0.8495 |
731
+ | 3.0667 | 2300 | 0.0129 | - | - |
732
+ | 3.2 | 2400 | 0.0073 | - | - |
733
+ | 3.3333 | 2500 | 0.0054 | - | - |
734
+ | 3.4667 | 2600 | 0.0149 | - | - |
735
+ | 3.6 | 2700 | 0.0117 | - | - |
736
+ | 3.7333 | 2800 | 0.0174 | - | - |
737
+ | 3.8667 | 2900 | 0.0068 | - | - |
738
+ | 4.0 | 3000 | 0.0059 | 0.3707 | 0.8628 |
739
+ | 4.1333 | 3100 | 0.0056 | - | - |
740
+ | 4.2667 | 3200 | 0.0075 | - | - |
741
+ | 4.4 | 3300 | 0.0087 | - | - |
742
+ | 4.5333 | 3400 | 0.008 | - | - |
743
+ | 4.6667 | 3500 | 0.0084 | - | - |
744
+ | 4.8 | 3600 | 0.009 | - | - |
745
+ | 4.9333 | 3700 | 0.0063 | - | - |
746
+ | 5.0 | 3750 | - | 0.3531 | 0.8680 |
747
+
748
+
749
+ ### Framework Versions
750
+ - Python: 3.9.7
751
+ - Sentence Transformers: 5.0.0
752
+ - Transformers: 4.56.0
753
+ - PyTorch: 2.7.1+cu126
754
+ - Accelerate: 1.5.2
755
+ - Datasets: 4.0.0
756
+ - Tokenizers: 0.22.0
757
+
758
+ ## Citation
759
+
760
+ ### BibTeX
761
+
762
+ #### Sentence Transformers
763
+ ```bibtex
764
+ @inproceedings{reimers-2019-sentence-bert,
765
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
766
+ author = "Reimers, Nils and Gurevych, Iryna",
767
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
768
+ month = "11",
769
+ year = "2019",
770
+ publisher = "Association for Computational Linguistics",
771
+ url = "https://arxiv.org/abs/1908.10084",
772
+ }
773
+ ```
774
+
775
+ #### MultipleNegativesRankingLoss
776
+ ```bibtex
777
+ @misc{henderson2017efficient,
778
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
779
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
780
+ year={2017},
781
+ eprint={1705.00652},
782
+ archivePrefix={arXiv},
783
+ primaryClass={cs.CL}
784
+ }
785
+ ```
786
+
787
+ <!--
788
+ ## Glossary
789
+
790
+ *Clearly define terms in order to be accessible across audiences.*
791
+ -->
792
+
793
+ <!--
794
+ ## Model Card Authors
795
+
796
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
797
+ -->
798
+
799
+ <!--
800
+ ## Model Card Contact
801
+
802
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
803
+ -->
config.json ADDED
@@ -0,0 +1,45 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "ModernBertModel"
4
+ ],
5
+ "attention_bias": false,
6
+ "attention_dropout": 0.0,
7
+ "bos_token_id": 1,
8
+ "classifier_activation": "silu",
9
+ "classifier_bias": false,
10
+ "classifier_dropout": 0.0,
11
+ "classifier_pooling": "mean",
12
+ "cls_token_id": 1,
13
+ "decoder_bias": true,
14
+ "deterministic_flash_attn": false,
15
+ "dtype": "float32",
16
+ "embedding_dropout": 0.0,
17
+ "eos_token_id": 2,
18
+ "global_attn_every_n_layers": 3,
19
+ "global_rope_theta": 160000.0,
20
+ "gradient_checkpointing": false,
21
+ "hidden_activation": "gelu",
22
+ "hidden_size": 768,
23
+ "initializer_cutoff_factor": 2.0,
24
+ "initializer_range": 0.02,
25
+ "intermediate_size": 1152,
26
+ "layer_norm_eps": 1e-05,
27
+ "local_attention": 128,
28
+ "local_rope_theta": 10000.0,
29
+ "max_position_embeddings": 8192,
30
+ "mlp_bias": false,
31
+ "mlp_dropout": 0.0,
32
+ "model_type": "modernbert",
33
+ "norm_bias": false,
34
+ "norm_eps": 1e-05,
35
+ "num_attention_heads": 12,
36
+ "num_hidden_layers": 22,
37
+ "pad_token_id": 3,
38
+ "position_embedding_type": "absolute",
39
+ "repad_logits_with_grad": false,
40
+ "sep_token_id": 2,
41
+ "sparse_pred_ignore_index": -100,
42
+ "sparse_prediction": false,
43
+ "transformers_version": "4.56.0",
44
+ "vocab_size": 256128
45
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "model_type": "SentenceTransformer",
3
+ "__version__": {
4
+ "sentence_transformers": "5.0.0",
5
+ "transformers": "4.56.0",
6
+ "pytorch": "2.7.1+cu126"
7
+ },
8
+ "prompts": {
9
+ "query": "",
10
+ "document": ""
11
+ },
12
+ "default_prompt_name": null,
13
+ "similarity_fn_name": "cosine"
14
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b77c3dba2cc9455f859f9a97033059f7f58458224892966f82726a5ba9834fdf
3
+ size 1228164992
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 8192,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,40 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens": [
3
+ "<mask>"
4
+ ],
5
+ "bos_token": {
6
+ "content": "<s>",
7
+ "lstrip": false,
8
+ "normalized": false,
9
+ "rstrip": false,
10
+ "single_word": false
11
+ },
12
+ "eos_token": {
13
+ "content": "</s>",
14
+ "lstrip": false,
15
+ "normalized": false,
16
+ "rstrip": false,
17
+ "single_word": false
18
+ },
19
+ "mask_token": {
20
+ "content": "<mask>",
21
+ "lstrip": true,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false
25
+ },
26
+ "pad_token": {
27
+ "content": "<pad>",
28
+ "lstrip": false,
29
+ "normalized": false,
30
+ "rstrip": false,
31
+ "single_word": false
32
+ },
33
+ "unk_token": {
34
+ "content": "<unk>",
35
+ "lstrip": false,
36
+ "normalized": false,
37
+ "rstrip": false,
38
+ "single_word": false
39
+ }
40
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6840a946cbc3a9284a8b3847a6164e2abfc28541a493c472d8692b69753b26d8
3
+ size 37008218
tokenizer.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8ddbda5816a0138ffd754cbbfafceba9628342cdd91df4bea6ee86f0fb44eae9
3
+ size 4813260
tokenizer_config.json ADDED
@@ -0,0 +1,1108 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_bos_token": true,
3
+ "add_eos_token": true,
4
+ "add_prefix_space": true,
5
+ "added_tokens_decoder": {
6
+ "0": {
7
+ "content": "<unk>",
8
+ "lstrip": false,
9
+ "normalized": false,
10
+ "rstrip": false,
11
+ "single_word": false,
12
+ "special": true
13
+ },
14
+ "1": {
15
+ "content": "<s>",
16
+ "lstrip": false,
17
+ "normalized": false,
18
+ "rstrip": false,
19
+ "single_word": false,
20
+ "special": true
21
+ },
22
+ "2": {
23
+ "content": "</s>",
24
+ "lstrip": false,
25
+ "normalized": false,
26
+ "rstrip": false,
27
+ "single_word": false,
28
+ "special": true
29
+ },
30
+ "3": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false,
36
+ "special": true
37
+ },
38
+ "4": {
39
+ "content": "<|im_start|>",
40
+ "lstrip": false,
41
+ "normalized": false,
42
+ "rstrip": false,
43
+ "single_word": false,
44
+ "special": true
45
+ },
46
+ "5": {
47
+ "content": "<|im_end|>",
48
+ "lstrip": false,
49
+ "normalized": false,
50
+ "rstrip": false,
51
+ "single_word": false,
52
+ "special": true
53
+ },
54
+ "6": {
55
+ "content": "<mask>",
56
+ "lstrip": true,
57
+ "normalized": false,
58
+ "rstrip": false,
59
+ "single_word": false,
60
+ "special": true
61
+ },
62
+ "7": {
63
+ "content": "<|reserved_token_2|>",
64
+ "lstrip": false,
65
+ "normalized": false,
66
+ "rstrip": false,
67
+ "single_word": false,
68
+ "special": true
69
+ },
70
+ "8": {
71
+ "content": "<|reserved_token_3|>",
72
+ "lstrip": false,
73
+ "normalized": false,
74
+ "rstrip": false,
75
+ "single_word": false,
76
+ "special": true
77
+ },
78
+ "9": {
79
+ "content": "<|reserved_token_4|>",
80
+ "lstrip": false,
81
+ "normalized": false,
82
+ "rstrip": false,
83
+ "single_word": false,
84
+ "special": true
85
+ },
86
+ "10": {
87
+ "content": "<|reserved_token_5|>",
88
+ "lstrip": false,
89
+ "normalized": false,
90
+ "rstrip": false,
91
+ "single_word": false,
92
+ "special": true
93
+ },
94
+ "11": {
95
+ "content": "<|reserved_token_6|>",
96
+ "lstrip": false,
97
+ "normalized": false,
98
+ "rstrip": false,
99
+ "single_word": false,
100
+ "special": true
101
+ },
102
+ "12": {
103
+ "content": "<|reserved_token_7|>",
104
+ "lstrip": false,
105
+ "normalized": false,
106
+ "rstrip": false,
107
+ "single_word": false,
108
+ "special": true
109
+ },
110
+ "13": {
111
+ "content": "<|reserved_token_8|>",
112
+ "lstrip": false,
113
+ "normalized": false,
114
+ "rstrip": false,
115
+ "single_word": false,
116
+ "special": true
117
+ },
118
+ "14": {
119
+ "content": "<|reserved_token_9|>",
120
+ "lstrip": false,
121
+ "normalized": false,
122
+ "rstrip": false,
123
+ "single_word": false,
124
+ "special": true
125
+ },
126
+ "15": {
127
+ "content": "<|reserved_token_10|>",
128
+ "lstrip": false,
129
+ "normalized": false,
130
+ "rstrip": false,
131
+ "single_word": false,
132
+ "special": true
133
+ },
134
+ "16": {
135
+ "content": "<|reserved_token_11|>",
136
+ "lstrip": false,
137
+ "normalized": false,
138
+ "rstrip": false,
139
+ "single_word": false,
140
+ "special": true
141
+ },
142
+ "17": {
143
+ "content": "<|reserved_token_12|>",
144
+ "lstrip": false,
145
+ "normalized": false,
146
+ "rstrip": false,
147
+ "single_word": false,
148
+ "special": true
149
+ },
150
+ "18": {
151
+ "content": "<|reserved_token_13|>",
152
+ "lstrip": false,
153
+ "normalized": false,
154
+ "rstrip": false,
155
+ "single_word": false,
156
+ "special": true
157
+ },
158
+ "19": {
159
+ "content": "<|reserved_token_14|>",
160
+ "lstrip": false,
161
+ "normalized": false,
162
+ "rstrip": false,
163
+ "single_word": false,
164
+ "special": true
165
+ },
166
+ "20": {
167
+ "content": "<|reserved_token_15|>",
168
+ "lstrip": false,
169
+ "normalized": false,
170
+ "rstrip": false,
171
+ "single_word": false,
172
+ "special": true
173
+ },
174
+ "21": {
175
+ "content": "<|reserved_token_16|>",
176
+ "lstrip": false,
177
+ "normalized": false,
178
+ "rstrip": false,
179
+ "single_word": false,
180
+ "special": true
181
+ },
182
+ "22": {
183
+ "content": "<|reserved_token_17|>",
184
+ "lstrip": false,
185
+ "normalized": false,
186
+ "rstrip": false,
187
+ "single_word": false,
188
+ "special": true
189
+ },
190
+ "23": {
191
+ "content": "<|reserved_token_18|>",
192
+ "lstrip": false,
193
+ "normalized": false,
194
+ "rstrip": false,
195
+ "single_word": false,
196
+ "special": true
197
+ },
198
+ "24": {
199
+ "content": "<|reserved_token_19|>",
200
+ "lstrip": false,
201
+ "normalized": false,
202
+ "rstrip": false,
203
+ "single_word": false,
204
+ "special": true
205
+ },
206
+ "25": {
207
+ "content": "<|reserved_token_20|>",
208
+ "lstrip": false,
209
+ "normalized": false,
210
+ "rstrip": false,
211
+ "single_word": false,
212
+ "special": true
213
+ },
214
+ "26": {
215
+ "content": "<|reserved_token_21|>",
216
+ "lstrip": false,
217
+ "normalized": false,
218
+ "rstrip": false,
219
+ "single_word": false,
220
+ "special": true
221
+ },
222
+ "27": {
223
+ "content": "<|reserved_token_22|>",
224
+ "lstrip": false,
225
+ "normalized": false,
226
+ "rstrip": false,
227
+ "single_word": false,
228
+ "special": true
229
+ },
230
+ "28": {
231
+ "content": "<|reserved_token_23|>",
232
+ "lstrip": false,
233
+ "normalized": false,
234
+ "rstrip": false,
235
+ "single_word": false,
236
+ "special": true
237
+ },
238
+ "29": {
239
+ "content": "<|reserved_token_24|>",
240
+ "lstrip": false,
241
+ "normalized": false,
242
+ "rstrip": false,
243
+ "single_word": false,
244
+ "special": true
245
+ },
246
+ "30": {
247
+ "content": "<|reserved_token_25|>",
248
+ "lstrip": false,
249
+ "normalized": false,
250
+ "rstrip": false,
251
+ "single_word": false,
252
+ "special": true
253
+ },
254
+ "31": {
255
+ "content": "<|reserved_token_26|>",
256
+ "lstrip": false,
257
+ "normalized": false,
258
+ "rstrip": false,
259
+ "single_word": false,
260
+ "special": true
261
+ },
262
+ "32": {
263
+ "content": "<|reserved_token_27|>",
264
+ "lstrip": false,
265
+ "normalized": false,
266
+ "rstrip": false,
267
+ "single_word": false,
268
+ "special": true
269
+ },
270
+ "33": {
271
+ "content": "<|reserved_token_28|>",
272
+ "lstrip": false,
273
+ "normalized": false,
274
+ "rstrip": false,
275
+ "single_word": false,
276
+ "special": true
277
+ },
278
+ "34": {
279
+ "content": "<|reserved_token_29|>",
280
+ "lstrip": false,
281
+ "normalized": false,
282
+ "rstrip": false,
283
+ "single_word": false,
284
+ "special": true
285
+ },
286
+ "35": {
287
+ "content": "<|reserved_token_30|>",
288
+ "lstrip": false,
289
+ "normalized": false,
290
+ "rstrip": false,
291
+ "single_word": false,
292
+ "special": true
293
+ },
294
+ "36": {
295
+ "content": "<|reserved_token_31|>",
296
+ "lstrip": false,
297
+ "normalized": false,
298
+ "rstrip": false,
299
+ "single_word": false,
300
+ "special": true
301
+ },
302
+ "37": {
303
+ "content": "<|reserved_token_32|>",
304
+ "lstrip": false,
305
+ "normalized": false,
306
+ "rstrip": false,
307
+ "single_word": false,
308
+ "special": true
309
+ },
310
+ "38": {
311
+ "content": "<|reserved_token_33|>",
312
+ "lstrip": false,
313
+ "normalized": false,
314
+ "rstrip": false,
315
+ "single_word": false,
316
+ "special": true
317
+ },
318
+ "39": {
319
+ "content": "<|reserved_token_34|>",
320
+ "lstrip": false,
321
+ "normalized": false,
322
+ "rstrip": false,
323
+ "single_word": false,
324
+ "special": true
325
+ },
326
+ "40": {
327
+ "content": "<|reserved_token_35|>",
328
+ "lstrip": false,
329
+ "normalized": false,
330
+ "rstrip": false,
331
+ "single_word": false,
332
+ "special": true
333
+ },
334
+ "41": {
335
+ "content": "<|reserved_token_36|>",
336
+ "lstrip": false,
337
+ "normalized": false,
338
+ "rstrip": false,
339
+ "single_word": false,
340
+ "special": true
341
+ },
342
+ "42": {
343
+ "content": "<|reserved_token_37|>",
344
+ "lstrip": false,
345
+ "normalized": false,
346
+ "rstrip": false,
347
+ "single_word": false,
348
+ "special": true
349
+ },
350
+ "43": {
351
+ "content": "<|reserved_token_38|>",
352
+ "lstrip": false,
353
+ "normalized": false,
354
+ "rstrip": false,
355
+ "single_word": false,
356
+ "special": true
357
+ },
358
+ "44": {
359
+ "content": "<|reserved_token_39|>",
360
+ "lstrip": false,
361
+ "normalized": false,
362
+ "rstrip": false,
363
+ "single_word": false,
364
+ "special": true
365
+ },
366
+ "45": {
367
+ "content": "<|reserved_token_40|>",
368
+ "lstrip": false,
369
+ "normalized": false,
370
+ "rstrip": false,
371
+ "single_word": false,
372
+ "special": true
373
+ },
374
+ "46": {
375
+ "content": "<|reserved_token_41|>",
376
+ "lstrip": false,
377
+ "normalized": false,
378
+ "rstrip": false,
379
+ "single_word": false,
380
+ "special": true
381
+ },
382
+ "47": {
383
+ "content": "<|reserved_token_42|>",
384
+ "lstrip": false,
385
+ "normalized": false,
386
+ "rstrip": false,
387
+ "single_word": false,
388
+ "special": true
389
+ },
390
+ "48": {
391
+ "content": "<|reserved_token_43|>",
392
+ "lstrip": false,
393
+ "normalized": false,
394
+ "rstrip": false,
395
+ "single_word": false,
396
+ "special": true
397
+ },
398
+ "49": {
399
+ "content": "<|reserved_token_44|>",
400
+ "lstrip": false,
401
+ "normalized": false,
402
+ "rstrip": false,
403
+ "single_word": false,
404
+ "special": true
405
+ },
406
+ "50": {
407
+ "content": "<|reserved_token_45|>",
408
+ "lstrip": false,
409
+ "normalized": false,
410
+ "rstrip": false,
411
+ "single_word": false,
412
+ "special": true
413
+ },
414
+ "51": {
415
+ "content": "<|reserved_token_46|>",
416
+ "lstrip": false,
417
+ "normalized": false,
418
+ "rstrip": false,
419
+ "single_word": false,
420
+ "special": true
421
+ },
422
+ "52": {
423
+ "content": "<|reserved_token_47|>",
424
+ "lstrip": false,
425
+ "normalized": false,
426
+ "rstrip": false,
427
+ "single_word": false,
428
+ "special": true
429
+ },
430
+ "53": {
431
+ "content": "<|reserved_token_48|>",
432
+ "lstrip": false,
433
+ "normalized": false,
434
+ "rstrip": false,
435
+ "single_word": false,
436
+ "special": true
437
+ },
438
+ "54": {
439
+ "content": "<|reserved_token_49|>",
440
+ "lstrip": false,
441
+ "normalized": false,
442
+ "rstrip": false,
443
+ "single_word": false,
444
+ "special": true
445
+ },
446
+ "55": {
447
+ "content": "<|reserved_token_50|>",
448
+ "lstrip": false,
449
+ "normalized": false,
450
+ "rstrip": false,
451
+ "single_word": false,
452
+ "special": true
453
+ },
454
+ "56": {
455
+ "content": "<|reserved_token_51|>",
456
+ "lstrip": false,
457
+ "normalized": false,
458
+ "rstrip": false,
459
+ "single_word": false,
460
+ "special": true
461
+ },
462
+ "57": {
463
+ "content": "<|reserved_token_52|>",
464
+ "lstrip": false,
465
+ "normalized": false,
466
+ "rstrip": false,
467
+ "single_word": false,
468
+ "special": true
469
+ },
470
+ "58": {
471
+ "content": "<|reserved_token_53|>",
472
+ "lstrip": false,
473
+ "normalized": false,
474
+ "rstrip": false,
475
+ "single_word": false,
476
+ "special": true
477
+ },
478
+ "59": {
479
+ "content": "<|reserved_token_54|>",
480
+ "lstrip": false,
481
+ "normalized": false,
482
+ "rstrip": false,
483
+ "single_word": false,
484
+ "special": true
485
+ },
486
+ "60": {
487
+ "content": "<|reserved_token_55|>",
488
+ "lstrip": false,
489
+ "normalized": false,
490
+ "rstrip": false,
491
+ "single_word": false,
492
+ "special": true
493
+ },
494
+ "61": {
495
+ "content": "<|reserved_token_56|>",
496
+ "lstrip": false,
497
+ "normalized": false,
498
+ "rstrip": false,
499
+ "single_word": false,
500
+ "special": true
501
+ },
502
+ "62": {
503
+ "content": "<|reserved_token_57|>",
504
+ "lstrip": false,
505
+ "normalized": false,
506
+ "rstrip": false,
507
+ "single_word": false,
508
+ "special": true
509
+ },
510
+ "63": {
511
+ "content": "<|reserved_token_58|>",
512
+ "lstrip": false,
513
+ "normalized": false,
514
+ "rstrip": false,
515
+ "single_word": false,
516
+ "special": true
517
+ },
518
+ "64": {
519
+ "content": "<|reserved_token_59|>",
520
+ "lstrip": false,
521
+ "normalized": false,
522
+ "rstrip": false,
523
+ "single_word": false,
524
+ "special": true
525
+ },
526
+ "65": {
527
+ "content": "<|reserved_token_60|>",
528
+ "lstrip": false,
529
+ "normalized": false,
530
+ "rstrip": false,
531
+ "single_word": false,
532
+ "special": true
533
+ },
534
+ "66": {
535
+ "content": "<|reserved_token_61|>",
536
+ "lstrip": false,
537
+ "normalized": false,
538
+ "rstrip": false,
539
+ "single_word": false,
540
+ "special": true
541
+ },
542
+ "67": {
543
+ "content": "<|reserved_token_62|>",
544
+ "lstrip": false,
545
+ "normalized": false,
546
+ "rstrip": false,
547
+ "single_word": false,
548
+ "special": true
549
+ },
550
+ "68": {
551
+ "content": "<|reserved_token_63|>",
552
+ "lstrip": false,
553
+ "normalized": false,
554
+ "rstrip": false,
555
+ "single_word": false,
556
+ "special": true
557
+ },
558
+ "69": {
559
+ "content": "<|reserved_token_64|>",
560
+ "lstrip": false,
561
+ "normalized": false,
562
+ "rstrip": false,
563
+ "single_word": false,
564
+ "special": true
565
+ },
566
+ "70": {
567
+ "content": "<|reserved_token_65|>",
568
+ "lstrip": false,
569
+ "normalized": false,
570
+ "rstrip": false,
571
+ "single_word": false,
572
+ "special": true
573
+ },
574
+ "71": {
575
+ "content": "<|reserved_token_66|>",
576
+ "lstrip": false,
577
+ "normalized": false,
578
+ "rstrip": false,
579
+ "single_word": false,
580
+ "special": true
581
+ },
582
+ "72": {
583
+ "content": "<|reserved_token_67|>",
584
+ "lstrip": false,
585
+ "normalized": false,
586
+ "rstrip": false,
587
+ "single_word": false,
588
+ "special": true
589
+ },
590
+ "73": {
591
+ "content": "<|reserved_token_68|>",
592
+ "lstrip": false,
593
+ "normalized": false,
594
+ "rstrip": false,
595
+ "single_word": false,
596
+ "special": true
597
+ },
598
+ "74": {
599
+ "content": "<|reserved_token_69|>",
600
+ "lstrip": false,
601
+ "normalized": false,
602
+ "rstrip": false,
603
+ "single_word": false,
604
+ "special": true
605
+ },
606
+ "75": {
607
+ "content": "<|reserved_token_70|>",
608
+ "lstrip": false,
609
+ "normalized": false,
610
+ "rstrip": false,
611
+ "single_word": false,
612
+ "special": true
613
+ },
614
+ "76": {
615
+ "content": "<|reserved_token_71|>",
616
+ "lstrip": false,
617
+ "normalized": false,
618
+ "rstrip": false,
619
+ "single_word": false,
620
+ "special": true
621
+ },
622
+ "77": {
623
+ "content": "<|reserved_token_72|>",
624
+ "lstrip": false,
625
+ "normalized": false,
626
+ "rstrip": false,
627
+ "single_word": false,
628
+ "special": true
629
+ },
630
+ "78": {
631
+ "content": "<|reserved_token_73|>",
632
+ "lstrip": false,
633
+ "normalized": false,
634
+ "rstrip": false,
635
+ "single_word": false,
636
+ "special": true
637
+ },
638
+ "79": {
639
+ "content": "<|reserved_token_74|>",
640
+ "lstrip": false,
641
+ "normalized": false,
642
+ "rstrip": false,
643
+ "single_word": false,
644
+ "special": true
645
+ },
646
+ "80": {
647
+ "content": "<|reserved_token_75|>",
648
+ "lstrip": false,
649
+ "normalized": false,
650
+ "rstrip": false,
651
+ "single_word": false,
652
+ "special": true
653
+ },
654
+ "81": {
655
+ "content": "<|reserved_token_76|>",
656
+ "lstrip": false,
657
+ "normalized": false,
658
+ "rstrip": false,
659
+ "single_word": false,
660
+ "special": true
661
+ },
662
+ "82": {
663
+ "content": "<|reserved_token_77|>",
664
+ "lstrip": false,
665
+ "normalized": false,
666
+ "rstrip": false,
667
+ "single_word": false,
668
+ "special": true
669
+ },
670
+ "83": {
671
+ "content": "<|reserved_token_78|>",
672
+ "lstrip": false,
673
+ "normalized": false,
674
+ "rstrip": false,
675
+ "single_word": false,
676
+ "special": true
677
+ },
678
+ "84": {
679
+ "content": "<|reserved_token_79|>",
680
+ "lstrip": false,
681
+ "normalized": false,
682
+ "rstrip": false,
683
+ "single_word": false,
684
+ "special": true
685
+ },
686
+ "85": {
687
+ "content": "<|reserved_token_80|>",
688
+ "lstrip": false,
689
+ "normalized": false,
690
+ "rstrip": false,
691
+ "single_word": false,
692
+ "special": true
693
+ },
694
+ "86": {
695
+ "content": "<|reserved_token_81|>",
696
+ "lstrip": false,
697
+ "normalized": false,
698
+ "rstrip": false,
699
+ "single_word": false,
700
+ "special": true
701
+ },
702
+ "87": {
703
+ "content": "<|reserved_token_82|>",
704
+ "lstrip": false,
705
+ "normalized": false,
706
+ "rstrip": false,
707
+ "single_word": false,
708
+ "special": true
709
+ },
710
+ "88": {
711
+ "content": "<|reserved_token_83|>",
712
+ "lstrip": false,
713
+ "normalized": false,
714
+ "rstrip": false,
715
+ "single_word": false,
716
+ "special": true
717
+ },
718
+ "89": {
719
+ "content": "<|reserved_token_84|>",
720
+ "lstrip": false,
721
+ "normalized": false,
722
+ "rstrip": false,
723
+ "single_word": false,
724
+ "special": true
725
+ },
726
+ "90": {
727
+ "content": "<|reserved_token_85|>",
728
+ "lstrip": false,
729
+ "normalized": false,
730
+ "rstrip": false,
731
+ "single_word": false,
732
+ "special": true
733
+ },
734
+ "91": {
735
+ "content": "<|reserved_token_86|>",
736
+ "lstrip": false,
737
+ "normalized": false,
738
+ "rstrip": false,
739
+ "single_word": false,
740
+ "special": true
741
+ },
742
+ "92": {
743
+ "content": "<|reserved_token_87|>",
744
+ "lstrip": false,
745
+ "normalized": false,
746
+ "rstrip": false,
747
+ "single_word": false,
748
+ "special": true
749
+ },
750
+ "93": {
751
+ "content": "<|reserved_token_88|>",
752
+ "lstrip": false,
753
+ "normalized": false,
754
+ "rstrip": false,
755
+ "single_word": false,
756
+ "special": true
757
+ },
758
+ "94": {
759
+ "content": "<|reserved_token_89|>",
760
+ "lstrip": false,
761
+ "normalized": false,
762
+ "rstrip": false,
763
+ "single_word": false,
764
+ "special": true
765
+ },
766
+ "95": {
767
+ "content": "<|reserved_token_90|>",
768
+ "lstrip": false,
769
+ "normalized": false,
770
+ "rstrip": false,
771
+ "single_word": false,
772
+ "special": true
773
+ },
774
+ "96": {
775
+ "content": "<|reserved_token_91|>",
776
+ "lstrip": false,
777
+ "normalized": false,
778
+ "rstrip": false,
779
+ "single_word": false,
780
+ "special": true
781
+ },
782
+ "97": {
783
+ "content": "<|reserved_token_92|>",
784
+ "lstrip": false,
785
+ "normalized": false,
786
+ "rstrip": false,
787
+ "single_word": false,
788
+ "special": true
789
+ },
790
+ "98": {
791
+ "content": "<|reserved_token_93|>",
792
+ "lstrip": false,
793
+ "normalized": false,
794
+ "rstrip": false,
795
+ "single_word": false,
796
+ "special": true
797
+ },
798
+ "99": {
799
+ "content": "<|reserved_token_94|>",
800
+ "lstrip": false,
801
+ "normalized": false,
802
+ "rstrip": false,
803
+ "single_word": false,
804
+ "special": true
805
+ },
806
+ "100": {
807
+ "content": "<|reserved_token_95|>",
808
+ "lstrip": false,
809
+ "normalized": false,
810
+ "rstrip": false,
811
+ "single_word": false,
812
+ "special": true
813
+ },
814
+ "101": {
815
+ "content": "<|reserved_token_96|>",
816
+ "lstrip": false,
817
+ "normalized": false,
818
+ "rstrip": false,
819
+ "single_word": false,
820
+ "special": true
821
+ },
822
+ "102": {
823
+ "content": "<|reserved_token_97|>",
824
+ "lstrip": false,
825
+ "normalized": false,
826
+ "rstrip": false,
827
+ "single_word": false,
828
+ "special": true
829
+ },
830
+ "103": {
831
+ "content": "<|reserved_token_98|>",
832
+ "lstrip": false,
833
+ "normalized": false,
834
+ "rstrip": false,
835
+ "single_word": false,
836
+ "special": true
837
+ },
838
+ "104": {
839
+ "content": "\\r",
840
+ "lstrip": false,
841
+ "normalized": false,
842
+ "rstrip": false,
843
+ "single_word": false,
844
+ "special": false
845
+ },
846
+ "105": {
847
+ "content": "▁▁",
848
+ "lstrip": false,
849
+ "normalized": false,
850
+ "rstrip": false,
851
+ "single_word": false,
852
+ "special": false
853
+ },
854
+ "106": {
855
+ "content": "▁▁▁",
856
+ "lstrip": false,
857
+ "normalized": false,
858
+ "rstrip": false,
859
+ "single_word": false,
860
+ "special": false
861
+ },
862
+ "107": {
863
+ "content": "▁▁▁▁",
864
+ "lstrip": false,
865
+ "normalized": false,
866
+ "rstrip": false,
867
+ "single_word": false,
868
+ "special": false
869
+ },
870
+ "108": {
871
+ "content": "▁▁▁▁▁",
872
+ "lstrip": false,
873
+ "normalized": false,
874
+ "rstrip": false,
875
+ "single_word": false,
876
+ "special": false
877
+ },
878
+ "109": {
879
+ "content": "▁▁▁▁▁▁",
880
+ "lstrip": false,
881
+ "normalized": false,
882
+ "rstrip": false,
883
+ "single_word": false,
884
+ "special": false
885
+ },
886
+ "110": {
887
+ "content": "▁▁▁▁▁▁▁",
888
+ "lstrip": false,
889
+ "normalized": false,
890
+ "rstrip": false,
891
+ "single_word": false,
892
+ "special": false
893
+ },
894
+ "111": {
895
+ "content": "▁▁▁▁▁▁▁▁",
896
+ "lstrip": false,
897
+ "normalized": false,
898
+ "rstrip": false,
899
+ "single_word": false,
900
+ "special": false
901
+ },
902
+ "112": {
903
+ "content": "▁▁▁▁▁▁▁▁▁",
904
+ "lstrip": false,
905
+ "normalized": false,
906
+ "rstrip": false,
907
+ "single_word": false,
908
+ "special": false
909
+ },
910
+ "113": {
911
+ "content": "▁▁▁▁▁▁▁▁▁▁",
912
+ "lstrip": false,
913
+ "normalized": false,
914
+ "rstrip": false,
915
+ "single_word": false,
916
+ "special": false
917
+ },
918
+ "114": {
919
+ "content": "▁▁▁▁▁▁▁▁▁▁▁",
920
+ "lstrip": false,
921
+ "normalized": false,
922
+ "rstrip": false,
923
+ "single_word": false,
924
+ "special": false
925
+ },
926
+ "115": {
927
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁",
928
+ "lstrip": false,
929
+ "normalized": false,
930
+ "rstrip": false,
931
+ "single_word": false,
932
+ "special": false
933
+ },
934
+ "116": {
935
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁",
936
+ "lstrip": false,
937
+ "normalized": false,
938
+ "rstrip": false,
939
+ "single_word": false,
940
+ "special": false
941
+ },
942
+ "117": {
943
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
944
+ "lstrip": false,
945
+ "normalized": false,
946
+ "rstrip": false,
947
+ "single_word": false,
948
+ "special": false
949
+ },
950
+ "118": {
951
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
952
+ "lstrip": false,
953
+ "normalized": false,
954
+ "rstrip": false,
955
+ "single_word": false,
956
+ "special": false
957
+ },
958
+ "119": {
959
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
960
+ "lstrip": false,
961
+ "normalized": false,
962
+ "rstrip": false,
963
+ "single_word": false,
964
+ "special": false
965
+ },
966
+ "120": {
967
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
968
+ "lstrip": false,
969
+ "normalized": false,
970
+ "rstrip": false,
971
+ "single_word": false,
972
+ "special": false
973
+ },
974
+ "121": {
975
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
976
+ "lstrip": false,
977
+ "normalized": false,
978
+ "rstrip": false,
979
+ "single_word": false,
980
+ "special": false
981
+ },
982
+ "122": {
983
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
984
+ "lstrip": false,
985
+ "normalized": false,
986
+ "rstrip": false,
987
+ "single_word": false,
988
+ "special": false
989
+ },
990
+ "123": {
991
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
992
+ "lstrip": false,
993
+ "normalized": false,
994
+ "rstrip": false,
995
+ "single_word": false,
996
+ "special": false
997
+ },
998
+ "124": {
999
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1000
+ "lstrip": false,
1001
+ "normalized": false,
1002
+ "rstrip": false,
1003
+ "single_word": false,
1004
+ "special": false
1005
+ },
1006
+ "125": {
1007
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1008
+ "lstrip": false,
1009
+ "normalized": false,
1010
+ "rstrip": false,
1011
+ "single_word": false,
1012
+ "special": false
1013
+ },
1014
+ "126": {
1015
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1016
+ "lstrip": false,
1017
+ "normalized": false,
1018
+ "rstrip": false,
1019
+ "single_word": false,
1020
+ "special": false
1021
+ },
1022
+ "127": {
1023
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1024
+ "lstrip": false,
1025
+ "normalized": false,
1026
+ "rstrip": false,
1027
+ "single_word": false,
1028
+ "special": false
1029
+ },
1030
+ "128": {
1031
+ "content": "\t\t",
1032
+ "lstrip": false,
1033
+ "normalized": false,
1034
+ "rstrip": false,
1035
+ "single_word": false,
1036
+ "special": false
1037
+ },
1038
+ "129": {
1039
+ "content": "\t\t\t",
1040
+ "lstrip": false,
1041
+ "normalized": false,
1042
+ "rstrip": false,
1043
+ "single_word": false,
1044
+ "special": false
1045
+ },
1046
+ "130": {
1047
+ "content": "\t\t\t\t",
1048
+ "lstrip": false,
1049
+ "normalized": false,
1050
+ "rstrip": false,
1051
+ "single_word": false,
1052
+ "special": false
1053
+ },
1054
+ "131": {
1055
+ "content": "\t\t\t\t\t",
1056
+ "lstrip": false,
1057
+ "normalized": false,
1058
+ "rstrip": false,
1059
+ "single_word": false,
1060
+ "special": false
1061
+ },
1062
+ "132": {
1063
+ "content": "\t\t\t\t\t\t",
1064
+ "lstrip": false,
1065
+ "normalized": false,
1066
+ "rstrip": false,
1067
+ "single_word": false,
1068
+ "special": false
1069
+ },
1070
+ "133": {
1071
+ "content": "\n\n",
1072
+ "lstrip": false,
1073
+ "normalized": false,
1074
+ "rstrip": false,
1075
+ "single_word": false,
1076
+ "special": false
1077
+ },
1078
+ "134": {
1079
+ "content": "\n\n\n",
1080
+ "lstrip": false,
1081
+ "normalized": false,
1082
+ "rstrip": false,
1083
+ "single_word": false,
1084
+ "special": false
1085
+ }
1086
+ },
1087
+ "additional_special_tokens": [
1088
+ "<mask>"
1089
+ ],
1090
+ "bos_token": "<s>",
1091
+ "clean_up_tokenization_spaces": false,
1092
+ "eos_token": "</s>",
1093
+ "extra_special_tokens": {},
1094
+ "legacy": true,
1095
+ "mask_token": "<mask>",
1096
+ "model_input_names": [
1097
+ "input_ids",
1098
+ "attention_mask"
1099
+ ],
1100
+ "model_max_length": 8192,
1101
+ "pad_token": "<pad>",
1102
+ "padding_side": "right",
1103
+ "sp_model_kwargs": {},
1104
+ "spaces_between_special_tokens": false,
1105
+ "tokenizer_class": "LlamaTokenizer",
1106
+ "unk_token": "<unk>",
1107
+ "use_default_system_prompt": false
1108
+ }