Denne artikkelen er opprinneleg skreve 06.10.2000, men revidert og oppdatert fleire gongar, seinast 27.02.2001. Men alle opplysningar er ikkje oppdaterte, derfor vil noko allereie vere forelda.
Mesteparten av dette står og i den noko kortare samiskspråklige versjonen: "Interneahtta sámegiela haga?"
Ein enno kortare utgåve er trykt på samisk i Min Áigi, i tre delar 29.12.2000, 03. og 05.01.2001.

Dette er andre del av artikkelen. Her finn du første del

Denne artikkelen er skreve i Unicode-format, det vil seie at du må stille inn nettlesaren din på Unicode for å få samiske bokstavar rett gjengitt.

________________________________________________________________________________

Svein Lund:

Ingen samisk på internett?

Del 2 - Korfor er samisk på internett så vanskelig?

Før eg skreiv denne artikkelen, sendte eg e-post til ein del samiske institusjonar og organ og spurte dei kordan dei takla problema. Svara viser at mange opplever dette som eit stort problem, dei ønsker å skrive meir samisk, men får det ikkje til, eller dei trur det ikkje er mogleg.

Beaivváš Sámi Teahter svarar at web-sidene deira ikkje er på samisk "go sámegiella ii doaimma interneahtas", eller sagt på norsk: "siden samisk ikkje fungerer på internett". På liknande vis svarar Universitetsbiblioteket ved Universitetet i Tromsø at dei ikkje har sider på samisk, da "in leat gávdnan čoavddusa sámegillii web-siidui" eller "eg har ikkje funne løysing for samisk på web-sider". Mye av dette er reelle problem, mye kan nok og skrivast på kontoen for kunnskapsmangel og mangel på kommunikasjon med dei som sit på kunnskapen. Det er ingen tvil om at dei tekniske problema med å skrive samisk er langt større enn for å skrive norsk eller svensk. Men ka er problemet?

Samisk har ein del bokstavar som dei fleste andre språk ikkje har. Men det er samisk langt frå aleine om. Av mange hundre skriftspråk i verda er det ein handfull som kan skrivast med det engelske alfabetet. Når dette alfabetet har blitt dominerande innafor datateknologien er det ikkje ein naturlov, men i første rekke eit resultat av den økonomiske, politiske, kulturelle og militære makta til USA. Det var der ein hadde økonomiske middel til å utvikle datateknologien og i USA har det aldri vore politikken verken til regjeringa eller storkonserna å bry seg om andre språk enn engelsk. Snarare tvert om, det har vore ein medveten politikk å styrke engelsken på kostnad av andre språk, både innanlands og utanlands. Til dette formålet skulle datateknologien vise seg svært godt eigna.

For å forstå problema med samisk på internett, må ein vite noko om standardisering av kordan bokstavar og andre teikn blir gjengitt i datamaskinspråk. Eg vil derfor seie litt om dei forskjellige hovudtypene av kodetabellar og ka for konsekvensar dei har for bruk av samisk.

ASCII

For å skrive bokstavar og andre teikn på ein datamaskin, trengst det ei koding som omset mellom bokstaven og ein datakode av nullar og eitt-tal. Ein slik 0 eller 1 kallast ein bit. Ein tabell som seier ka for kode som gjeld for eit utval av bokstavar og andre teikn, kallast for ein kodetabell eller teikntabell, på engelsk "code page". Den første kodetabellen som blei utvikla i 1968 heitte ASCII - American Standard Code for Information Interchange. Denne hadde bare 7 bits, som til saman ga plass for 27 = 128 teikn. Kvart teikn fikk da eit nummer, eit såkalla ASCII-nummer, som fortalte ka for plass dette teiknet hadde i ASCII-tabellen. For eksempel har bokstaven "A" nummer 65, teiknet "&" har nummer 38. Disse nummera har stort sett blitt brukt vidare i andre kodetabellar, som altså anten har vore ei modifisering eller utviding av den opprinnelige ASCII.

Av bokstavar fikk bare dei 26 bokstavane i det engelske alfabetet plass i ASCII. I løpet av få år oppsto så nasjonale utgåver av ASCII, der visse teikn som |\}{][#$ blei bytta ut med bokstavar som trengtest for å skrive tysk, fransk, norsk osv. Det fantest i alle fall 16 variantar av dette slaget. Desse fikk først status som nasjonal standard, f.eks. den norske varianten, NS 4551-1. I 1972 blei ASCII og dei nasjonale variantane erklært som internasjonal standard, ISO 646.

DOS code page

Tidlig på 80-talet utvida ein til 8-bits kodar, noko som ga plass for 28 = 256 forskjellige teikn. Dei første 128 blei da teikna i det opprinnelige ASCII, mens dei nye plassane kunne brukast til bokstavar og teikn som trengtest i andre språk. Det var no verken den internasjonale standardiseringsorganisasjonen eller nasjonale styresmakter som hadde hand om denne utviklinga, men dei store datakonserna i USA, først IBM, seinare i første rekke Microsoft. Vi fikk da eit utal av kodetabellar for operativsystemet MS-DOS, minst 17 stykker, som CP850 (DOS Latin1), CP852 (DOS Latin 2) og CP865 (DOS Nordic). Ei tid oppsto ein vrimmel av standardar. Microsoft innførte sjølv nye standardar for Windows, som CP1252 for Vest-Europa, CP1250 for Aust-Europa, tilsaman eit tital standardar. I tillegg hadde andre datafirma som Adobe, Macintosh og Hewlett-Packard eigne kodetabellar.

ISO-8859

Midt på 80-talet forsøkte den internasjonale standardiseringsorganisasjonen ISO seg med ei opprydding. ISO ga ut ein standard med kodetabellar, kalla ISO-8859. Det har etterkvart blitt heile 15 av desse. For språk som brukar det latinske alfabetet var tanken at kvart hjørne i Europa skulle ha ein kodetabell som dekka både majoritetsspråk og minoritetsspråk i området. Ved sida av Latin 1 som dekker dei fleste vesteuropeiske språk blei det laga Latin 2 for Aust-Europa, Latin 3 for Sør-Europa og Latin 4 for Nord-Europa. Latin 4 dekka samisk, men ikkje islandsk, og i 1992 kom ein ny standard, ISO-8859-10, eller Latin 6, der ein hadde fjerna nokre symbol og latviske bokstavar for å få inn igjen dei islandske og få plass til bokstavar frå enaresamisk. Men desse blei i svært liten grad tatt i bruk utafor dei baltiske språka. For dei nordiske riksspråka heldt ein fram med å bruke Latin 1, og samisk blei overlatt til seg sjølv.

Mange samiske løysingar

I siste halvdel av 1980-talet og første halvdel av 1990-talet blei det utvikla ei rekke løysingar for å skrive samisk på datamaskin. Nokre av dei var berekna bare på ein maskintype, det var fleire løysingar for MS-DOS, fleire for Windows og fleire for Mac. Behovet for standardisering var overhengande.

Til saman var det minst 8 løysingar bare innafor Windows. Felles var at dei kosta pengar. Mye pengar. For marknaden var ikkje så stor og ingen andre enn private datafirma tok ansvar for dette. Den første utgåva kosta heile 12000.- pr. datamaskin og staten sitt bidrag var å kjøpe opp program for alle maskinane til Samisk utdanningsråd. Slik gjorde dei det mogleg for datafirmaet å halde oppe denne vanvittige prisen.

Det leiande firmaet på dette området har vore Karasjokfirmaet som først heitte øko-data, seinare Vplan. Så blei firmaet Arcticnet skilt ut frå Vplan, tok med seg fontane og rettane til dei. Dei sto for det mest brukte programmet WinSam som seinare blei avløst av Multitast. For å kunne bruke desse programma måtte ein betale fleire tusen i innkjøp pr. maskin plus ei årlig lisensavgift. Etter ei tid fikk dei konkurranse av eit anna Karasjok-firma, ABC-company. Dei laga ei eiga løysing kalla Skriv Samisk. Denne var billigare og utan årlig lisens.

Men sjølv om det allereie var to godkjente ISO-standardar som kan skrive nordsamisk, blei dei ikkje lagt til grunn for dei nemnde løysingane. Latin 4 blei til ei viss grad brukt på finsk side, Latin 6 blei ikkje brukt til samisk i det heile, mens WinSam og Multitast bygde på ein eigen kodetabell (eller rettare fleire forskjellige) som aldri fikk noko offentlig godkjenning.

Samisk datautvalg

I juni 1996 var det ein stor samisk datakonferanse i Kárášjohka. Konferansen samla eg om eit forslag til ny samisk standard for dei største samiske hovuddialektane i Noreg, Finland og Sverige. Dei tre sametinga og Samisk språkråd i Noreg slutta seg til dette. Denne standarden ønska dei å få godkjent som ny ISO-standard og kalla han derfor for Latin 9 eller ISO-IR-197. Men denne standarden blei aldri del av ISO-8859, bl.a. fordi standardiseringsorganisasjonane i Sverige og Finland ikkje ville støtte opp om han. Seinare har namnet Latin 9 i ISO-systemet blitt tatt i bruk av ein anna standard, ISO 8859-15, som ikkje inneheld alle dei samiske bokstavane.

Hausten 1996 blei Samisk datautvalg oppnemnt av det norske Sametinget. Det hadde sekretariat ved Sametinget i Kárášjohka og medlemmar også frå svensk og finsk side. Samisk datautvalg gikk i februar 1997 ut med open anbodskonkurranse på frikjøp av rettar til eit sett av samiske typer etter den nye standarden for DOS og for Macintosh, med programvare for overføring av tekst mellom ulike kodetabeller. Arcticnet fikk anbodet, men pengane lot vente på seg. Eit halvt år sto arbeidet stille fordi ingen i staten ville betale, før Samisk Næringsråd skar igjennom og tok fem hundre tusen av eige budsjett.

Men problema var ikkje over med det. Konferansen i Karasjok 1996 hadde vedtatt å bygge på ISO-IR-197. Men i januar 1998 vedtok Samisk datautval å gå bort frå denne og innføre ein ny standard, kalla "Levi" eller "WS2". Det gjorde dei for at det skulle bli lettare å få Microsoft til å ta i bruk denne løysinga. I tru på halvkveda viser frå Microsoft gjorde utvalet så om på alt som var vedtatt, og ga firmaet som utarbeida fontane ordre om å byrje på nytt. Den løysinga ein endte på var å bruke nokre av dei plassane i kodetabellen som alle ISO-tabellar brukar til kontrollteikn. Derfor blei ikkje denne løysinga (Levi) godkjent av ISO, og vil heller aldri kunne bli det. Og den lova støtta frå Microsoft, den såg ein aldri noko til. Dette forsinka arbeidet med enno eit halvt år, førte til meir utgifter og ga eit klart dårligare resultat. Ein ting er at dei skrifttypene eller fontane som kom med denne løysinga i 1998 er svært dårlig laga og gjør det tungt å lese teksten. Enno meir alvorlig er at ein har vald ei løysing som ikkje er og ikkje kan bli godkjent som ISO-standard. Da har ein eit svært dårlig utgangspunkt for å få denne innarbeida i programma til dei store dataselskapa som lagar operativsystem og programvare. Med at ein brukar opp plassar som skulle brukast til kontrollteikn, kan og bruk av Levi virke forstyrrande inn på andre program, og dette har gjort at fleire brukarar har avvist Levi og gått tilbake til løysingar basert på ISO-IR-197.

Dersom du skriv med Levi, lagrar på diskett og tar denne med til ein anna maskin, kan du få ei ubehagelig overrasking. Om ikkje denne maskinen har akkurat dei same fontane, risikerer du i beste fall å få gale teikn for dei samiske bokstavane, i verste fall blir det ikkje ein leselig bokstav i det heile, men firkantar og uforståelige teikn. "Levi" er derfor ikkje noko god løysing, noko bl.a. Sametinget i Noreg endelig innrømte våren 2000. "Levi" er som sagt gratis, ein kan få tastaturdrivar og fontar på diskett frå Sametinget eller hente det ned frå Internett, f.eks. frå Samisk språkråd eller frå "Virtual Samiland" . Den løysinga som er kalla "Levi" er for Windows, men her er og ei løysing for Mac-brukarar, "Sami utilities".
På begge dei nemnde nettstadane er det opplyst at Windowsløysinga skal virke både for Windows 3.1x, 95 og NT. I instruksjonen for installering står det at den og virkar for Windows 98, men med åtvaring om at dette kan føre til total diskkrasj, og at ein bør sikkerhetskopiere heile harddisken først. I sanning ikkje noko oppmuntring for dei som vil skrive samisk med Windows 98!

Dei fontane som følger med er Sam Times, Sam Helvetica og Sam Courier, alle i to versjonar, WS2 og Uni. Det store spørsmålet er så ka som er forskjellen. Da desse fontane kom, trudde mange at Uni-fontane var etter Unicode-tabellen. Men det er dei ikkje. Eg har forsøkt å finne ut korfor desse fontane er kalla "Uni", men på Sametinget veit dei ikkje og produsenten Arcticnet svarar ikkje på spørsmål.
Frå september 2000 har ein frå Samisk høgskole kunna laste ned nokre nye fontar, Times Sami, Arial Sami og Courier Sami. Denne pakka blir kalla Levi 2. Dei ser betre ut enn dei gamle WS2-fontane og kan brukas for Windows 95, 98 og 2000. Om ein lastar ned desse fontane, ser ein at det står Copyright Sametinget. Men om ein ser etter inne i fontfilene, finn ein at i nokre står det at copyright tilhører Arcticnet, i andre filer står det copyright Monotype Corp. Ingen av nettstadene som har Levi 2 til nedlasting presenterer kor desse fontane kjem frå, og pr. 9.2.2001 har Sametinget enno ikkje sjølv offentliggjort at desse fontane har kome og at det er dei som er ansvarlig for dei. Men på direkte spørsmål frå meg til Sametinget, bekreftar dei at dei har betalt Arcticnet 100000 kroner for å lage Levi 2.
Både Levi 1 og Levi 2 består av tastaturdrivar og fontar. For dei som derimot brukar operativsystemet Windows NT eller Windows 2000 treng ein bare installere tastaturdrivaren, så kan ein skrive samisk med dei fontane ein brukar for å skrive norsk.

Unicode

Eg skreiv lenger oppe om ei grense på 256 teikn for kor mange forskjellige teikn ein kunne få inn i ein kodetabell. Men denne er no i ferd med å bli ettertrykkelig sprengt. For eit nytt teiknsett kalla Unicode bygger på 16 bits kodar, slik at det er plass for inntil 216 = 65536 teikn. Dette gir god plass til samiske teikn ved sida av arabisk, kinesisk og eit utall andre språk.

Unicode er svært viktig for å sikre at dei fleste i verda skal kunne bruke sitt eige språk på data. Når dette slår gjennom skal det ikkje bli verre å skrive arabisk eller khmer, samisk eller ewe enn det er å skrive engelsk eller norsk. Unicode er ISO-10646 og kallast og for Universal Character Set, forkorta UCS. I tillegg er det mogleg å utvide Unicode til 32 bits, noko som gir plass for den utrulige mengde av 232 = 4294967296 teikn.

Om alle framtidige operativsystem og øvrige dataprogram vil bygge på Unicode, har ein løyst eit vesentlig problem. Da vil alle program kode ein viss bokstav på samme måte. Ein š vil alltid ha kodenummer 353 (0161 etter heksadesimalsystemet) i kodetabellen, ikkje som i dei 8-bits kodetabellane som har denne bokstaven på vidt forskjellige plassar frå tabell til tabell, i den grad bokstaven er med i det heile. Men eit system med 65536 teikn treng eit program til å finne fram i. Vi må altså framleis ha eit program som finn vegen frå tastatur til font. Vi må stille inn for det språket vi brukar, slik at når vi stiller inn for samisk, får vi "š" når vi trykker tasten merka "W", når vi trykker ">" får vi ž osv. Allereie i dag er det i Windows lagt inn mange språk, men samisk har så langt ikkje vore med.

Det er ikkje alle maskinar og program som kan bruke Unicode. Om vi ser på forskjellige generasjonar av Windows, er det bare Windows NT / 2000 som fullt ut kan utnytte Unicode, noko som bl.a. gjør at ein kan skrive samiske bokstavar utan spesielle fontar.

Med unnatak for "á" er plasseringa av alle dei samiske bokstavar forskjellig i Unicode frå dei 8-bits kodetabellane som har desse bokstavane med. Dette gjør at om noko er skreve i Unicode og blir lese i 8-bits-system eller omvendt, vil desse bokstavane gi "kråketær".

Sjølv om Windows-program er suverent mest utbreidd, må vi absolutt ikkje glømme alternativa. Nyare utgåver av UNIX og Linux er basert på Unicode, mens Macintosh presenterte sin første Unicode-versjon (OsX) hausten 2000.

Ka er Internett?

Internett er ein samankopling av datamaskinar over heile verda, som kan kommunisere med kvarandre ved hjelp av serverar og programvare.

Innafor internett finst det ei rekke former for kommunikasjon. Dei mest aktuelle i dag er:

1. WWW

Verdsveven, World Wide Web,brukar programmeringsspråket html (Hyper Text Markup Language) og overførringsprotokollen http (Hyper Text Transfer Protocol).

2. FTP

FTP (File Transfer Protocol) brukas for å sende større filer, f.eks. når ein legg ut sider på www eller hentar ned program eller større tekstfiler frå nettet.

3. E-post

E-post kan sendast på to måtar: anten ved at vi skriv direkte i e-postprogrammet, eller sender vedlegg. (Dette har verknad for ka vi kan bruke av bokstavar og språk.)

4 . Chatting

Det er forskjellige program for å "snakke saman" på nettet, bl.a. IRQ og mirc. Også for desse programma gjeld dei same problema med å bruke samisk som for anna internettbruk. Men eg har ikkje satt meg grundig inn i dei, og vonar nokon andre vil ta opp tråden.

Skal samisk vere likestilt med andre språk i dataalderen, må det fungere innafor desse internettfunksjonane, helst utan særlige ekstra utgifter og arbeid i forhold til å bruke andre språk. Vi skal konsentrere oss om to internettfunksjonar, verdsveven og e-post. I mange program er dei nært knytta saman, f.eks. Netscape Communicator, mens andre program kan vere spesialiserte på e-post eller på å lage eller lese vevsider.

Kunnskapen om bruk av e-post og å surfe på internett blir etterkvart svært utbreidd, i Noreg beherskar trulig omlag halve befolkninga mellom 10 og 70 år desse ferdigheitene. Men for dei fleste av oss gjeld dette så lenge vi sjølv slipp å installere programmet og slipp å gjøre nokre eigne innstillingar. Da kjem dei fleste av oss til kort og vi må rope på dataansvarlig for bedriften eller naboen sin datafrelste 13-åring.

Kunnskapen om å lage internettsider har langt færre enn dei som kan finne fram til å lese dei. Men etter kvart har det kome ei rekke fikse program som lar oss lage våre eigne heimesider utan at vi treng nærare forståing av ka som ligg under. Dei fleste databrukarar er som folk som bare kjøper ferdigmiddag i butikken. Vi kan ta den frosne middagsretten ut av pakka, sette han inn i mikrobølgeomnen og ete eit par minutter etterpå. Vi får ferdig Findus fiskegrateng utan å vite det minste om kordan ein lagar kvit saus. Slik er det og med dei fleste databrukarar.

For internett og e-post på norsk finst det ganske godt med "ferdigmat" Der gjør det derimot ikkje om vi vil bruke samisk. Det første problemet er derfor at terskelen for å bruke samisk i det heile er langt høgare. Det andre er grunnleggande problem med standardisering og kommunikasjon mellom forskjellige maskinar og program, som gjør at uansett kor god jobb ein gjør med f.eks. å lage heimesider på ein Macintosh blir det knapt leselig på ein PC.

Målet med denne artikkelen er todelt: For det første å vise problema som må løysast gjennom standardisering og/eller konverteringsprogram. For det andre å vise noko av dei tiltaka databrukarar allereie i dag kan gjøre for å bruke samisk i større grad.

Skrive / lese e-post på samisk

Vi går først ut frå at du har 8-bits programvare og ikkje Unicode, som vi skal seie litt om til slutt. Det første vilkåret for å kunne skrive og lese samisk er da å ha samiske fontar. Dei mest utbreidde er Levi. Som sagt kan dei lastast ned frå internett. La oss seie du har fått til å skrive samisk i tekstbehandlingsprogrammet og det går greitt å skrive det ut på din eigen skrivar. Så har du fått deg eit e-post-program og vil sende brev på samisk. Ka gjør du så?
Den sikraste løysinga er å skrive alle brev med samisk tekst i tekstbehandlingsprogrammet og så sende dei som vedlegg. Da oppstår det ingen forstyrringar av e-post-programmet, og mottakar kan lese teksten din like lett som om han hadde fått han på diskett. Det vil seie at mottakar må ha fontar etter samme kodetabell eller evt. nytte konverteringsprogrammet som ligg i Levi. Dette er ein litt tungvint måte, helst vil vi skrive direkte i e-post- programmet. Men her ligg det andre fontar og styrer ka du kan skrive. Den fonten du velger i tekstbehandlingsprogrammet ditt, den virkar bare der. Går du til eit anna program, f.eks eit e-postprogram, må du velge font på nytt. I tekstbehandlingsprogram og rekneark ser du gjerne øverst på skjermen kva for fontar du brukar, og det er enkelt å endre dei. I e-postprogrammet er dette noko verre. Her synast ikkje fonttypen før du går bakom og ser etter. Det kan variere frå program til program kordan du må gå fram, men her er oppskrifta på to av dei mest brukte programma: (Eg har her vist til den utgåva eg har, i ei anna utgåve kan det vere litt forskjellig.)

Netscape 4.7. :
Gå til Rediger (Edit) og vidare til Innstillinger (Preferences) og Fonts. No ser du kva for fontar som du brukar når du skriv e-brev. Disse må du no endre på. Velg f.eks.
For the Encoding: Western
Variable Width Font: Sam Times W2 eller Times Sami
Fixed With Font: Sam Courier W2 eller Courier Sami
Når du no startar på eit e-brev, skal det gå greitt å skrive samisk.

Eudora:
Har du ein av dei nyaste utgåvene, kan du velge font direkte, slik som i tekstbehandlingsprogram. Elles må du gå til Tools-options-fonts og velge fontar der.

Outlook Express 5:
Her velger du fontar under Verktøy - Alternativer - Skriv - Skriftinnstillinger

Unicode:
Om du har f.eks. Windows 2000 og brukar eit nytt e-postprogram, skal du kunne skrive samisk i standard fontar, slik du gjør i tekstbehandling. Mottakaren skal kunne lese det rett om ho/han og har tilsvarande program. Om mottakaren har 8-bits programvare, kan ho forsøke å stille kodinga (encoding) på Unicode, men det går nok ikkje i alle program.

Lese samisk på internett

På same måte som for tekstbehandling og e-post kan ein stille inn koding og fontar i internettlesaren (browseren).

Her er vist Netscape Navigator 4.7. som eksempel: Gå til Edit - Preferences - Fonts og sjå til at du har dei fontane som er nemnst under avsnittet om e-post over. Det lønner seg no å krysse for "Use document specified fonts", da kan du få teksten rett om den er skreve i andre samiske fontar enn dei du har aktivisert, men som er installert på maskinen din. Men for sider som er skreve f.eks. i ISO-IR-197 Unicode eller Macintosh vil du fortsatt kunne få mange rare teikn i staden for samiske bokstavar. Det kan ein i dag gjøre lite med.

For Internet Explorer 5.0. finn du kodinga under View - Encoding og fontane under Tools - Internet Options - General - Fonts.
For dei fleste nettlesarar går det an å finne fram til liknande innstillingar.

Om du har Unicode-basert nettlesar og operativsystem, skal du kunne lese både Unicode- og 8-bits tekstar. Sjølv om du ikkje treng samiske fontar for å skrive i Unicode, bør du ha dei installert for å kune lese rett dokument som er skreve i 8-bits-system.

Skrive samisk på internett

Ideen med "internettspråket" html er at det skal vere såkalla plattformuavhengig, dvs. at om du brukar Mac eller Linux og mottakaren brukar Windows 3.11 eller Windows 2000, skal det ikkje spele nokon rolle. Slik virkar det og - på engelsk. På norsk går det og som regel bra, sjølv om det finst unnatak. Da kan det som regel ordnas med innstillingar på mottakaren sin eigen datamaskin. I kor stor grad du kan skrive samisk som kan lesast av andre gjennom nettet, avhenger av både maskintypen og programvaren.

Vi skal først sjå på skriving i 8-bits system. Dersom du har f.eks. Windows 95 og Levi, kan du skrive sider som kan lesast av andre med Windows og Levi. Det er dette vi skal vise her. Det går an å lage samiske nettsider utan  å ha samiske fontar når du skriv, men det er tungvint, så vi føreset her at du har stilt inn på samiske fontar i det programmet du skriv i og skriv inn tekst som i eit vanlig tekstbehandlingsprogram.
Da eg byrja å studere dette problemet, såg eg først kordan andre hadde gjort det. Eg fann samiskspråklige nettsider og såg på kjeldekodinga, kordan sidene såg ut i html. (Netscape: View > Page Source, Internet Explorer: Vis > Kilde)  Da fann eg ut at på neste alle sidene var det koda med <font face = "Sam Times W2"> eller andre namn på samiske fontar, og denne kodinga kom før og etter kvart avsnitt. Så trudde eg at det måtte ein gjøre for å få det rett på samisk, og så gjorde eg det samme.
Nokre program for å lage nettsider, f.eks. FrontPage, legg automatisk inn denne kodinga dersom du skriv med samiske fontar. Andre program gjør det ikkje, ein kan da om ein vil legge desse inn manuelt.
Men <font face> har ulemper som gjør at ein ikkje kan tilrå denne metoden. For det første er han tungvint og gir ein masse ekstra kodar, for det andre låser ein fast fonten slik at den bare kan lesast i denne.

Ein betre metode er det som kallast for Cascade Style Sheet. Da legg du inn ei linje i starten på kvar fil. Denne må ligge i seksjonen <HEAD> og kan vere for eksmpel slik:
<LINK REL=stylesheet HREF="sami.css" TYPE="text/css">
Så må du lage ei eiga fil som heiter sami.css. Denne plasserer du i den katalogen der filene er som har samisk tekst. Har du fleire katalogar må det vere ei slik fil i kvar. Her er eit eksempel på kordan denne fila kan sjå ut:

<HTML> <STYLE TYPE="text/css">
<!--   p {font-family: 'Times Sami', 'Sam Times W2', Times; font-size: 10pt; font-weight: normal;}
H1, H2, H3 {font-family: 'Times Sami', 'Sam Times W2', Times; font-weight: bold;}
TD {font-family: 'Times Sami', 'Sam Times W2', Times; font-size: 10pt; font-weight: normal}
LI {font-family: 'Times Sami', 'Sam Times W2', Times; font-size: 10pt; font-weight: normal} -->
</STYLE> </HTML>

Dette er mye enklare for den som skal lage sider, men for at det skal virke bør lesaren ha ei nyare utgåve av nettlesar, Netscape 4.6. / Internett Explorer 5.0. eller nyare.

Men det aller enklaste er rett og slett å skrive med samiske fontar, f.eks. Times Sami, ikkje kode i det heile og fjerne eventuelle kodar som <font face = Times Sami>, som lagas automatisk dersom ein skriv fila i f.eks. Frontpage eller Word. Ein bør og fjerne alle tilvisingar til kodetabell. Da skal fila bli lesande for dei som har ein Levi-font som default font i nettlesaren sin.

I land der det er fleire konkurrerande standardar, som Russland og Polen, er det vanlig at ein legg ut vevsider der lesaren kan velge kva for koding ho vil lese det i. Denne løysinga har og blitt tatt i bruk av eit par samiske nettstader. F.eks. gir Senter for samiske studier ved Universitetet i Tromsø høve til å velge mellom W2 og Unicode.

Når ein lagar nettsider for Unicode skal ein i prinsippet kunne skrive rett fram på samisk i eit Unicode-basert tekstbehandlingsprogram, f.eks. Word 2000 eller Notisblokk, og lagre dette i .htm-format. For dei meir spesialiserte web-editorane kan det vere varierande om dette fungerer. I alle fall har eg ikkje fått det til i Front Page 2000, der č blir c, đ blir d og ŋ blir ?. Om nokon kan fortelle meg korfor dette ikkje går, vil eg vere takknemlig for svar.

Men det finst ein måte som er idiotsikker. Det er å legge inn Unicode-kodane for kvar av dei samiske bokstavane. Om ein hentar opp teksten i html-format, ser ein at for dei samiske bokstavane gjerne er gjengitt kodar, av typen &#154; eller &aacute; Så brukar ein Søk-Erstatt - funksjonen til å bytte ut alle kodane med kodenummera i Unicode. Denne tabellen kan vere til hjelp:

WS2- des WS2-hex Unicode-des Unicode-hex
á Latin small letter a with acute 225 00E1 225 00E1
Á Latin capital letter a with acute 193 00C1 193 00C1
č Latin small letter c with caron 132 0084 269 010D
Č Latin capital letter c with caron 130 0082 268 010C
đ Latin small letter d with stroke 152 0098 273 0111
Đ Latin capital letter d with stroke 137 0089 272 0110
ŋ Latin small letter eng 185 00B9 331 014B
Ŋ Latin capital letter eng 184 00B8 330 014A
š Latin small letter s with caron 154 009A 353 0161
Š Latin capital letter s with caron 138 0088 352 0160
ŧ Latin small letter t with stroke 188 00BC 359 0167
Ŧ Latin capital letter t with stroke 186 00BA 358 0166
ž Latin small letter z with caron 191 00BF 382 017E
Ž Latin capital letter z with caron 190 00BE 381 017D

Kodane må da bli oppgitt slik at for  "č" skriv ein "&#269;" , ŋ som &#331; osv.
Om ein brukar HTML versjon 4.01, kan ein og oppgi heksadesimale kodar.

Om ein har ei side som allereie er skreve i WS2 og vil ha ein kopi av denne i Unicode, kan ein bare skifte ut kodane på denne måten. Så kan ein legge ut to parallelle utgåver der lesaren kan velge etter ka for system ho sjølv har. I byrjinga av kvart dokument gir ein så ein link til den tilsvarande sida i det andre formatet, slik ein og kan gjøre til ein versjon på eit anna språk. Gå til starten av dette dokumentet og sjå kordan det er gjort der, eller sjå Senter for samiske studier: http://www.uit.no/ssweb/indexsa.htm.

Meir om kodar kan du bl.a. lese på:
http://www.uit.no/ssweb/gif/helpsa.htm.
http://www.unicode.org
http://ppewww.ph.gla.ac.uk/~flavell/iso8859


Del 3 Ka er så løysinga?

Det har vore lansert ei rekke løysingar på problema med samisk på data. Nokre av forslaga er prega av svært kortsiktig tenking, mens andre ser løysingar eit stykke inn i framtida. Det kan ikkje vere enten-eller, her er naudsynt med både - og. La oss først sjå på den langsiktige:

Unicode

* På sikt tyder alt på at UNICODE vil overta som einaste standard. Dette vil legge eit grunnlag for å løyse svært mye av problema med å skrive på forskjellige språk. Men det er det langt fram av fleire grunnar. Om vi har eit operativsystem og programvare som kan lese Unicode, trengst det framleis eit program som finn vegen til dei samiske bokstavane. Dette må utviklast for kvart operativsystem: Windows, Macintosh, Linux, Unix osv.

For det andre har dei fleste databrukarar enno maskinar og programvare som ikkje kan bruke Unicode. å bare utvikle løysingar for Unicode-program i dag, vil derfor vere ei gigantisk gåve til Microsoft, fordi alle da vil måtte kjøpe Windows 2000. Dette programmet har så store krav til kapasiteten på datamaskinen at det for svært mange og vil bety å kjøpe ein ny datamaskin. Det er det langt i frå alle som har råd til. Ein svært stor del av datamaskinane som er i bruk i dag, både i skolar og offentlige institusjonar, småbedriftar og privat, er "gamle" og "forelda", men fungerer godt til dei fleste behov, inkludert internett og e-post. Dei låge prisane for brukte datamaskinar av litt eldre type gjør at mange som ikkje har så god råd likevel kan få tilgang på datamaskinar. Sjølv om Unicode finst og maskinane finst i handelen, er det langt fram til maskinar og program basert på Unicode har erobra også bruktmarknaden. Derfor er det å vente på Unicode ikkje ei haldbar løysing for samisk språk.

Endre rettskriving?

* Eit forslag som har vore oppe sidan tidlig i dataalderen, først på 80-talet, er å endre samisk rettskriving, slik at ein fjernar dei særlige teikna, og skriv f.eks. tjaallit eller challit i staden for čállit. Dette er i praksis i ferd med å skje i dag, når det gjeld samisk på e-post og internett. Men der skjer det utan normering. Det omtalte ordet kan ein finne skreve som tjallit, tjállit, cállit, callit, chállit osv. Nokon fjernar konsekvent alle særsamiske bokstavar, andre held på á og evt. š, ettersom dei er lettare å skrive utan samiske fontar.

Dagens situasjon er dermed i ferd med å undergrave normering og skriftkultur. Mens folk normalt forsøker å halde seg til rettskrivinga når ein skriv norsk, også på verdsveven og på e-post, vil ein på samisk få ein kultur med at det er ikkje så nøye, det kan ikkje bli heilt rett likevel.

Det finst to alternative måtar å løyse dette på:

1. Endre samisk rettskriving totalt.

Fleire har tatt til orde for å fjerne alle bokstavar i det samiske alfabetet som ikkje finst i det engelske alfabetet. Dette meiner bl.a. Sametingets opplæringsavdeling kan vere ei aktuell løysing. I alle fall svarte dei det da eg spurte forskjellige samiske institusjonar ka dei meinte måtte gjøras. Det ville utvilsomt løyse nokre problem. Samtidig vil det skape nye problem. Nordsamisk har gjennom dei siste 150 åra hatt 6-7 forskjellige rettskrivingar bare i Noreg. Tar vi med dei som har vore brukt i Sverige og Finland nærmar vi oss eit titall rettskrivingar. Dette har skapt mange ekstraproblem i tillegg til den svake posisjonen som samisk skriftkultur har hatt. For ein som skal lese samiske originalskrifter må ein kunne tolke eit minimum av 5 rettskrivingar. Men ein ting har disse rettskrivingane hatt felles: Dei har i all hovudsak brukt det noverande alfabetet med teikna á č đ ŋ š ŧ ž. Disse er derfor vel innarbeida og ei fjerning av dei vil legge nye hinder i vegen for å både skrive og lese samisk.

Like viktig er etter mi meining eit anna argument: Er det samisken sin feil at han har bokstavar "utanom standard"? Er det bare samisk språk som har dette problemet? Alle språk som har bokstavar utanom engelsken sine 26 bokstavar har same problemet i større eller mindre utstrekning. Ka for språk kan eigentlig skrivast med desse 26 bokstavane? Svært få, det gjeld engelsk, walisisk, indonesisk, swahili, latin og nokre få til. Kanskje 10-15 % av verdas folketal har eit av disse språka som morsmål. Mange språk har hatt og har store problem i forhold til data. Men så vidt eg kjenner til har ikkje eit einaste språk til no vald å legge seg flat og endre rettskrivinga for å unngå disse problema. Det første språket som gjør det, vil sende ut eit svært viktig signal: Vi har ingen rettar, bare pliktar til å underordne oss utviklinga, engelsk språkdominans og Microsoft sitt digitale verdsherredømme. I kampen for språklig rettferd i verda vil eit slik samisk rettskrivingsendring gi eit uhyre uheldig signal til andre språksamfunn.

Dei første som argumenterte for å endre samisk rettskriving gjorde det lenge før nokon hadde hørt om internett og e-post. Dei argumenterte ut i frå at ein ikkje kunne skrive samisk på datamaskin og få samiske teikn på skjermen og på papir. 10 år etter er dette argumentet steindaudt og samiske fontar er gratis tilgjengelig for alle.

Om 10 år vil problema vi har med internett i dag trulig vere historie, i alle fall vil dei vere det om samiske og nordiske styresmakter tar ansvar for dette problemet. I mellomtida kan ei samisk rettskrivingsendring ha laga store tilleggsproblem for eit allereie svært utsatt språk.

Det har frå nokre kantar vore tatt til orde for ei forenkling av samisk rettskriving også av andre grunnar. Men ingen har argumentert for fjerning av dei særsamiske bokstavane ut frå lingvistiske eller pedagogiske argument.

2. "Dobbel rettskriving"

Ein kan standardisere eit system med "dobbel rettskriving", ein for bruk i trykte skrifter med samiske teikn, og ein for bruk i datakommunikasjon utan samiske teikn. I nokre land er dette utbreidd, i Polen kallas det for "wersja bezogonkowa", eller "halelaus versjon", der ein istaden for bokstavar med "halar" eller aksentar skriv den bokstaven i det engelske alfabetet som liknar mest. Slik vil det bli ein standard som kan brukas og folk vil venne seg til å lese og skrive denne. Folk som kan godt samisk vil normalt kunne lese dette og oppfatte meininga utan problem, og det vil sjeldan bli misforståingar. Ulempa er at dette vil kunne spreie seg til også andre område og etter kvart bli den dominerande måten å skrive samisk på. Det vil og vere svært vanskelig å lese for dei som ikkje kan samisk så godt, og skriftbiletet vil ikkje lenger fortelle klart kordan ordet skal uttalast. Likevel ser eg dette som langt betre alternativ enn at alle går over til norsk og betre enn at alle utviklar kvar sin skrivemåte.

Ein slikt samisk halelaus versjon bør i såfall vere konsekvent. Når det gjeld dei 7 samiske bokstavane bør ein ha alle eller ingen. Da er det tre hovudmetodar. Den eine er å skrive den bokstaven som er nærast, utan noko markering av at her er det eigentlig feil bokstav.

Dal mun calan samegillii dan lahkai: acdnstz

Bare denne setninga viser eit problem: ord med a og same ord med á dannar ofte minimale par, som dat = den og dát = denne, balva= sky og bálvá=tjener. ruossa = kors, ruošša = russisk.

Ein annan metode er å sette eit ekstrateikn foran dei særskilte bokstavane, slik:

D/al mun /c/al/an s/amegillii d/an l/ahk/ai: /a,/c,/d,/n,/s,/t,/z.

Ulempen er at det tar litt lengre tid å skrive og at det ikkje ser så pent ut. Fordelen er at det ikkje kan misforståast og at for ein som har samiske fontar på sin datamaskin, kan ein fort endre dette til korrekt samisk med å bruke søk-erstatt-funksjonen.

Den tredje, som bl.a. har vore lansert i ein diskusjon på Samenet, er å lage kombinasjonar med h for å erstatte dei samiske konsonantane, mens ein skriv á på normalt vis, ettersom denne er med i ISO-8859-1.

Dál mun chálán sámegillii dán láhkái: á, ch, dh, nh, sh, th, zh.

Fordelen med denne er at ein kan bruke søk-erstatt for å endre ein slik tekst til normal rettskriving, ulempen er at datarettskrivinga vil bli ei "de facto" rettskriving, ettersom meir og meir skrivast på data og sendast over nettet.

Microsoft løyser alt?

13.9.2000 kom meldinga i samiske media: Microsoft løyser samiske dataproblem. Ifølge tekst-TV og Saamiweb har Microsoft no bestemt seg for å integrere samisk i dei framtidige versjonane av Windows. I fleire media framstillast dette som ei stor hending og at Microsoft no løyser problema med samisk på data ein gong for alle. Dette fortel i første rekke at det er bruk for grunnleggande informasjon i media, både for lesarar / lyttarar / sjåarar og for journalistar.

Tida er overmogen etter at ein frå samisk hald har forsøkt å påverke Microsoft i eit tiår utan resultat.Og enda til gjør ikkje Microsoft dette for eiga rekning. Det er faktisk Sametinget i Noreg som betaler dei 75000 kroner for å gjøre det. I kontrakten mellom Sametinget, Microsoft og det finske datakonsernet Tietoenator forpliktar Microsoft seg til å ta med samisk i framtidige Unicode-baserte program. Det står ingen ting om ka tid dette vil vere ferdig. Fleire media meldte i haust at den samiske løysinga for Windows 2000 ville vere klar i byrjinga av november, men i februar lar ho enno vente på seg. Denne løysinga vil og gjelde bare for nordsamisk, ikkje for enaresamisk og austsamisk som har ein del andre bokstavar i tillegg til dei nordsamisk brukar.

Denne løysinga blir utvikla for Windows 2000. Det vil seie at dei som brukar eldre utgåver av Windows eller andre operativsystem, vil vere like langt. I tillegg til operativsystemet bør ein og helst ha Office 2000. Dei fleste datamaskinar som er i bruk for liten kapasitet til dette. Tilsaman vil det altså trengst mange millionar til datamaskinar og program for å kunne nytte denne løysinga fullt ut. Er det da Microsoft som støttar samane eller samane som støttar Microsoft? Når samiske media framstiller dette som å løyse problema med samisk på data ein gong for alle, er det ei gigantisk gåvepakke til Microsoft. I tillegg fritar ein Sametinga og dei nordiske styresmaktene for ansvaret for å oppfylle ansvaret sitt for at det skal vere mogleg å bruke samisk språk i dataalderen.

Forslag til tiltak

Ut i frå ei erkjenning av at samiske dataløysingar er eit avgjørande spørsmål for framtida til det samiske språket, må ein slå fast at politisk og økonomisk er dette eit ansvar for den norske staten ifølge Grunnlova. Styringa av dette arbeidet bør ligge til Sametinget. (Gjerne nordisk samisk samarbeid, men ikkje om det forsinkar arbeidet.) Stortinget har fullstendig forsømt si plikt i denne saka og bør straks løyve ein sum stor nok til at det ikkje blir pengane det står på. Eit par millionar ville hjelpe godt.

Sametinget må ta ansvaret på det viset at representantane set seg inn i problema, ikkje bare opprettar eit utval og gjør seg ferdig med det. Eit av hovudproblema i førre omgang var at Sametinget ikkje hadde kompetanse til vurdere arbeidet til det utvalet dei sette ned, verken det som var bra eller det som ikkje var så bra. Det å beherske datateknologien vil i framtida være så vesentlig at det kanskje bør vere eit permanent Samisk datautvalg, i alle fall kompetente folk som har dette som sitt faste ansvar. Det går ikkje an i vår tid å ta seg "datapause". Dei som skal ha ansvar for dette må ha faglig kompetanse, og samtidig vere villige til å høre på kritikk og ikkje stille seg i forsvarsposisjon og nekte å innsjå problem, slik leiaren av det førre datautvalet gjorde.

Den samiske datakonferansen i 1996 gjorde dengang etter mi oppfatning gode vedtak, problemet var at oppfølginga var under all kritikk. Kanskje tida no er mogen for ein ny datakonferanse. Eit sentralt spørsmål som må diskuterast er om ein må leve med Levi til vi har gått inn i Unicode-alderen fullt og heilt, eller om det er eit betre alternativ å gå tilbake til løysinga frå 1996, den såkalla "Latin 9" eller ISO-IR-197. Det må uansett bli laga eit breidt utval av fontar til den løysinga ein velger og automatiske konverteringsprogram mellom dei løysingane som er i bruk. Samtidig bør det leggast ut lettfattelige instruksjonar på internett for kordan desse fontane kan nyttast i å skrive samisk på e-post og vevsider. Først da kan vi sikre at samisk på data blir tilgjengelig også for folk med "gamaldags" maskin- og programvare.

Fleire artiklar om samiske språkspørsmål

Til startsida

sveilund@online.no