![resources/images/dhlab-logo-nb.png](../resources/images/dhlab-logo-nb.png)

# Korpus

I `dhlab` brukes Python-klassen `Corpus` for å representere et korpus. Et korpus er en samling av tekster, og kan være en bok, en avis, en samling av bøker, en samling av aviser, eller en samling av alt som er tilgjengelig. 

Ved hjelp av denne klassen kan man velge ut hvilke objekter fra NBs digital samling man vil jobbe med, se metadata som forfatter, år, osv. Man kan så hente ut informasjon om teksten som frekvenslister, konkordanser, og kollokasjoner. Man kan også lese teksten via nb.no.


In [1]:
# Importer bibliotekene
import dhlab as dh # dhlab inneholder Corpus og andre nyttige funksjoner
import dhlab.nbtext as nb # Tekstverktøy

Her viser vi ulike måter man kan bygge korpus fra NBs samling. Et korpus kan enten være et utvalg bøker, eller et utvalg aviser. Avgrensningen kan være metadata eller innhold i selve teksten.

Den lettetste måten å definere et korpus er å bruke søk i metadata. `Corpus` har flere parametre som kan brukes til å avgrense korpuset.

### `Corpus`-klassens parametre:

- **doctype**: 
  - Type objekt man vil søke i. Har man velge mellom `"digibok"`(bøker), `"digavis"`(aviser), `"digitidsskrift"`(tidsskrift), `"digistorting"`(stortingsdokumenter), `"digimanus"`(brev og manuskripter) eller `"kudos"`(kunnskapsdokumenter fra offentlig sektor). Standardverdien er `"digibok"`.
  
- **author**: 
  - Navnet på en forfatter.
  
- **freetext**: 
  - Fritt søk i metadata. Kan kombinere flere av parametrene med nøkkelordene `"AND"`, `"OR"` og `"NOT"`. For eksempel: `"digibok AND Ibsen"`.
  
- **fulltext**: 
  - Ord innenfor publikasjonen. Bruk nøkkelordene `"AND"`, `"OR"` og `"NOT"` for å kombinere ord. For eksempel: `"Ibsen AND teater"`.
  
- **from_year**: 
  - Startår for ønsket tidsperiode.
  
- **to_year**: 
  - Sluttår for ønsket tidsperiode.
  
- **from_timestamp**: 
  - Startdato for ønsket tidsperiode. Formatet er `YYYYMMDD`, mens bøker har `YYYY0101` som format.
  
- **to_timestamp**: 
  - Sluttdato for ønsket tidsperiode. Formatet er som for `from_timestamp`.
  
- **title**: 
  - Tittelen på dokumentet eller publikasjonen.
  
- **ddk**: 
  - Deweys desimalklassifikasjon.
  
- **subject**: 
  - Emnet eller temaet for dokumentet.
  
- **lang**: 
  - Språket dokumentet er skrevet på. 3 bokstav ISO-kode.
  
- **limit**: 
  - Grense for antall resultater som returneres. Standardverdien er 10.
  
- **order_by**: 
  - Hvordan resultatene skal sorteres. For eksempel kan det være "random" for tilfeldig sortering.


## Eksempler

#### Bygg et korpus der forfatteren er Vigdis Hjorth

In [2]:
dh.Corpus(author='Vigdis Hjorth', limit=3)

Unnamed: 0,dhlabid,urn,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype,ocr_creator,ocr_timestamp
0,100093627,URN:NBN:no-nb_digibok_2012062806027,Drama med Hilde,"Hjorth , Vigdis",oai:nb.bibsys.no:998721014364702202,aaf187b65b89076390806e9af57e2085,8257405663 / 8202111013,[Oslo],19870101,1987,Cappelen,nob,skjønnlitteratur/voksen / romaner,839.82 / 839.823,fiction,Skjønnlitteratur,digibok,nb,20060101
1,100598358,URN:NBN:no-nb_digibok_2021110548154,Noveller i utvalg,"Ditlevsen , Tove / Hjorth , Vigdis / Hjorth , ...",oai:nb.bibsys.no:999919973296202202,e775432809d4a756481b21f03e86814f,,Oslo,2019,2019,Oktober,nob / dan,,839.81374,short story / text,Uklassifisert,digibok,nb,20060101
2,100421703,URN:NBN:no-nb_digibok_2020101909013,Arv og miljø,"Horn , Kjersti / Hjorth , Vigdis / Strømskag ,...",oai:nb.bibsys.no:999919980996802202,56a5bda1a8c654ff705e17912c7c0974,,[Bergen],20180101,2018,DNS,nob,,792.92,drama,Skjønnlitteratur,digibok,nb,20060101


#### Bygg et korpus fra Dewey 900 (trunkert), som et definert med emneord fiske i katalogdata

Korpuset defineres med metadata som dewey, emneord, navn , år, etc. Her kan [Webdewey](http://deweysearchno.pansoft.de/webdeweysearch/index.html) være til god hjelp.

In [3]:
dh.Corpus(ddk='9%', subject='fiske', limit=3)

Unnamed: 0,dhlabid,urn,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype,ocr_creator,ocr_timestamp
0,100168555,URN:NBN:no-nb_digibok_2013092006059,Nessekongene : [ de store handelsdynastiene i ...,"Alsvik , Hans Chr . / Knutsen , Nils M.",oai:nb.bibsys.no:998830788994702202,b8cc4cb96de22a8d1da58d66b0de4006,8205162999.0,,19880101,1988,Gyldendal,nob,Handelssteder / Norge / Handel / Fiske / Fiske...,381.1094843 / 948.43,,Faglitteratur,digibok,nb,20060101
1,100060623,URN:NBN:no-nb_digibok_2011101908102,Kystbygdene i Sogn og Fjordane : frå 1700-tale...,"Førsund , Finn Borgen",oai:nb.bibsys.no:998641788084702202,4f965dd5e0de2594dd222118e385e861,,,19860101,1986,,nno,Norge / kystkultur / Lokalhistorie / sogn / fj...,948.38 / 948.38,,Faglitteratur,digibok,nb,20060101
2,100321116,URN:NBN:no-nb_digibok_2017010448185,Mausund : vedlikehold og endring i et norsk fi...,"Kristiansen , Aslak",oai:nb.bibsys.no:998660077414702202,b39d7b9c0a4569c645e30a33b93d2766,8200077381.0,Tromsø,19850101,1985,Universitetsforlaget,nob,sosialantropologi / fiske / fiskevær / Mausund...,306.094841 / 948.948.4112,,Faglitteratur,digibok,nb,20060101


#### Korpus med bøker fra 1990 til 2000 som inneholder ordet demokrati

In [4]:
dh.Corpus(doctype='digibok', fulltext='demokrati', from_year=1990, to_year=2000, limit=3)

Unnamed: 0,dhlabid,urn,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype
8,100573078,URN:NBN:no-nb_digibok_2010040803058,Vi valgte det vi ikke kjente : norske krigsdel...,"Skartveit , Andreas",oai:nb.bibsys.no:999506090994702202,d9fd6f3fc5997ab5088de8704fb53917,8203290590.0,,19950101,1995,Forum,nob,Motstandsbevegelser / Andre verdenskrig / okku...,940.548 / 948.104 / 948.1053,,Faglitteratur,digibok
0,100391927,URN:NBN:no-nb_digibok_2018103007177,Redaktøren : festskrift til Thor Bjarne Bore,"Hetland , Tom",oai:nb.bibsys.no:999917649604702202,3a4d5a37bf8b92e7864b17f166d6b922,8299083273.0,,19990101,1999,Stavanger aftenblad,mul / nob / nno / swe,stavanger / aftenblad / redaktører / festskrif...,070,festschrift,Faglitteratur,digibok
79,100597652,URN:NBN:no-nb_digibok_2021122148591,Sosialdemokratiet i Sverige mot år 2000 : et k...,"Nesje, Elisabeth",oai:nb.bibsys.no:999727919654702202,f3940dea633d69a7bc8af8ae43400637,,Bergen,1997,1997,LOS-senteret,nob,,,,Uklassifisert,digibok


#### Korpus med flere søkeord

In [5]:
dh.Corpus(doctype='digibok', fulltext='her OR kan OR du OR legge OR inn OR flere OR søkeord', from_year=1960, to_year=1980, limit=3)

Unnamed: 0,dhlabid,urn,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype
18,100295777,URN:NBN:no-nb_digibok_2016052508037,English in practice : Norwegian texts for tran...,"Holtedahl , Wendy",oai:nb.bibsys.no:998030052454702202,e200cadfa58ec3f96399e7b431869521,8202017173.0,Oslo,19790101,1979,Cappelen,mul / eng / nob,Norsk språk / Oversettelse / Engelsk språk / e...,,,Faglitteratur,digibok
85,100402924,URN:NBN:no-nb_digibok_2009020204148,Wir gehen weiter : lesebok for andre års tysko...,"Ericsson , Eie / Eisenberg , Christian / Lange...",oai:nb.bibsys.no:990618909104702202,afca1f955738ff5b5c47ead1118def64,,Oslo,19710101,1971,Aschehoug,ger,,,,Uklassifisert,digibok
75,100506641,URN:NBN:no-nb_digibok_2012031908124,Europa i etterkrigstiden : 9. klasse,"Jensen , Ronald",oai:nb.bibsys.no:990515305114702202,62c555c800240aeb3c5dfbdb5c1cf591,,[Oslo],19730101,1973,Bryne,nob,,,,Uklassifisert,digibok


#### Aviskorpus

In [6]:
dh.Corpus(doctype='digavis', from_timestamp=20060101, to_timestamp=20070101, limit=3)

Unnamed: 0,dhlabid,urn,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype,ocr_creator,ocr_timestamp
0,201569962,URN:NBN:no-nb_digavis_sognavis_null_null_20061...,sognavis,,,,,Sogndal,20061014,2006,,,,,,,digavis,nb,20060101
1,201667798,URN:NBN:no-nb_digavis_sunnmorsposten_null_null...,sunnmorsposten,,,,,Ålesund,20061220,2006,,,,,,,digavis,nb,20060101
2,200269484,URN:NBN:no-nb_digavis_budstikkaforaskerogb_nul...,budstikkaforaskerogb,,,,,Asker,20061206,2006,,,,,,,digavis,nb,20060101


### Legg korpuset i en variabel

Variabelen brukes til å referere til korpuset senere

In [7]:
korpus = dh.Corpus(ddk="9%", subject="reindrift", from_year=1960, to_year=2020, limit=5)
korpus

Unnamed: 0,dhlabid,urn,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype,ocr_creator,ocr_timestamp
0,100472261,URN:NBN:no-nb_digibok_2010032307035,"I villreinens rike : Setesdal Vesthei , Ryfylk...","Frøstrup , Johan Christian / Bang-Andersen , S...",oai:nb.bibsys.no:990001151004702202,d6e1d58a454d2c15b44d9a225d948c1d,8291495149.0,,19990101,1999,Friluftsforl.,nob,Rein / Jakt / Landskap / Lokalhistorie / Reind...,948.3 / 799.2765,,Faglitteratur,digibok,nb,20060101
1,100365971,URN:NBN:no-nb_digibok_2018030248103,Om sørsamisk historie : foredrag fra seminar p...,"Lyngman , Susanne",oai:nb.bibsys.no:990715892284702202,880a89550bf8b4c936eba2b1af050d3a,,,20070101,2007,Stiftelsen Saemien Sijte,mul / nob / swe / nno,Sørsamer / Historie / Samisk kulturminner / Sa...,948 / 948,,Faglitteratur,digibok,nb,20060101
2,100391168,URN:NBN:no-nb_digibok_2018090607007,"Iellemvuoge : boatsojæládus , varresvuohta ja ...","Andreassen , Lars Magne / Skarvik , Line Meret...",oai:nb.bibsys.no:991302805424702202,bca392a9fb639d273924d4aa7f622e82,,,20120101,2012,Árran julevsáme guovdásj,mul / nob / smj / swe,Reindrift / Forskning og etikk / Helse / Histo...,636.2 / 948,,Faglitteratur,digibok,nb,20060101
3,100396443,URN:NBN:no-nb_digibok_2019112807031,Redningsmenn og lykkejegere : norske pionerer ...,"Andersen , Roy",oai:nb.bibsys.no:991218310354702202,272f96f88d3358cf9c7dba5a4bb397e3,,Oslo,20120101,2012,Aschehoug,nob,Emigrasjon / Fra Norge / Reindrift / Historie ...,979.8 / 979,,Faglitteratur,digibok,nb,20060101
4,100204423,URN:NBN:no-nb_digibok_2014050706037,Redningsmenn og lykkejegere : norske pionerer ...,"Andersen , Roy",oai:nb.bibsys.no:991027951184702202,114a3c37757f0a13bcd1a8f9e1cd1fd6,,Oslo,20110101,2011,Aschehoug,nob,Reindrift / Historie / Emigrasjon / Fra Norge ...,979.8 / 979.8 / 979.8 / 979,,Faglitteratur,digibok,nb,20060101


## 2. Bruk av `Corpus`

`Corpus` tilbyr en rekke metoder for å gjøre korpus lettere å jobbe med:

- **from_identifiers**: 
  - Konstruerer et Corpus fra en liste med identifikatorer.
  
- **from_df**: 
  - Typecaster en Pandas DataFrame til Corpus-klassen. DataFrame må inneholde en URN-kolonne.
  
- **from_csv**: 
  - Importerer et korpus fra csv.
  
- **extend_from_identifiers**: 
  - Utvide korpuset med en liste med identifikatorer.
  
- **evaluate_words**: 
    - Evaluerer en liste med ord mot korpuset.  

- **add**: 
  - Verktøy for å legge til et Corpus eller en DataFrame til det eksisterende korpuset.
  
- **sample**: 
  - Oppretter et tilfeldig subkorpus med et gitt antall.
  
- **conc**: 
  - Henter kollokasjoner av gitte ord i korpuset.
  
- **coll**: 
  - Henter kollokasjoner av gitte ord i korpuset.
  
- **freq**: 
  - Henter ordfrekvenser for korpuset.

### Ta vare på eller rediger korpuset i excel

In [8]:
# Korpus-variabel + .corpus + .to_csv(filnavn)
korpus.frame.to_csv('korpus.csv', index=None)

In [9]:
# Korpus-variabel + .corpus + .csv(filnavn)
korpus.frame.to_excel('korpus.xlsx', index=None)

Importer korpus fra excel-dokument

In [10]:
korpus = nb.restore_metadata_from_excel('korpus.xlsx')
korpus

Unnamed: 0,dhlabid,urn,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype,ocr_creator,ocr_timestamp
0,100472261,URN:NBN:no-nb_digibok_2010032307035,"I villreinens rike : Setesdal Vesthei , Ryfylk...","Frøstrup , Johan Christian / Bang-Andersen , S...",oai:nb.bibsys.no:990001151004702202,d6e1d58a454d2c15b44d9a225d948c1d,8291495000.0,,19990101,1999,Friluftsforl.,nob,Rein / Jakt / Landskap / Lokalhistorie / Reind...,948.3 / 799.2765,,Faglitteratur,digibok,nb,20060101
1,100365971,URN:NBN:no-nb_digibok_2018030248103,Om sørsamisk historie : foredrag fra seminar p...,"Lyngman , Susanne",oai:nb.bibsys.no:990715892284702202,880a89550bf8b4c936eba2b1af050d3a,,,20070101,2007,Stiftelsen Saemien Sijte,mul / nob / swe / nno,Sørsamer / Historie / Samisk kulturminner / Sa...,948 / 948,,Faglitteratur,digibok,nb,20060101
2,100391168,URN:NBN:no-nb_digibok_2018090607007,"Iellemvuoge : boatsojæládus , varresvuohta ja ...","Andreassen , Lars Magne / Skarvik , Line Meret...",oai:nb.bibsys.no:991302805424702202,bca392a9fb639d273924d4aa7f622e82,,,20120101,2012,Árran julevsáme guovdásj,mul / nob / smj / swe,Reindrift / Forskning og etikk / Helse / Histo...,636.2 / 948,,Faglitteratur,digibok,nb,20060101
3,100396443,URN:NBN:no-nb_digibok_2019112807031,Redningsmenn og lykkejegere : norske pionerer ...,"Andersen , Roy",oai:nb.bibsys.no:991218310354702202,272f96f88d3358cf9c7dba5a4bb397e3,,Oslo,20120101,2012,Aschehoug,nob,Emigrasjon / Fra Norge / Reindrift / Historie ...,979.8 / 979,,Faglitteratur,digibok,nb,20060101
4,100204423,URN:NBN:no-nb_digibok_2014050706037,Redningsmenn og lykkejegere : norske pionerer ...,"Andersen , Roy",oai:nb.bibsys.no:991027951184702202,114a3c37757f0a13bcd1a8f9e1cd1fd6,,Oslo,20110101,2011,Aschehoug,nob,Reindrift / Historie / Emigrasjon / Fra Norge ...,979.8 / 979.8 / 979.8 / 979,,Faglitteratur,digibok,nb,20060101



### Bygg korpus fra boksøk på nb.no

Søk etter bøker på [nb.no](https://www.nb.no/search?q=), legg til *debugon* sammen med søkekriteriet. Kopier hele siden (ctrl-A) og lim inn resultatet mellom """ ... """ nedenfor. Kommandoen som brukes er `pure_urn(<tekst>)` som prøver å finne URN-er i alt mulig av tekst.

In [11]:
urns = nb.pure_urn("""

--- lim inn teksten her, så trekkes urn (bokas identifikator) ut i en liste:
Vigdis Hjorth : et forfatterportrett
Jenssen, Ruth | Biblioteksentralen
1994
(api)
id: 7f0b021f40bf6804bca32e5b79e8d66a
urn: URN:NBN:no-nb_digibok_2015090158054
isDigital: true
viewability: ALL
allowedFrom: NORWAY
contentClasses:
legaldeposit
bokhylla
jp2
Som om ingenting : bare om Vigdis Hjorth
Linneberg, Arild | Hjorth, Vigdis | Solstad, Dag
2009
(api)
id: 847bd73c3318f6874a66d0f969ba495a
urn: URN:NBN:no-nb_digibok_2011051820014
isDigital: true
viewability: ALL
allowedFrom: NB
contentClasses:
restricted
legaldeposit
jp2
Leve posthornet! : Vigdis Hjorth
Horn, Ellen | Riksteatret
2014
(api)
id: e6d86eeb4ac8509533d647c9793f01dc
urn: URN:NBN:no-nb_digibok_2014091948002
isDigital: true
viewability: ALL
allowedFrom: EVERYWHERE
contentClasses:
public
legaldeposit
jp2
Fryd og fare : essay om diktning og eksistens
Hjorth, Vigdis
2013
(api)
id: 5ecd6c199ff74aa7c57c2292b61df17d
urn: URN:NBN:no-nb_digibok_2018031548382
--- teksten er kuttet her
""")



In [12]:
# Legger til URN-prefix for hver URN
urns = ["URN:NBN:no-nb_digibok_" + x for x in urns]

In [13]:
c = dh.Corpus() # Tomt korpus objekt
c.extend_from_identifiers(identifiers=urns) # Legger til kodene vi hentet fra teksten over
c # Viser korpuset

Unnamed: 0,urn,dhlabid,title,authors,oaiid,sesamid,isbn10,city,timestamp,year,publisher,langs,subjects,ddc,genres,literaryform,doctype,ocr_creator,ocr_timestamp
0,URN:NBN:no-nb_digibok_2015090158054,100267417.0,Vigdis Hjorth : et forfatterportrett,"Jenssen , Ruth",oai:nb.bibsys.no:999409908064702202,7f0b021f40bf6804bca32e5b79e8d66a,,[Oslo],19940101.0,1994.0,Biblioteksentralen,nob,,,,Uklassifisert,digibok,nb,20060101.0
1,URN:NBN:no-nb_digibok_2018031548382,100367884.0,Fryd og fare : essay om diktning og eksistens,"Hjorth , Vigdis",oai:nb.bibsys.no:991334240574702202,5ecd6c199ff74aa7c57c2292b61df17d,,[Oslo],20130101.0,2013.0,Cappelen Damm,nob,Historisk framstilling / Norsk litteratur / Li...,809 / 839.824 / 809 / 839.824,,Faglitteratur,digibok,nb,20060101.0
2,URN:NBN:no-nb_digibok_2014091948002,100496097.0,Leve posthornet ! : Vigdis Hjorth,"Horn , Ellen",oai:nb.bibsys.no:991429153194702202,e6d86eeb4ac8509533d647c9793f01dc,,[Oslo],20140101.0,2014.0,Riksteatret,nob,,,,Uklassifisert,digibok,nb,20060101.0
3,URN:NBN:no-nb_digibok_2011051820014,100579548.0,Som om ingenting : bare om Vigdis Hjorth,"Linneberg , Arild / Hjorth , Vigdis / Solstad ...",oai:nb.bibsys.no:990925957234702202,847bd73c3318f6874a66d0f969ba495a,,[Oslo],20090101.0,2009.0,Cappelen Damm,nob,Norsk litteratur,839.828 / 839.828,festschrift,Faglitteratur,digibok,nb,20060101.0


Tilbake til [DHLAB ved Nasjonalbiblioteket](https://nbviewer.jupyter.org/github/DH-LAB-NB/DHLAB/blob/master/DHLAB_ved_Nasjonalbiblioteket.ipynb)