resources/images/dhlab-logo-nb.png

1.3. Korpus#

I dhlab brukes Python-klassen Corpus for å representere et korpus. Et korpus er en samling av tekster, og kan være en bok, en avis, en samling av bøker, en samling av aviser, eller en samling av alt som er tilgjengelig.

Ved hjelp av denne klassen kan man velge ut hvilke objekter fra NBs digital samling man vil jobbe med, se metadata som forfatter, år, osv. Man kan så hente ut informasjon om teksten som frekvenslister, konkordanser, og kollokasjoner. Man kan også lese teksten via nb.no.

# Importer bibliotekene
import dhlab as dh # dhlab inneholder Corpus og andre nyttige funksjoner
import dhlab.nbtext as nb # Tekstverktøy

Her viser vi ulike måter man kan bygge korpus fra NBs samling. Et korpus kan enten være et utvalg bøker, eller et utvalg aviser. Avgrensningen kan være metadata eller innhold i selve teksten.

Den lettetste måten å definere et korpus er å bruke søk i metadata. Corpus har flere parametre som kan brukes til å avgrense korpuset.

1.3.1. Corpus-klassens parametre:#

 • doctype:

  • Type objekt man vil søke i. Har man velge mellom "digibok"(bøker), "digavis"(aviser), "digitidsskrift"(tidsskrift), "digistorting"(stortingsdokumenter), "digimanus"(brev og manuskripter) eller "kudos"(kunnskapsdokumenter fra offentlig sektor). Standardverdien er "digibok".

 • author:

  • Navnet på en forfatter.

 • freetext:

  • Fritt søk i metadata. Kan kombinere flere av parametrene med nøkkelordene "AND", "OR" og "NOT". For eksempel: "digibok AND Ibsen".

 • fulltext:

  • Ord innenfor publikasjonen. Bruk nøkkelordene "AND", "OR" og "NOT" for å kombinere ord. For eksempel: "Ibsen AND teater".

 • from_year:

  • Startår for ønsket tidsperiode.

 • to_year:

  • Sluttår for ønsket tidsperiode.

 • from_timestamp:

  • Startdato for ønsket tidsperiode. Formatet er YYYYMMDD, mens bøker har YYYY0101 som format.

 • to_timestamp:

  • Sluttdato for ønsket tidsperiode. Formatet er som for from_timestamp.

 • title:

  • Tittelen på dokumentet eller publikasjonen.

 • ddk:

  • Deweys desimalklassifikasjon.

 • subject:

  • Emnet eller temaet for dokumentet.

 • lang:

  • Språket dokumentet er skrevet på. 3 bokstav ISO-kode.

 • limit:

  • Grense for antall resultater som returneres. Standardverdien er 10.

 • order_by:

  • Hvordan resultatene skal sorteres. For eksempel kan det være “random” for tilfeldig sortering.

1.3.2. Eksempler#

1.3.2.1. Bygg et korpus der forfatteren er Vigdis Hjorth#

dh.Corpus(author='Vigdis Hjorth', limit=3)
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype ocr_creator ocr_timestamp
0 100045799 URN:NBN:no-nb_digibok_2008090204060 Den første gangen : kortroman for ungdom Hjorth , Vigdis / Johnsen , Kristin Berg oai:nb.bibsys.no:999914487824702202 54b5d76c46068333b551707a56bc6fbe 8202182948 [Oslo] 19990101 1999 Cappelen nob ungdomsbøker / pubertet 839.823 fiction Skjønnlitteratur digibok nb 20060101
1 100405715 URN:NBN:no-nb_digibok_2020052548070 Et norsk hus : roman Hjorth , Vigdis oai:nb.bibsys.no:991512096854702202 a6adb06146544701f4829e4f8c9a2893 [Oslo] 20150101 2015 Cappelen Damm nob norsk / litteratur / romanar / norske / romane... 839.82 / 839.823 novel Skjønnlitteratur digibok nb 20060101
2 100397416 URN:NBN:no-nb_digibok_2020021477007 Leve posthornet! : roman Hjorth , Vigdis oai:nb.bibsys.no:991412558974702202 44b0a15a2ebd08a3eb5944f62c584a6b [Oslo] 20140101 2014 Bokklubben nob norsk / litteratur / norske / romaner / 2010-t... 839.823 / 839.82 novel Skjønnlitteratur digibok nb 20060101

1.3.2.2. Bygg et korpus fra Dewey 900 (trunkert), som et definert med emneord fiske i katalogdata#

Korpuset defineres med metadata som dewey, emneord, navn , år, etc. Her kan Webdewey være til god hjelp.

dh.Corpus(ddk='9%', subject='fiske', limit=3)
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype ocr_creator ocr_timestamp
0 100262296 URN:NBN:no-nb_digibok_2014121107526 To kulturer : en sammenlignende undersøkelse a... Vea , Jan oai:nb.bibsys.no:990937812104702202 07c6b1a32a57eb29f9b34429ff7a3204 20090101 2009 Høyskoleforl. nob Historie / Norge / Kystkultur / Fiske / Fisker... 948.33 / 948.103 Faglitteratur digibok nb 20060101
1 100168555 URN:NBN:no-nb_digibok_2013092006059 Nessekongene : [de store handelsdynastiene i N... Alsvik , Hans Chr . / Knutsen , Nils M. oai:nb.bibsys.no:998830788994702202 b8cc4cb96de22a8d1da58d66b0de4006 8205162999 19880101 1988 Gyldendal nob Handelssteder / Norge / Handel / Fiske / Fiske... 381.1094843 / 948.43 Faglitteratur digibok nb 20060101
2 100447751 URN:NBN:no-nb_digibok_2008052704003 Fiske og fangst i Steigen : historie, tro og t... Fygle , Svein oai:nb.bibsys.no:999320505494702202 6d3d8d2cf9c8f8248c6ccffc7935a572 8290030789 19770101 1977 Steigen sentralskole nob kystkultur / jakt / fangst / fiske 639.2 / 914.844 / 948.4438 Faglitteratur digibok nb 20060101

1.3.2.3. Korpus med bøker fra 1990 til 2000 som inneholder ordet demokrati#

dh.Corpus(doctype='digibok', fulltext='demokrati', from_year=1990, to_year=2000, limit=3)
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype
10 100182792 URN:NBN:no-nb_digibok_2013121006109 Med livet i hendene Levin , Robert / Levin , Mona oai:nb.bibsys.no:999426624744702202 9ca102ce197f6b098292ca9e811bcee5 8277900104 Oslo 19940101 1994 Storskriftforl. nob musikkliv / jøder / oslo 786.2092 biography Faglitteratur digibok
13 100236917 URN:NBN:no-nb_digibok_2014120208070 La det svinge! : en analyse av kommune- og fyl... Rommetvedt , Hilmar oai:nb.bibsys.no:999608484954702202 811972887bffe4f86a4c06b8982e90ef Bergen 19960101 1996 LOS-senteret nob Uklassifisert digibok
95 100476099 URN:NBN:no-nb_digibok_2010043003020 Opplev Irland Hunt , Lindsay / Harbison , Peter / Mogan , Sv... oai:nb.bibsys.no:999704369394702202 32a914ab5c1d3c7207eabe9f80176eae 8203221645 19970101 1997 Aschehoug nob / eng reisehåndbøker / håndbøker / guider / reisegui... 914.1504 Faglitteratur digibok

1.3.2.4. Korpus med flere søkeord#

dh.Corpus(doctype='digibok', fulltext='her OR kan OR du OR legge OR inn OR flere OR søkeord', from_year=1960, to_year=1980, limit=3)
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype
9 100612415 URN:NBN:no-nb_digibok_2021070148585 Tenk hvor i gamle dage- : en samling stavanger... Christiansen, Jan / Strøm, Tonje / Ringås, Johs. oai:nb.bibsys.no:999919992798602202 3d1eb492391c082ad1dadf5b3b5b0294 8270960276 Stavanger 1975 1975 Stavanger kommune nob stavangerviser Uklassifisert digibok
95 100518336 URN:NBN:no-nb_digibok_2007052204042 Geografi for ungdomsskolen. 1 : 7. skoleår Bø , Sjur / Storaas , Thorleif oai:nb.bibsys.no:999719142734702202 72c4debb9c6a82123918e1f7df19a92e Oslo 19650101 1965 Cappelen nob geografi / lærebøker Uklassifisert digibok
32 100658102 URN:NBN:no-nb_digibok_2021092209613 Den Kommunale pedagogiske veiledningstjenesten... oai:nb.bibsys.no:990417819454702202 31a32cbabf5f58e82a9c9a734aec1919 [Kristiansand] 1976 1976 Skoledirektøren i Vest-AGder nob Uklassifisert digibok

1.3.2.5. Aviskorpus#

dh.Corpus(doctype='digavis', from_timestamp=20060101, to_timestamp=20070101, limit=3)
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype ocr_creator ocr_timestamp
0 202492280 URN:NBN:no-nb_digavis_levangeravisa_null_null_... levangeravisa Levanger 20061005 2006 digavis nb 20060101
1 203524944 URN:NBN:no-nb_digavis_fanaposten_null_null_200... fanaposten 20060616 2006 digavis nb 20060101
2 203577200 URN:NBN:no-nb_digavis_kanalen_null_null_200602... kanalen 20060208 2006 digavis nb 20060101

1.3.2.6. Legg korpuset i en variabel#

Variabelen brukes til å referere til korpuset senere

korpus = dh.Corpus(ddk="9%", subject="reindrift", from_year=1960, to_year=2020, limit=5)
korpus
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype ocr_creator ocr_timestamp
0 100364819 URN:NBN:no-nb_digibok_2018020948033 Reinen på Hardangervidda : natur og kultur Vaa , Johan / Bitustøyl , Kjell oai:nb.bibsys.no:991237194454702202 8358d28bbb7a9dc5f74ad6b5ba8ac8f7 20120101 2012 Villreinutvalet på Hardangervidda nno dyregraver / reindrift / fjell / Norge / Rein ... 639.1 / 639.1 / 948.28 / 639.11 / 639.109481 Faglitteratur digibok nb 20060101
1 100574355 URN:NBN:no-nb_digibok_2008102204133 Samenes kultur og historie - samepolitikk i No... Lund , Jann T. oai:nb.bibsys.no:990006624024702202 36c4a8d641dcb05cfee4046e43fd02ad 20000101 2000 Nordisk samisk institutt nob samer / samepolitikk / norge / sverige / samis... 323.119455 / 948.0049457 conference publication Faglitteratur digibok nb 20060101
2 100204423 URN:NBN:no-nb_digibok_2014050706037 Redningsmenn og lykkejegere : norske pionerer ... Andersen , Roy oai:nb.bibsys.no:991027951184702202 114a3c37757f0a13bcd1a8f9e1cd1fd6 Oslo 20110101 2011 Aschehoug nob Reindrift / Historie / Emigrasjon / Fra Norge ... 979.8 / 979.8 / 979.8 / 979 Faglitteratur digibok nb 20060101
3 100417939 URN:NBN:no-nb_digibok_2020040107019 Rondane : fjellfolk og villrein Jordhøy , Per oai:nb.bibsys.no:991322662614702202 44acad31ad546e5bd297feab47a5852b 20130101 2013 Snøhetta forl. nno fjell / reindrift / reindriftslandskap / Norge... 599.65 / 948.25 Faglitteratur digibok nb 20060101
4 100291537 URN:NBN:no-nb_digibok_2016042648022 Forollhogna, Skarvan og Roltdalen Nyaas , Arne / Sandvik , Jostein / Stabell , Erik oai:nb.bibsys.no:990925872404702202 03c370cb82e94a2b65d928df4ae546e9 20090101 2009 Gyldendal nob Nasjonalparker / Forollhogna nasjonalpark / Sk... 914.81 / 948.24 Uklassifisert digibok nb 20060101

1.3.3. 2. Bruk av Corpus#

Corpus tilbyr en rekke metoder for å gjøre korpus lettere å jobbe med:

 • from_identifiers:

  • Konstruerer et Corpus fra en liste med identifikatorer.

 • from_df:

  • Typecaster en Pandas DataFrame til Corpus-klassen. DataFrame må inneholde en URN-kolonne.

 • from_csv:

  • Importerer et korpus fra csv.

 • extend_from_identifiers:

  • Utvide korpuset med en liste med identifikatorer.

 • evaluate_words:

  • Evaluerer en liste med ord mot korpuset.

 • add:

  • Verktøy for å legge til et Corpus eller en DataFrame til det eksisterende korpuset.

 • sample:

  • Oppretter et tilfeldig subkorpus med et gitt antall.

 • conc:

  • Henter kollokasjoner av gitte ord i korpuset.

 • coll:

  • Henter kollokasjoner av gitte ord i korpuset.

 • freq:

  • Henter ordfrekvenser for korpuset.

1.3.3.1. Ta vare på eller rediger korpuset i excel#

# Korpus-variabel + .corpus + .to_csv(filnavn)
korpus.frame.to_csv('korpus.csv', index=None)
# Korpus-variabel + .corpus + .csv(filnavn)
korpus.frame.to_excel('korpus.xlsx', index=None)

Importer korpus fra excel-dokument

korpus = nb.restore_metadata_from_excel('korpus.xlsx')
korpus
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype ocr_creator ocr_timestamp
0 100364819 URN:NBN:no-nb_digibok_2018020948033 Reinen på Hardangervidda : natur og kultur Vaa , Johan / Bitustøyl , Kjell oai:nb.bibsys.no:991237194454702202 8358d28bbb7a9dc5f74ad6b5ba8ac8f7 NaN NaN 20120101 2012 Villreinutvalet på Hardangervidda nno dyregraver / reindrift / fjell / Norge / Rein ... 639.1 / 639.1 / 948.28 / 639.11 / 639.109481 NaN Faglitteratur digibok nb 20060101
1 100574355 URN:NBN:no-nb_digibok_2008102204133 Samenes kultur og historie - samepolitikk i No... Lund , Jann T. oai:nb.bibsys.no:990006624024702202 36c4a8d641dcb05cfee4046e43fd02ad NaN NaN 20000101 2000 Nordisk samisk institutt nob samer / samepolitikk / norge / sverige / samis... 323.119455 / 948.0049457 conference publication Faglitteratur digibok nb 20060101
2 100204423 URN:NBN:no-nb_digibok_2014050706037 Redningsmenn og lykkejegere : norske pionerer ... Andersen , Roy oai:nb.bibsys.no:991027951184702202 114a3c37757f0a13bcd1a8f9e1cd1fd6 NaN Oslo 20110101 2011 Aschehoug nob Reindrift / Historie / Emigrasjon / Fra Norge ... 979.8 / 979.8 / 979.8 / 979 NaN Faglitteratur digibok nb 20060101
3 100417939 URN:NBN:no-nb_digibok_2020040107019 Rondane : fjellfolk og villrein Jordhøy , Per oai:nb.bibsys.no:991322662614702202 44acad31ad546e5bd297feab47a5852b NaN NaN 20130101 2013 Snøhetta forl. nno fjell / reindrift / reindriftslandskap / Norge... 599.65 / 948.25 NaN Faglitteratur digibok nb 20060101
4 100291537 URN:NBN:no-nb_digibok_2016042648022 Forollhogna, Skarvan og Roltdalen Nyaas , Arne / Sandvik , Jostein / Stabell , Erik oai:nb.bibsys.no:990925872404702202 03c370cb82e94a2b65d928df4ae546e9 NaN NaN 20090101 2009 Gyldendal nob Nasjonalparker / Forollhogna nasjonalpark / Sk... 914.81 / 948.24 NaN Uklassifisert digibok nb 20060101

1.3.3.2. Bygg korpus fra boksøk på nb.no#

Søk etter bøker på nb.no, legg til debugon sammen med søkekriteriet. Kopier hele siden (ctrl-A) og lim inn resultatet mellom “”” … “”” nedenfor. Kommandoen som brukes er pure_urn(<tekst>) som prøver å finne URN-er i alt mulig av tekst.

urns = nb.pure_urn("""

--- lim inn teksten her, så trekkes urn (bokas identifikator) ut i en liste:
Vigdis Hjorth : et forfatterportrett
Jenssen, Ruth | Biblioteksentralen
1994
(api)
id: 7f0b021f40bf6804bca32e5b79e8d66a
urn: URN:NBN:no-nb_digibok_2015090158054
isDigital: true
viewability: ALL
allowedFrom: NORWAY
contentClasses:
legaldeposit
bokhylla
jp2
Som om ingenting : bare om Vigdis Hjorth
Linneberg, Arild | Hjorth, Vigdis | Solstad, Dag
2009
(api)
id: 847bd73c3318f6874a66d0f969ba495a
urn: URN:NBN:no-nb_digibok_2011051820014
isDigital: true
viewability: ALL
allowedFrom: NB
contentClasses:
restricted
legaldeposit
jp2
Leve posthornet! : Vigdis Hjorth
Horn, Ellen | Riksteatret
2014
(api)
id: e6d86eeb4ac8509533d647c9793f01dc
urn: URN:NBN:no-nb_digibok_2014091948002
isDigital: true
viewability: ALL
allowedFrom: EVERYWHERE
contentClasses:
public
legaldeposit
jp2
Fryd og fare : essay om diktning og eksistens
Hjorth, Vigdis
2013
(api)
id: 5ecd6c199ff74aa7c57c2292b61df17d
urn: URN:NBN:no-nb_digibok_2018031548382
--- teksten er kuttet her
""")
# Legger til URN-prefix for hver URN
urns = ["URN:NBN:no-nb_digibok_" + x for x in urns]
c = dh.Corpus() # Tomt korpus objekt
c.extend_from_identifiers(identifiers=urns) # Legger til kodene vi hentet fra teksten over
c # Viser korpuset
urn dhlabid title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype ocr_creator ocr_timestamp
0 URN:NBN:no-nb_digibok_2011051820014 100579548.0 Som om ingenting : bare om Vigdis Hjorth Linneberg , Arild / Hjorth , Vigdis / Solstad ... oai:nb.bibsys.no:990925957234702202 847bd73c3318f6874a66d0f969ba495a [Oslo] 20090101.0 2009.0 Cappelen Damm nob Norsk litteratur 839.828 / 839.828 festschrift Faglitteratur digibok nb 20060101.0
1 URN:NBN:no-nb_digibok_2014091948002 100496097.0 Leve posthornet! : Vigdis Hjorth Horn , Ellen oai:nb.bibsys.no:991429153194702202 e6d86eeb4ac8509533d647c9793f01dc [Oslo] 20140101.0 2014.0 Riksteatret nob Uklassifisert digibok nb 20060101.0
2 URN:NBN:no-nb_digibok_2015090158054 100267417.0 Vigdis Hjorth : et forfatterportrett Jenssen , Ruth oai:nb.bibsys.no:999409908064702202 7f0b021f40bf6804bca32e5b79e8d66a [Oslo] 19940101.0 1994.0 Biblioteksentralen nob Uklassifisert digibok nb 20060101.0
3 URN:NBN:no-nb_digibok_2018031548382 100367884.0 Fryd og fare : essay om diktning og eksistens Hjorth , Vigdis oai:nb.bibsys.no:991334240574702202 5ecd6c199ff74aa7c57c2292b61df17d [Oslo] 20130101.0 2013.0 Cappelen Damm nob Historisk framstilling / Norsk litteratur / Li... 809 / 839.824 / 809 / 839.824 Faglitteratur digibok nb 20060101.0

Tilbake til DHLAB ved Nasjonalbiblioteket