resources/images/dhlab-logo-nb.png

1.3. Korpus#

I dhlab brukes Python-klassen Corpus for å representere et korpus. Et korpus er en samling av tekster, og kan være en bok, en avis, en samling av bøker, en samling av aviser, eller en samling av alt som er tilgjengelig.

Ved hjelp av denne klassen kan man velge ut hvilke objekter fra NBs digital samling man vil jobbe med, se metadata som forfatter, år, osv. Man kan så hente ut informasjon om teksten som frekvenslister, konkordanser, og kollokasjoner. Man kan også lese teksten via nb.no.

# Importer bibliotekene
import dhlab as dh # dhlab inneholder Corpus og andre nyttige funksjoner
import dhlab.nbtext as nb # Tekstverktøy
---------------------------------------------------------------------------
ModuleNotFoundError                       Traceback (most recent call last)
Cell In[1], line 3
      1 # Importer bibliotekene
      2 import dhlab as dh # dhlab inneholder Corpus og andre nyttige funksjoner
----> 3 import dhlab.nbtext as nb # Tekstverktøy

ModuleNotFoundError: No module named 'dhlab.nbtext'

Her viser vi ulike måter man kan bygge korpus fra NBs samling. Et korpus kan enten være et utvalg bøker, eller et utvalg aviser. Avgrensningen kan være metadata eller innhold i selve teksten.

Den lettetste måten å definere et korpus er å bruke søk i metadata. Corpus har flere parametre som kan brukes til å avgrense korpuset.

1.3.1. Corpus-klassens parametre:#

  • doctype:

    • Type objekt man vil søke i. Har man velge mellom "digibok"(bøker), "digavis"(aviser), "digitidsskrift"(tidsskrift), "digistorting"(stortingsdokumenter), "digimanus"(brev og manuskripter) eller "kudos"(kunnskapsdokumenter fra offentlig sektor). Standardverdien er "digibok".

  • author:

    • Navnet på en forfatter.

  • freetext:

    • Fritt søk i metadata. Kan kombinere flere av parametrene med nøkkelordene "AND", "OR" og "NOT". For eksempel: "digibok AND Ibsen".

  • fulltext:

    • Ord innenfor publikasjonen. Bruk nøkkelordene "AND", "OR" og "NOT" for å kombinere ord. For eksempel: "Ibsen AND teater".

  • from_year:

    • Startår for ønsket tidsperiode.

  • to_year:

    • Sluttår for ønsket tidsperiode.

  • from_timestamp:

    • Startdato for ønsket tidsperiode. Formatet er YYYYMMDD, mens bøker har YYYY0101 som format.

  • to_timestamp:

    • Sluttdato for ønsket tidsperiode. Formatet er som for from_timestamp.

  • title:

    • Tittelen på dokumentet eller publikasjonen.

  • ddk:

    • Deweys desimalklassifikasjon.

  • subject:

    • Emnet eller temaet for dokumentet.

  • lang:

    • Språket dokumentet er skrevet på. 3 bokstav ISO-kode.

  • limit:

    • Grense for antall resultater som returneres. Standardverdien er 10.

  • order_by:

    • Hvordan resultatene skal sorteres. For eksempel kan det være “random” for tilfeldig sortering.

1.3.2. Eksempler#

1.3.2.1. Bygg et korpus der forfatteren er Vigdis Hjorth#

dh.Corpus(author='Vigdis Hjorth', limit=3)
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype ocr_creator ocr_timestamp
0 100403751 URN:NBN:no-nb_digibok_2020050848559 Ubehaget i kulturen Hjorth , Vigdis / Linneberg , Arild oai:nb.bibsys.no:999919961100402202 d7756cabad7c041cce220672a99e0f03 20180101 2018 Cappelen Damm nob Kunstnermiljøer / Kunstnarmiljø 839.8238 novel / text Skjønnlitteratur digibok nb 20060101
1 100501151 URN:NBN:no-nb_digibok_2007111201053 Fransk åpning : roman Hjorth , Vigdis oai:nb.bibsys.no:999208796594702202 0271176d4f0784ffb7ea604b371cca3f 8257409421 / 8202134994 [Oslo] 19920101 1992 Cappelen nob norsk / litteratur / norske / romaner / erotis... 839.823 novel Skjønnlitteratur digibok nb 20060101
2 100204996 URN:NBN:no-nb_digibok_2014051906169 Tredve dager i Sandefjord : roman Hjorth , Vigdis oai:nb.bibsys.no:991142013744702202 e0d62143c91075bf6120cfe8060d38ac [Oslo] 20110101 2011 Cappelen Damm nob fengsel / innsatte / skjønnlitteratur / norske... 839.823 novel Skjønnlitteratur digibok nb 20060101

1.3.2.2. Bygg et korpus fra Dewey 900 (trunkert), som et definert med emneord fiske i katalogdata#

Korpuset defineres med metadata som dewey, emneord, navn , år, etc. Her kan Webdewey være til god hjelp.

dh.Corpus(ddk='9*', subject='fiske', limit=3)
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype ocr_creator ocr_timestamp
0 100023492 URN:NBN:no-nb_digibok_2010111108036 Flekkerøya i eldre og nyere tid : naturforhold... Rudolfsen , R. M. oai:nb.bibsys.no:999200300174702202 beefefd19788857522497738855a6eea 8299253306 [Flekkerøy] 19910101 1991 Flekkerøy historielag nob Slektshistorie / Lokalhistorie / oddernes / kr... 948.3211 Faglitteratur digibok nb 20060101
1 100606567 URN:NBN:no-nb_digibok_2021101148545 Fiskerne i Gaza Hammervold , Jan P. oai:nb.bibsys.no:999919920071602202 8d60d840c73ecccd40e63319787c39d1 2018 2018 Forl. Rødt nob Fiskerier / Palestina-spørsmålet / Politikk / ... 956.943 text Faglitteratur digibok nb 20060101
2 100168555 URN:NBN:no-nb_digibok_2013092006059 Nessekongene : [ de store handelsdynastiene i ... Alsvik , Hans Chr . / Knutsen , Nils M. oai:nb.bibsys.no:998830788994702202 b8cc4cb96de22a8d1da58d66b0de4006 8205162999 19880101 1988 Gyldendal nob Handelssteder / Norge / Handel / Fiske / Fiske... 381.1094843 / 948.43 Faglitteratur digibok nb 20060101

1.3.2.3. Korpus med bøker fra 1990 til 2000 som inneholder ordet demokrati#

dh.Corpus(doctype='digibok', fulltext='demokrati', from_year=1990, to_year=2000, limit=3)
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype
2 100020329 URN:NBN:no-nb_digibok_2010101808041 Helse-, sosial- og trygdesektoren som etterkri... Haave , Per / Nordby , Trond oai:nb.bibsys.no:999101314064702202 c505291c87e295af4b7283c95cbb02af Bergen 19900101 1990 Norsk senter for forskning i ledelse, organisa... nob Uklassifisert digibok
77 100559850 URN:NBN:no-nb_digibok_2009060204025 Fra ord til utsagn : studie- og arbeidsbok i n... Johnsen , Egil Børre / Solheim , Bjørn Elling oai:nb.bibsys.no:999107241994702202 a4451930ad311bede7d0223f7634a4c0 8203136974 [Oslo] 19910101 1991 Aschehoug nob språkkunnskap / norsk / språk / lærebøker / fo... Uklassifisert digibok
38 100260496 URN:NBN:no-nb_digibok_2015030606064 Mannen og verket Taksdal , Asgjerd / Aasen , Ivar oai:nb.bibsys.no:999606502614702202 a948ecb439cc7cef3bc47345aa43818e Oslo 19960101 1996 Ivar Aasen-året 1996 nno nynorsk / norsk / språk / historie / nynorske ... 839.8209 biography Faglitteratur digibok

1.3.2.4. Korpus med flere søkeord#

dh.Corpus(doctype='digibok', fulltext='her OR kan OR du OR legge OR inn OR flere OR søkeord', from_year=2010, to_year=2020, limit=3)
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype
81 100708480 URN:NBN:no-nb_pliktmonografi_000022934 14-åringer og konfirmasjon Ungdomsundersøkelse... Birkedal, Erling oai:nb.bibsys.no:999920419669502202 64b42c3c486d39fcbf573244fb1582a8 20190101 2019 Vitenskapelig høgskole nob tekst Faglitteratur digibok
6 100126848 URN:NBN:no-nb_digibok_2012121108087 Grunnkurs for brannkonstabel. H. 2 oai:nb.bibsys.no:991118711314702202 5b2aabfee11e23eb29421dc789fb72c3 Oslo 20110101 2011 Gyldendal undervisning nob brannvernteknikk 628.92 Faglitteratur digibok
34 100278494 URN:NBN:no-nb_digibok_2016012106038 Dødsspillet : en biografi om motstandsmannen G... Rougthvedt , Bernt oai:nb.bibsys.no:991216957944702202 fdebc3cf9b7d6a47a7ca00e292f7ee2b 20120101 2012 Cappelen Damm nob Andre verdenskrig / Historie / Motstandskamp /... 948.105 / 948.1053 / 940.5485092 / 940.53481 /... biography Faglitteratur digibok

1.3.2.5. Aviskorpus#

dh.Corpus(doctype='digavis', from_timestamp=20061201, to_timestamp=20070101, limit=3)
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype ocr_creator ocr_timestamp
0 203510020 URN:NBN:no-nb_digavis_agderposten_null_null_20... agderposten 20061211 2006 digavis nb 20060101
1 203643045 URN:NBN:no-nb_digavis_sortrondelag_null_null_2... sortrondelag 20061214 2006 digavis nb 20060101
2 202855729 URN:NBN:no-nb_digavis_vaartland_null_null_2006... vaartland Oslo 20061230 2006 digavis nb 20060101

1.3.2.6. Legg korpuset i en variabel#

Variabelen brukes til å referere til korpuset senere

korpus = dh.Corpus(ddk="9*", subject="reindrift", from_year=1960, to_year=2020, limit=5)
korpus
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype ocr_creator ocr_timestamp
0 100204423 URN:NBN:no-nb_digibok_2014050706037 Redningsmenn og lykkejegere : norske pionerer ... Andersen , Roy oai:nb.bibsys.no:991027951184702202 114a3c37757f0a13bcd1a8f9e1cd1fd6 Oslo 20110101 2011 Aschehoug nob Reindrift / Historie / Emigrasjon / Fra Norge ... 979.8 / 979.8 / 979.8 / 979 Faglitteratur digibok nb 20060101
1 100097331 URN:NBN:no-nb_digibok_2012080208310 Det samiske perspektivet i verdensarven Røros ... Fjellheim , Jenny oai:nb.bibsys.no:990711075504702202 2019d516c913357805a28a600fce78f0 [Røros] 20070101 2007 Rørosmuseet nob Verdensarv / Kulturminnevern / Samer / Samiske... 948.41 Faglitteratur digibok nb 20060101
2 100182647 URN:NBN:no-nb_digibok_2013120906074 Sjøsamene ved Varangerfjorden : en kortfattet ... Bjørkli , Thorbjørn / Schanche , Kjersti oai:nb.bibsys.no:990600856224702202 31ee1b96b77a9497d98ac57759a8bf05 8277460066 20050101 2005 Várjjat sámi musea nob Historie / Norge / Sjøsamer / Samer / Sjøsamer... 948.46 Faglitteratur digibok nb 20060101
3 100574355 URN:NBN:no-nb_digibok_2008102204133 Samenes kultur og historie - samepolitikk i No... Lund , Jann T. oai:nb.bibsys.no:990006624024702202 36c4a8d641dcb05cfee4046e43fd02ad 20000101 2000 Nordisk samisk institutt nob samer / samepolitikk / norge / sverige / samis... 323.119455 / 948.0049457 conference publication Faglitteratur digibok nb 20060101
4 100396443 URN:NBN:no-nb_digibok_2019112807031 Redningsmenn og lykkejegere : norske pionerer ... Andersen , Roy oai:nb.bibsys.no:991218310354702202 272f96f88d3358cf9c7dba5a4bb397e3 Oslo 20120101 2012 Aschehoug nob Emigrasjon / Fra Norge / Reindrift / Historie ... 979.8 / 979 Faglitteratur digibok nb 20060101

1.3.3. 2. Bruk av Corpus#

Corpus tilbyr en rekke metoder for å gjøre korpus lettere å jobbe med:

  • from_identifiers:

    • Konstruerer et Corpus fra en liste med identifikatorer.

  • from_df:

    • Typecaster en Pandas DataFrame til Corpus-klassen. DataFrame må inneholde en URN-kolonne.

  • from_csv:

    • Importerer et korpus fra csv.

  • extend_from_identifiers:

    • Utvide korpuset med en liste med identifikatorer.

  • evaluate_words:

    • Evaluerer en liste med ord mot korpuset.

  • add:

    • Verktøy for å legge til et Corpus eller en DataFrame til det eksisterende korpuset.

  • sample:

    • Oppretter et tilfeldig subkorpus med et gitt antall.

  • conc:

    • Henter kollokasjoner av gitte ord i korpuset.

  • coll:

    • Henter kollokasjoner av gitte ord i korpuset.

  • freq:

    • Henter ordfrekvenser for korpuset.

1.3.3.1. Ta vare på eller rediger korpuset i excel#

# Korpus-variabel + .corpus + .to_csv(filnavn)
korpus.frame.to_csv('korpus.csv', index=None)
# Korpus-variabel + .corpus + .csv(filnavn)
korpus.frame.to_excel('korpus.xlsx', index=None)

Importer korpus fra excel-dokument

korpus = nb.restore_metadata_from_excel('korpus.xlsx')
korpus
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype ocr_creator ocr_timestamp
0 100204423 URN:NBN:no-nb_digibok_2014050706037 Redningsmenn og lykkejegere : norske pionerer ... Andersen , Roy oai:nb.bibsys.no:991027951184702202 114a3c37757f0a13bcd1a8f9e1cd1fd6 NaN Oslo 20110101 2011 Aschehoug nob Reindrift / Historie / Emigrasjon / Fra Norge ... 979.8 / 979.8 / 979.8 / 979 NaN Faglitteratur digibok nb 20060101
1 100097331 URN:NBN:no-nb_digibok_2012080208310 Det samiske perspektivet i verdensarven Røros ... Fjellheim , Jenny oai:nb.bibsys.no:990711075504702202 2019d516c913357805a28a600fce78f0 NaN [Røros] 20070101 2007 Rørosmuseet nob Verdensarv / Kulturminnevern / Samer / Samiske... 948.41 NaN Faglitteratur digibok nb 20060101
2 100182647 URN:NBN:no-nb_digibok_2013120906074 Sjøsamene ved Varangerfjorden : en kortfattet ... Bjørkli , Thorbjørn / Schanche , Kjersti oai:nb.bibsys.no:990600856224702202 31ee1b96b77a9497d98ac57759a8bf05 8.277460e+09 NaN 20050101 2005 Várjjat sámi musea nob Historie / Norge / Sjøsamer / Samer / Sjøsamer... 948.46 NaN Faglitteratur digibok nb 20060101
3 100574355 URN:NBN:no-nb_digibok_2008102204133 Samenes kultur og historie - samepolitikk i No... Lund , Jann T. oai:nb.bibsys.no:990006624024702202 36c4a8d641dcb05cfee4046e43fd02ad NaN NaN 20000101 2000 Nordisk samisk institutt nob samer / samepolitikk / norge / sverige / samis... 323.119455 / 948.0049457 conference publication Faglitteratur digibok nb 20060101
4 100396443 URN:NBN:no-nb_digibok_2019112807031 Redningsmenn og lykkejegere : norske pionerer ... Andersen , Roy oai:nb.bibsys.no:991218310354702202 272f96f88d3358cf9c7dba5a4bb397e3 NaN Oslo 20120101 2012 Aschehoug nob Emigrasjon / Fra Norge / Reindrift / Historie ... 979.8 / 979 NaN Faglitteratur digibok nb 20060101

1.3.3.2. Bygg korpus fra boksøk på nb.no#

Søk etter bøker på nb.no, legg til debugon sammen med søkekriteriet. Kopier hele siden (ctrl-A) og lim inn resultatet mellom “”” … “”” nedenfor. Kommandoen som brukes er pure_urn(<tekst>) som prøver å finne URN-er i alt mulig av tekst.

urns = nb.pure_urn("""

--- lim inn teksten her, så trekkes urn (bokas identifikator) ut i en liste:
Vigdis Hjorth : et forfatterportrett
Jenssen, Ruth | Biblioteksentralen
1994
(api)
id: 7f0b021f40bf6804bca32e5b79e8d66a
urn: URN:NBN:no-nb_digibok_2015090158054
isDigital: true
viewability: ALL
allowedFrom: NORWAY
contentClasses:
legaldeposit
bokhylla
jp2
Som om ingenting : bare om Vigdis Hjorth
Linneberg, Arild | Hjorth, Vigdis | Solstad, Dag
2009
(api)
id: 847bd73c3318f6874a66d0f969ba495a
urn: URN:NBN:no-nb_digibok_2011051820014
isDigital: true
viewability: ALL
allowedFrom: NB
contentClasses:
restricted
legaldeposit
jp2
Leve posthornet! : Vigdis Hjorth
Horn, Ellen | Riksteatret
2014
(api)
id: e6d86eeb4ac8509533d647c9793f01dc
urn: URN:NBN:no-nb_digibok_2014091948002
isDigital: true
viewability: ALL
allowedFrom: EVERYWHERE
contentClasses:
public
legaldeposit
jp2
Fryd og fare : essay om diktning og eksistens
Hjorth, Vigdis
2013
(api)
id: 5ecd6c199ff74aa7c57c2292b61df17d
urn: URN:NBN:no-nb_digibok_2018031548382
--- teksten er kuttet her
""")
# Legger til URN-prefix for hver URN
urns = ["URN:NBN:no-nb_digibok_" + x for x in urns]
c = dh.Corpus() # Tomt korpus objekt
c.extend_from_identifiers(identifiers=urns) # Legger til kodene vi hentet fra teksten over
c # Viser korpuset
urn dhlabid title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype ocr_creator ocr_timestamp
0 URN:NBN:no-nb_digibok_2015090158054 100267417.0 Vigdis Hjorth : et forfatterportrett Jenssen , Ruth oai:nb.bibsys.no:999409908064702202 7f0b021f40bf6804bca32e5b79e8d66a [Oslo] 19940101.0 1994.0 Biblioteksentralen nob Uklassifisert digibok nb 20060101.0
1 URN:NBN:no-nb_digibok_2018031548382 100367884.0 Fryd og fare : essay om diktning og eksistens Hjorth , Vigdis oai:nb.bibsys.no:991334240574702202 5ecd6c199ff74aa7c57c2292b61df17d [Oslo] 20130101.0 2013.0 Cappelen Damm nob Historisk framstilling / Norsk litteratur / Li... 809 / 839.824 / 809 / 839.824 Faglitteratur digibok nb 20060101.0
2 URN:NBN:no-nb_digibok_2014091948002 100496097.0 Leve posthornet ! : Vigdis Hjorth Horn , Ellen oai:nb.bibsys.no:991429153194702202 e6d86eeb4ac8509533d647c9793f01dc [Oslo] 20140101.0 2014.0 Riksteatret nob Uklassifisert digibok nb 20060101.0
3 URN:NBN:no-nb_digibok_2011051820014 100579548.0 Som om ingenting : bare om Vigdis Hjorth Linneberg , Arild / Hjorth , Vigdis / Solstad ... oai:nb.bibsys.no:990925957234702202 847bd73c3318f6874a66d0f969ba495a [Oslo] 20090101.0 2009.0 Cappelen Damm nob Norsk litteratur 839.828 / 839.828 festschrift Faglitteratur digibok nb 20060101.0

Tilbake til DHLAB ved Nasjonalbiblioteket