resources/images/dhlab-logo-nb.png

1.3. Korpus#

I dhlab brukes Python-klassen Corpus for å representere et korpus. Et korpus er en samling av tekster, og kan være en bok, en avis, en samling av bøker, en samling av aviser, eller en samling av alt som er tilgjengelig.

Ved hjelp av denne klassen kan man velge ut hvilke objekter fra NBs digital samling man vil jobbe med, se metadata som forfatter, år, osv. Man kan så hente ut informasjon om teksten som frekvenslister, konkordanser, og kollokasjoner. Man kan også lese teksten via nb.no.

# Importer bibliotekene
import dhlab as dh # dhlab inneholder Corpus og andre nyttige funksjoner
import dhlab.nbtext as nb # Tekstverktøy

Her viser vi ulike måter man kan bygge korpus fra NBs samling. Et korpus kan enten være et utvalg bøker, eller et utvalg aviser. Avgrensningen kan være metadata eller innhold i selve teksten.

Den lettetste måten å definere et korpus er å bruke søk i metadata. Corpus har flere parametre som kan brukes til å avgrense korpuset.

1.3.1. Corpus-klassens parametre:#

  • doctype:

    • Type objekt man vil søke i. Har man velge mellom "digibok"(bøker), "digavis"(aviser), "digitidsskrift"(tidsskrift), "digistorting"(stortingsdokumenter), "digimanus"(brev og manuskripter) eller "kudos"(kunnskapsdokumenter fra offentlig sektor). Standardverdien er "digibok".

  • author:

    • Navnet på en forfatter.

  • freetext:

    • Fritt søk i metadata. Kan kombinere flere av parametrene med nøkkelordene "AND", "OR" og "NOT". For eksempel: "digibok AND Ibsen".

  • fulltext:

    • Ord innenfor publikasjonen. Bruk nøkkelordene "AND", "OR" og "NOT" for å kombinere ord. For eksempel: "Ibsen AND teater".

  • from_year:

    • Startår for ønsket tidsperiode.

  • to_year:

    • Sluttår for ønsket tidsperiode.

  • from_timestamp:

    • Startdato for ønsket tidsperiode. Formatet er YYYYMMDD, mens bøker har YYYY0101 som format.

  • to_timestamp:

    • Sluttdato for ønsket tidsperiode. Formatet er som for from_timestamp.

  • title:

    • Tittelen på dokumentet eller publikasjonen.

  • ddk:

    • Deweys desimalklassifikasjon.

  • subject:

    • Emnet eller temaet for dokumentet.

  • lang:

    • Språket dokumentet er skrevet på. 3 bokstav ISO-kode.

  • limit:

    • Grense for antall resultater som returneres. Standardverdien er 10.

  • order_by:

    • Hvordan resultatene skal sorteres. For eksempel kan det være “random” for tilfeldig sortering.

1.3.2. Eksempler#

1.3.2.1. Bygg et korpus der forfatteren er Vigdis Hjorth#

dh.Corpus(author='Vigdis Hjorth', limit=3)
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype ocr_creator ocr_timestamp
0 100400877 URN:NBN:no-nb_digibok_2020042748027 Noveller i utvalg Ditlevsen , Tove / Hjorth , Vigdis / Lyng , Hilde oai:nb.bibsys.no:999919909102402202 f8b507990057396a678159a8b2805d20 Oslo 20180101 2018 Oktober nob / dan norsk skjønnlitteratur 839.81374 short story / text Skjønnlitteratur digibok nb 20060101
1 100383540 URN:NBN:no-nb_digibok_2018062807005 Hvordan bli gammel når du har vokst opp med Ro... Harboe , Ingrid Samuelsen / Hjorth , Vigdis oai:nb.bibsys.no:990935234754702202 d01b1820a529f82d9f087f4b761b92a7 20090101 2009 Dinamo forl. mul / nob / nno Aldring / Beat-bevegelsen / Sekstiåttere / ald... 305.24 biography Faglitteratur digibok nb 20060101
2 100179053 URN:NBN:no-nb_digibok_2013112706033 Om bare : roman Hjorth , Vigdis oai:nb.bibsys.no:991007318214702202 a83d3eaf3188a3fd46c172c2e5745bf6 [Oslo] 20100101 2010 Cappelen Damm nob 839.823 novel Skjønnlitteratur digibok nb 20060101

1.3.2.2. Bygg et korpus fra Dewey 900 (trunkert), som et definert med emneord fiske i katalogdata#

Korpuset defineres med metadata som dewey, emneord, navn , år, etc. Her kan Webdewey være til god hjelp.

dh.Corpus(ddk='9%', subject='fiske', limit=3)
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype ocr_creator ocr_timestamp
0 100521428 URN:NBN:no-nb_digibok_2007052400022 Villmarksliv : med Per fra Lappoluobbal Tufte , Thorbjørn / Gaino , Per Larsen oai:nb.bibsys.no:999605318154702202 e0542cdae48dc1ca877e923432fa13f5 8250400283 19730101 1973 Grøndahl nob Fiske / Jakt / Samer / samer 914.846 / 914.846 / 799 Faglitteratur digibok nb 20060101
1 100262296 URN:NBN:no-nb_digibok_2014121107526 To kulturer : en sammenlignende undersøkelse a... Vea , Jan oai:nb.bibsys.no:990937812104702202 07c6b1a32a57eb29f9b34429ff7a3204 20090101 2009 Høyskoleforl. nob Historie / Norge / Kystkultur / Fiske / Fisker... 948.33 / 948.103 Faglitteratur digibok nb 20060101
2 100145058 URN:NBN:no-nb_digibok_2013040807102 Rovdrift : en russisk trålerskipper beretter Lysenko , Vladil / Lund , Odd Tufte oai:nb.bibsys.no:998020631524702202 92c157282b57e52f4e2af093165f13ac 8205119902 19790101 1979 Gyldendal nob Fiskerier / Fiskerier / fiskeri / sovjet / fis... 639.2 / 920 Faglitteratur digibok nb 20060101

1.3.2.3. Korpus med bøker fra 1990 til 2000 som inneholder ordet demokrati#

dh.Corpus(doctype='digibok', fulltext='demokrati', from_year=1990, to_year=2000, limit=3)
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype
91 100496606 URN:NBN:no-nb_digibok_2015031948004 Eidskog bygdebok. B. 4 : Gnr. 53-60 Engen , Jorunn Ingrid oai:nb.bibsys.no:999601760124702202 5476cc56a1e8139cef6452cad99415c6 8299167736 / 8299167701 Skotterud 19950101 1995 Eidskog kommune nob Bygdebøker / Norge / Historisk framstilling / ... 948.2422 / 948.2422 Faglitteratur digibok
6 100097622 URN:NBN:no-nb_digibok_2007112304038 Ledelse og ledere i sykehus : administrasjon a... Holter , Elisabeth / Jansen , Anne Kari. oai:nb.bibsys.no:991436134724702202 b7d19c7369655105461d2063ba8104cf 8251825903 [Oslo] 19900101 1990 TANO nob organisasjonsteori / sykepleieledelse / sykehu... 362.11068 Faglitteratur digibok
27 100360722 URN:NBN:no-nb_digibok_2017112748055 Årets næringsliv i tekst og bilder : Dagens Næ... oai:nb.bibsys.no:999316094534702202 20db02b7a824e7f5e4095d6dfafc17de 8273460649 [Oslo] 19910101 1991 Dagens Næringsliv nob Uklassifisert digibok

1.3.2.4. Korpus med flere søkeord#

dh.Corpus(doctype='digibok', fulltext='her OR kan OR du OR legge OR inn OR flere OR søkeord', from_year=1960, to_year=1980, limit=3)
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype
62 100086388 URN:NBN:no-nb_digibok_2012033008042 Ungdom og fritid : en undersøkelse av fritidsa... Hauge , Ragnar oai:nb.bibsys.no:998121300734702202 93d19d3cd4768204981f7f25db22b53a Oslo 19730101 1973 nob Adolescent / Leisure Activities / Sociology / ... Uklassifisert digibok
68 100229689 URN:NBN:no-nb_digibok_2014100708137 Fortellinger for de minste Hallesby , Mia oai:nb.bibsys.no:999726796004702202 21faa9197efb9074c57a39f0c36eab70 Oslo 19610101 1961 und Uklassifisert digibok
8 100018642 URN:NBN:no-nb_digibok_2007060700012 Til karakteristikk av nutiden : foredrag holdt... Steiner , Rudolf oai:nb.bibsys.no:997511246564702202 4dcc8c1b66aa3e30dfcff4455a16e821 Bergen 19760101 1976 De tre funksjoner nob antroposofi Uklassifisert digibok

1.3.2.5. Aviskorpus#

dh.Corpus(doctype='digavis', from_timestamp=20060101, to_timestamp=20070101, limit=3)
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype ocr_creator ocr_timestamp
0 203913811 URN:NBN:no-nb_digavis_gaula_null_null_20060516... gaula 20060516 2006 digavis nb 20060101
1 203223761 URN:NBN:no-nb_digavis_stavangeraftenblad_null_... stavangeraftenblad Stavanger 20060329 2006 digavis nb 20060101
2 203479120 URN:NBN:no-nb_digavis_vestlandsnytt_null_null_... vestlandsnytt 20060310 2006 digavis nb 20060101

1.3.2.6. Legg korpuset i en variabel#

Variabelen brukes til å referere til korpuset senere

korpus = dh.Corpus(ddk="9%", subject="reindrift", from_year=1960, to_year=2020, limit=5)
korpus
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype ocr_creator ocr_timestamp
0 100388575 URN:NBN:no-nb_digibok_2018090407010 Landet bakom Johansen , Dag Ove oai:nb.bibsys.no:991431678204702202 0262f5f99f6bdb2e664172e04aaa7bf2 Rognan 20140101 2014 Bondes forl. nob Emigrasjon / Fra Norge / Emigrasjon / Fra Norg... 979.80049457 / 979.8 / 979.8004945 Faglitteratur digibok nb 20060101
1 100023485 URN:NBN:no-nb_digibok_2010111108028 Samer , rein og gull i Alaska : emigrasjon av ... Vorren , Ørnulv oai:nb.bibsys.no:998920073114702202 43bcab8c203342aaa9513c72111ff623 8273740536 / 8273740773 19900101 1990 Davvi media nob usa / samisk historie / samer / utvandring / n... 979 / 305.89457 Faglitteratur digibok nb 20060101
2 100364819 URN:NBN:no-nb_digibok_2018020948033 Reinen på Hardangervidda : natur og kultur Vaa , Johan / Bitustøyl , Kjell oai:nb.bibsys.no:991237194454702202 8358d28bbb7a9dc5f74ad6b5ba8ac8f7 20120101 2012 Villreinutvalet på Hardangervidda nno dyregraver / reindrift / fjell / Norge / Rein ... 639.1 / 639.1 / 948.28 / 639.11 / 639.109481 Faglitteratur digibok nb 20060101
3 100472261 URN:NBN:no-nb_digibok_2010032307035 I villreinens rike : Setesdal Vesthei , Ryfylk... Frøstrup , Johan Christian / Bang-Andersen , S... oai:nb.bibsys.no:990001151004702202 d6e1d58a454d2c15b44d9a225d948c1d 8291495149 19990101 1999 Friluftsforl. nob Rein / Jakt / Landskap / Lokalhistorie / Reind... 948.3 / 799.2765 Faglitteratur digibok nb 20060101
4 100033339 URN:NBN:no-nb_digibok_2007072300047 Samekulturen : en kulturhistorisk oversikt Vorren , Ørnulv / Manker , Ernst oai:nb.bibsys.no:998421244384702202 5b68f75796d957e69cbca8e481904a33 8200050211 19760101 1976 Universitetsforlaget nob Samer / Kultur / Cultural Characteristics / Mi... 301.2 / 948.0049457 / 305.89457 Faglitteratur digibok nb 20060101

1.3.3. 2. Bruk av Corpus#

Corpus tilbyr en rekke metoder for å gjøre korpus lettere å jobbe med:

  • from_identifiers:

    • Konstruerer et Corpus fra en liste med identifikatorer.

  • from_df:

    • Typecaster en Pandas DataFrame til Corpus-klassen. DataFrame må inneholde en URN-kolonne.

  • from_csv:

    • Importerer et korpus fra csv.

  • extend_from_identifiers:

    • Utvide korpuset med en liste med identifikatorer.

  • evaluate_words:

    • Evaluerer en liste med ord mot korpuset.

  • add:

    • Verktøy for å legge til et Corpus eller en DataFrame til det eksisterende korpuset.

  • sample:

    • Oppretter et tilfeldig subkorpus med et gitt antall.

  • conc:

    • Henter kollokasjoner av gitte ord i korpuset.

  • coll:

    • Henter kollokasjoner av gitte ord i korpuset.

  • freq:

    • Henter ordfrekvenser for korpuset.

1.3.3.1. Ta vare på eller rediger korpuset i excel#

# Korpus-variabel + .corpus + .to_csv(filnavn)
korpus.frame.to_csv('korpus.csv', index=None)
# Korpus-variabel + .corpus + .csv(filnavn)
korpus.frame.to_excel('korpus.xlsx', index=None)

Importer korpus fra excel-dokument

korpus = nb.restore_metadata_from_excel('korpus.xlsx')
korpus
dhlabid urn title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype ocr_creator ocr_timestamp
0 100388575 URN:NBN:no-nb_digibok_2018090407010 Landet bakom Johansen , Dag Ove oai:nb.bibsys.no:991431678204702202 0262f5f99f6bdb2e664172e04aaa7bf2 NaN Rognan 20140101 2014 Bondes forl. nob Emigrasjon / Fra Norge / Emigrasjon / Fra Norg... 979.80049457 / 979.8 / 979.8004945 NaN Faglitteratur digibok nb 20060101
1 100023485 URN:NBN:no-nb_digibok_2010111108028 Samer , rein og gull i Alaska : emigrasjon av ... Vorren , Ørnulv oai:nb.bibsys.no:998920073114702202 43bcab8c203342aaa9513c72111ff623 8273740536 / 8273740773 NaN 19900101 1990 Davvi media nob usa / samisk historie / samer / utvandring / n... 979 / 305.89457 NaN Faglitteratur digibok nb 20060101
2 100364819 URN:NBN:no-nb_digibok_2018020948033 Reinen på Hardangervidda : natur og kultur Vaa , Johan / Bitustøyl , Kjell oai:nb.bibsys.no:991237194454702202 8358d28bbb7a9dc5f74ad6b5ba8ac8f7 NaN NaN 20120101 2012 Villreinutvalet på Hardangervidda nno dyregraver / reindrift / fjell / Norge / Rein ... 639.1 / 639.1 / 948.28 / 639.11 / 639.109481 NaN Faglitteratur digibok nb 20060101
3 100472261 URN:NBN:no-nb_digibok_2010032307035 I villreinens rike : Setesdal Vesthei , Ryfylk... Frøstrup , Johan Christian / Bang-Andersen , S... oai:nb.bibsys.no:990001151004702202 d6e1d58a454d2c15b44d9a225d948c1d 8291495149 NaN 19990101 1999 Friluftsforl. nob Rein / Jakt / Landskap / Lokalhistorie / Reind... 948.3 / 799.2765 NaN Faglitteratur digibok nb 20060101
4 100033339 URN:NBN:no-nb_digibok_2007072300047 Samekulturen : en kulturhistorisk oversikt Vorren , Ørnulv / Manker , Ernst oai:nb.bibsys.no:998421244384702202 5b68f75796d957e69cbca8e481904a33 8200050211 NaN 19760101 1976 Universitetsforlaget nob Samer / Kultur / Cultural Characteristics / Mi... 301.2 / 948.0049457 / 305.89457 NaN Faglitteratur digibok nb 20060101

1.3.3.2. Bygg korpus fra boksøk på nb.no#

Søk etter bøker på nb.no, legg til debugon sammen med søkekriteriet. Kopier hele siden (ctrl-A) og lim inn resultatet mellom “”” … “”” nedenfor. Kommandoen som brukes er pure_urn(<tekst>) som prøver å finne URN-er i alt mulig av tekst.

urns = nb.pure_urn("""

--- lim inn teksten her, så trekkes urn (bokas identifikator) ut i en liste:
Vigdis Hjorth : et forfatterportrett
Jenssen, Ruth | Biblioteksentralen
1994
(api)
id: 7f0b021f40bf6804bca32e5b79e8d66a
urn: URN:NBN:no-nb_digibok_2015090158054
isDigital: true
viewability: ALL
allowedFrom: NORWAY
contentClasses:
legaldeposit
bokhylla
jp2
Som om ingenting : bare om Vigdis Hjorth
Linneberg, Arild | Hjorth, Vigdis | Solstad, Dag
2009
(api)
id: 847bd73c3318f6874a66d0f969ba495a
urn: URN:NBN:no-nb_digibok_2011051820014
isDigital: true
viewability: ALL
allowedFrom: NB
contentClasses:
restricted
legaldeposit
jp2
Leve posthornet! : Vigdis Hjorth
Horn, Ellen | Riksteatret
2014
(api)
id: e6d86eeb4ac8509533d647c9793f01dc
urn: URN:NBN:no-nb_digibok_2014091948002
isDigital: true
viewability: ALL
allowedFrom: EVERYWHERE
contentClasses:
public
legaldeposit
jp2
Fryd og fare : essay om diktning og eksistens
Hjorth, Vigdis
2013
(api)
id: 5ecd6c199ff74aa7c57c2292b61df17d
urn: URN:NBN:no-nb_digibok_2018031548382
--- teksten er kuttet her
""")
# Legger til URN-prefix for hver URN
urns = ["URN:NBN:no-nb_digibok_" + x for x in urns]
c = dh.Corpus() # Tomt korpus objekt
c.extend_from_identifiers(identifiers=urns) # Legger til kodene vi hentet fra teksten over
c # Viser korpuset
urn dhlabid title authors oaiid sesamid isbn10 city timestamp year publisher langs subjects ddc genres literaryform doctype ocr_creator ocr_timestamp
0 URN:NBN:no-nb_digibok_2015090158054 100267417.0 Vigdis Hjorth : et forfatterportrett Jenssen , Ruth oai:nb.bibsys.no:999409908064702202 7f0b021f40bf6804bca32e5b79e8d66a [Oslo] 19940101.0 1994.0 Biblioteksentralen nob Uklassifisert digibok nb 20060101.0
1 URN:NBN:no-nb_digibok_2018031548382 100367884.0 Fryd og fare : essay om diktning og eksistens Hjorth , Vigdis oai:nb.bibsys.no:991334240574702202 5ecd6c199ff74aa7c57c2292b61df17d [Oslo] 20130101.0 2013.0 Cappelen Damm nob Historisk framstilling / Norsk litteratur / Li... 809 / 839.824 / 809 / 839.824 Faglitteratur digibok nb 20060101.0
2 URN:NBN:no-nb_digibok_2014091948002 100496097.0 Leve posthornet ! : Vigdis Hjorth Horn , Ellen oai:nb.bibsys.no:991429153194702202 e6d86eeb4ac8509533d647c9793f01dc [Oslo] 20140101.0 2014.0 Riksteatret nob Uklassifisert digibok nb 20060101.0
3 URN:NBN:no-nb_digibok_2011051820014 100579548.0 Som om ingenting : bare om Vigdis Hjorth Linneberg , Arild / Hjorth , Vigdis / Solstad ... oai:nb.bibsys.no:990925957234702202 847bd73c3318f6874a66d0f969ba495a [Oslo] 20090101.0 2009.0 Cappelen Damm nob Norsk litteratur 839.828 / 839.828 festschrift Faglitteratur digibok nb 20060101.0

Tilbake til DHLAB ved Nasjonalbiblioteket