1.7. Søk i aviser#
Aviser skiller seg litt fra bøker ved at de utkommer daglig, sånn at datoer er en viktig del i konkordanser og kollokasjoner.
import dhlab.nbtext as nb
import dhlab as dh
from dhlab import Corpus, totals, Collocations, NgramNews, Ngram
1.7.1. Referansedata#
frekvenslisten for de 50000 meste frekvente i Bokhylla bøker.
tot = totals(50000)
tot.head(5)
freq | |
---|---|
. | 7655423257 |
, | 5052171514 |
i | 2531262027 |
og | 2520268056 |
- | 1314451583 |
1.7.2. Bygge korpus fra aviser#
korpus = Corpus(doctype="digavis", title="aftenposten", from_timestamp="19940101", to_timestamp="19940301", limit=20)
1.7.3. Konkordanser#
korpus.conc(words="langrenn").show()
link | concordance | |
---|---|---|
47 | URN:NBN:no-nb_digavis_aftenposten_null_null_19940216_135_78_1 | ... Nordre Jørstad på Maihaugen til Birkebeineren og fem kilometer langrenn for kvinner . Dronningen fulgte en annen løype , og... |
66 | URN:NBN:no-nb_digavis_aftenposten_null_null_19940204_135_58_1 | ... jo et vinterland og her er snø nok . Langrenn og skiskyting har dessuten tradisjonelt en sterk posisjon . Verre... |
79 | URN:NBN:no-nb_digavis_aftenposten_null_null_19940124_135_39_2 | — Men dor vinner jeg nok ikke , fordi det er så mange som er bedre til å gå langrenn ,... |
88 | URN:NBN:no-nb_digavis_aftenposten_null_null_19940103_135_2_1 | Langrenn BUL-sprlnten ( også norgescup ) langrenn ssndag : 10 km klassisk menn : 1 ) Vegard Ulvang , Kirkenes... |
20 | URN:NBN:no-nb_digavis_aftenposten_null_null_19940205_135_60_1 | ... Barnas Rekr renn , Holmenkollen Langrenn : Ungdommens Holmenkollrenn j / g 12 - 13 år stafett jenter kl. 12... |
85 | URN:NBN:no-nb_digavis_aftenposten_null_null_19940112_135_18_1 | Velkommen til World Cup langrenn og kombinert 15. og 16. januar { JV M fj ^ ^ f ^ ^... |
25 | URN:NBN:no-nb_digavis_aftenposten_null_null_19940204_135_58_1 | ... , T , 52 73 07 60. 17.2 : Langrenn 10 km menn f 10 km Jaktstart kvinner , 3... |
43 | URN:NBN:no-nb_digavis_aftenposten_null_null_19940204_135_58_1 | ... ISHOCKEY / LANGRENN " 21.2 : Ish . Sverige • Canada , 2 v. ( A ) . 24.2 : 30 km... |
26 | URN:NBN:no-nb_digavis_aftenposten_null_null_19940117_135_26_1 | ... 12.00 verdenscupen i langrenn . Høydepunkter . 13.00 Verdenscupen i spesielt hopprenn 1400 Tennis . 17.00 Eurofun . 17.30 Rally... |
36 | URN:NBN:no-nb_digavis_aftenposten_null_null_19940114_135_23_2 | ... 15 km kombinert langrenn kl 12.15 . 4 xlokm menn , stafett fri teknikk , kl. 13.30 . Kafé Asylet... |
1.7.4. Kollokasjon#
coll = korpus.coll("langrenn").frame.sort_values(by="counts", ascending=False)
coll
counts | |
---|---|
. | 130 |
, | 102 |
og | 37 |
: | 37 |
km | 36 |
... | ... |
annen | 1 |
82. | 1 |
ancWaget | 1 |
83 | 1 |
bestandig | 1 |
635 rows × 1 columns
1.7.5. Sammenligne med referanse#
(coll.counts / tot.freq).sort_values(ascending = False).head(20)
Kunstløp 0.000019
15.2 0.000017
hockey 0.000017
x5 0.000013
stafett 0.000011
Utfor 0.000010
Alpint 0.000010
Langrenn 0.000010
kv 0.000009
Kombinert 0.000009
Katastrofe 0.000009
15,2 0.000009
14.2 0.000008
slor 0.000008
Holmenkollen 0.000008
OL-gull 0.000008
Schjerven 0.000008
Verdenscup 0.000008
13.2 0.000008
BILL 0.000008
dtype: float64
1.7.6. Ngram#
Ngram(words=["likestilling"], doctype="digavis", from_year=2010, to_year=2020).plot(lw = 5)

at = NgramNews(
words=["likestilling"],
title="aftenposten",
from_year=1980,
to_year=2000
)
bt = NgramNews(
words=["likestilling"],
title="bergenstidende",
from_year=1980,
to_year=2000
)
(at.ngram / bt.ngram).plot(lw=5)
<Axes: >

Tilbake til DHLAB ved Nasjonalbiblioteket