1.7. Søk i aviser#
Aviser skiller seg litt fra bøker ved at de utkommer daglig, sånn at datoer er en viktig del i konkordanser og kollokasjoner.
import dhlab.nbtext as nb
import dhlab as dh
from dhlab import Corpus, totals, Collocations, NgramNews, Ngram
1.7.1. Referansedata#
frekvenslisten for de 50000 meste frekvente i Bokhylla bøker.
tot = totals(50000)
tot.head(5)
freq | |
---|---|
. | 7655423257 |
, | 5052171514 |
i | 2531262027 |
og | 2520268056 |
- | 1314451583 |
1.7.2. Bygge korpus fra aviser#
korpus = Corpus(doctype="digavis", title="aftenposten", from_timestamp="19940101", to_timestamp="19940301", limit=20)
1.7.3. Konkordanser#
korpus.conc(words="langrenn").show()
link | concordance | |
---|---|---|
121 | URN:NBN:no-nb_digavis_aftenposten_null_null_19940226_135_96_1 | ... : Olympisk morgen . 08.00 : Kunstløp 10.00 : Langrenn og bob . 50 km klassisk , menn . Firemannsbob... |
33 | URN:NBN:no-nb_digavis_aftenposten_null_null_19940125_135_41_2 | ... Dn arrangørene kom til skistadion lørdag morgen var prcparcringsmaskinen ødelagt - og uten preparering kan en ikke ha langrenn på... |
20 | URN:NBN:no-nb_digavis_aftenposten_null_null_19940122_135_36_1 | ... 14.45 Svensk mesterskap , langrenn . 15.00 Tipsekstra . 16.00 Engelsk ligakamp . 17.45 Tipsekstra . Eurosport . 08.00 Aerobics... |
36 | URN:NBN:no-nb_digavis_aftenposten_null_null_19940130_135_49_1 | ... Inge Bråten , trener for det mannlige e-ite- ancWaget i langrenn de siste fire årene , har gitt langrennskomrteen i... |
127 | URN:NBN:no-nb_digavis_aftenposten_null_null_19940301_135_101_2 | ... - Langrenn på stadion blir selvsagt ikke slik folk flest pleier å oppleve langrenn , men i motsetning til hva... |
131 | URN:NBN:no-nb_digavis_aftenposten_null_null_19940301_135_101_2 | Langrenn på Ullevaal |
104 | URN:NBN:no-nb_digavis_aftenposten_null_null_19940225_135_95_2 | ... : Alpint , slalåm , menn . 10.00 : Langrenn , 50 km , menn . 13.00 : Alpint ,... |
46 | URN:NBN:no-nb_digavis_aftenposten_null_null_19940207_135_62_1 | ... , 3 ) Edu Pyoriåinen , Finland 5,0 . Langrenn Norgescup søndag , Jaktstart : Menn , 1 5 km... |
23 | URN:NBN:no-nb_digavis_aftenposten_null_null_19940122_135_36_1 | - Hva er forskjellen , lagidrett eller individuell Idrett ? - 1 langrenn er du alene om nederlagene , du... |
13 | URN:NBN:no-nb_digavis_aftenposten_null_null_19940118_135_29_2 | ... ( NTB ) Langrenn Rustadstafetten , Skullerudjordet lerdag . Arr . . Rustad IL . Menn senior 3 x 2,5... |
1.7.4. Kollokasjon#
coll = korpus.coll("langrenn").sort()
coll
---------------------------------------------------------------------------
AttributeError Traceback (most recent call last)
Cell In[5], line 1
----> 1 coll = korpus.coll("langrenn").sort()
2 coll
File ~/.cache/pypoetry/virtualenvs/digital-tekstanalyse-kDjkoATB-py3.10/lib/python3.10/site-packages/dhlab/text/dhlab_object.py:39, in DhlabObj.sort(self, by, asc)
37 if by is None:
38 by = self.frame.columns[0]
---> 39 return self.from_df(self.frame.sort_values(by=by, ascending=asc))
File ~/.cache/pypoetry/virtualenvs/digital-tekstanalyse-kDjkoATB-py3.10/lib/python3.10/site-packages/dhlab/text/conc_coll.py:141, in Collocations.from_df(cls, df)
135 """Typecast DataFrame to Collocation
136
137 :param df: DataFrame
138 :return: Collocation
139 """
140 obj = Counts()
--> 141 obj.counts = df
142 obj.frame = df
143 return obj
AttributeError: can't set attribute 'counts'
1.7.5. Sammenligne med referanse#
(coll.frame.counts / tot.freq).sort_values(ascending = False).head(20)
13.2 0.000038
hockey 0.000025
storbyer 0.000019
jaktstart 0.000018
15.2 0.000017
OL-gull 0.000016
BILL 0.000015
Rokke 0.000015
kv. 0.000014
verdenscupen 0.000014
alpint 0.000011
Formo 0.000011
Utfor 0.000010
Holmenkollen 0.000010
Kunstløp 0.000010
Innsbruck 0.000010
Brå 0.000009
Vikingskipet 0.000009
Grenoble 0.000009
omgjøres 0.000008
dtype: float64
1.7.6. Ngram#
Ngram(words=["likestilling"], doctype="digavis", from_year=2010, to_year=2020).plot(lw = 5)

at = NgramNews(
words=["likestilling"],
title="aftenposten",
from_year=1980,
to_year=2000
)
bt = NgramNews(
words=["likestilling"],
title="bergenstidende",
from_year=1980,
to_year=2000
)
(at.ngram / bt.ngram).plot(lw=5)
<AxesSubplot: >

Tilbake til DHLAB ved Nasjonalbiblioteket