resources/images/dhlab-logo-nb.png

1.7. Søk i aviser#

Aviser skiller seg litt fra bøker ved at de utkommer daglig, sånn at datoer er en viktig del i konkordanser og kollokasjoner.

import dhlab.nbtext as nb
import dhlab as dh
from dhlab import Corpus, totals, Collocations, NgramNews, Ngram

1.7.1. Referansedata#

frekvenslisten for de 50000 meste frekvente i Bokhylla bøker.

tot = totals(50000)
tot.head(5)
freq
. 7655423257
, 5052171514
i 2531262027
og 2520268056
- 1314451583

1.7.2. Bygge korpus fra aviser#

korpus = Corpus(doctype="digavis", title="aftenposten", from_timestamp="19940101", to_timestamp="19940301", limit=20)

1.7.3. Konkordanser#

korpus.conc(words="langrenn").show()
  link concordance
121 URN:NBN:no-nb_digavis_aftenposten_null_null_19940226_135_96_1 ... : Olympisk morgen . 08.00 : Kunstløp 10.00 : Langrenn og bob . 50 km klassisk , menn . Firemannsbob...
33 URN:NBN:no-nb_digavis_aftenposten_null_null_19940125_135_41_2 ... Dn arrangørene kom til skistadion lørdag morgen var prcparcringsmaskinen ødelagt - og uten preparering kan en ikke ha langrenn på...
20 URN:NBN:no-nb_digavis_aftenposten_null_null_19940122_135_36_1 ... 14.45 Svensk mesterskap , langrenn . 15.00 Tipsekstra . 16.00 Engelsk ligakamp . 17.45 Tipsekstra . Eurosport . 08.00 Aerobics...
36 URN:NBN:no-nb_digavis_aftenposten_null_null_19940130_135_49_1 ... Inge Bråten , trener for det mannlige e-ite- ancWaget i langrenn de siste fire årene , har gitt langrennskomrteen i...
127 URN:NBN:no-nb_digavis_aftenposten_null_null_19940301_135_101_2 ... - Langrenn på stadion blir selvsagt ikke slik folk flest pleier å oppleve langrenn , men i motsetning til hva...
131 URN:NBN:no-nb_digavis_aftenposten_null_null_19940301_135_101_2 Langrenn på Ullevaal
104 URN:NBN:no-nb_digavis_aftenposten_null_null_19940225_135_95_2 ... : Alpint , slalåm , menn . 10.00 : Langrenn , 50 km , menn . 13.00 : Alpint ,...
46 URN:NBN:no-nb_digavis_aftenposten_null_null_19940207_135_62_1 ... , 3 ) Edu Pyoriåinen , Finland 5,0 . Langrenn Norgescup søndag , Jaktstart : Menn , 1 5 km...
23 URN:NBN:no-nb_digavis_aftenposten_null_null_19940122_135_36_1 - Hva er forskjellen , lagidrett eller individuell Idrett ? - 1 langrenn er du alene om nederlagene , du...
13 URN:NBN:no-nb_digavis_aftenposten_null_null_19940118_135_29_2 ... ( NTB ) Langrenn Rustadstafetten , Skullerudjordet lerdag . Arr . . Rustad IL . Menn senior 3 x 2,5...

1.7.4. Kollokasjon#

coll = korpus.coll("langrenn").sort()
coll
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
Cell In[5], line 1
----> 1 coll = korpus.coll("langrenn").sort()
      2 coll

File ~/.cache/pypoetry/virtualenvs/digital-tekstanalyse-kDjkoATB-py3.10/lib/python3.10/site-packages/dhlab/text/dhlab_object.py:39, in DhlabObj.sort(self, by, asc)
     37 if by is None:
     38     by = self.frame.columns[0]
---> 39 return self.from_df(self.frame.sort_values(by=by, ascending=asc))

File ~/.cache/pypoetry/virtualenvs/digital-tekstanalyse-kDjkoATB-py3.10/lib/python3.10/site-packages/dhlab/text/conc_coll.py:141, in Collocations.from_df(cls, df)
    135 """Typecast DataFrame to Collocation
    136 
    137 :param df: DataFrame
    138 :return: Collocation
    139 """
    140 obj = Counts()
--> 141 obj.counts = df
    142 obj.frame = df
    143 return obj

AttributeError: can't set attribute 'counts'

1.7.5. Sammenligne med referanse#

(coll.frame.counts / tot.freq).sort_values(ascending = False).head(20)
13.2            0.000038
hockey          0.000025
storbyer        0.000019
jaktstart       0.000018
15.2            0.000017
OL-gull         0.000016
BILL            0.000015
Rokke           0.000015
kv.             0.000014
verdenscupen    0.000014
alpint          0.000011
Formo           0.000011
Utfor           0.000010
Holmenkollen    0.000010
Kunstløp        0.000010
Innsbruck       0.000010
Brå             0.000009
Vikingskipet    0.000009
Grenoble        0.000009
omgjøres        0.000008
dtype: float64

1.7.6. Ngram#

Ngram(words=["likestilling"], doctype="digavis", from_year=2010, to_year=2020).plot(lw = 5)
../_images/352b143e6cae4c880d0631f681c81148bff4ac1d94054cf7d81dbeb5246e63c3.png
at = NgramNews(
    words=["likestilling"],
    title="aftenposten",
    from_year=1980,
    to_year=2000
    )
bt = NgramNews(
    words=["likestilling"],
    title="bergenstidende",
    from_year=1980,
    to_year=2000
    )
(at.ngram / bt.ngram).plot(lw=5)
<AxesSubplot: >
../_images/13049713f5f5288714f41be98540a5eec5f691f2e8f19f305f829491e400cac3.png

Tilbake til DHLAB ved Nasjonalbiblioteket