Loading…

Leveraging Natural Language Processing in Data Synthesis for use in Entity Matching

Entity Matching (EM) er en vanskelig oppgave som tidligere måtte bli utført manuelt. Metoder som benytter Kunstig Intelligens har siden blitt utviklet for å automatisere denne prosessen, men for å prestere bra er de avhengig av god treningsdata. God merkede data kan være vanskelig og dyrt å anskaffe...

Full description

Saved in:
Bibliographic Details
Main Authors: Nilsen, Daniel, Simmersholm, Aleksander
Format: Dissertation
Language:English
Online Access:Request full text
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:Entity Matching (EM) er en vanskelig oppgave som tidligere måtte bli utført manuelt. Metoder som benytter Kunstig Intelligens har siden blitt utviklet for å automatisere denne prosessen, men for å prestere bra er de avhengig av god treningsdata. God merkede data kan være vanskelig og dyrt å anskaffe, og i noen tilfeller kan det være umulig. Vi utforsker om Kunstig Intelligens kan bli benyttet for å produsere kunstig data som kan forbedre prestasjonen til EM modeller. Ved å bruke GPT-2 språkmodellen, CTGAN metoden og en data augmenteringsmetode vi selv har utarbeidet, vi genererer data som blir brukt til å supplere treningsdataen til modellene. Vi utforsker også om den genererte dataen kan alene bli brukt til å trene EM modellene. Våre resultater viser at EM modellene kan prestere bedre når deres treningsdata er supplementert med kunstig data. EM modellene presterte derimot ikke like bra når de var kun trent på kunstig data. Vi foreslår at ved å raffinere metodene for datagenerering kan resultatene bli enda forbedret.