Loading…
Leveraging Natural Language Processing in Data Synthesis for use in Entity Matching
Entity Matching (EM) er en vanskelig oppgave som tidligere måtte bli utført manuelt. Metoder som benytter Kunstig Intelligens har siden blitt utviklet for å automatisere denne prosessen, men for å prestere bra er de avhengig av god treningsdata. God merkede data kan være vanskelig og dyrt å anskaffe...
Saved in:
Main Authors: | , |
---|---|
Format: | Dissertation |
Language: | English |
Online Access: | Request full text |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Summary: | Entity Matching (EM) er en vanskelig oppgave som tidligere måtte bli utført manuelt. Metoder som benytter Kunstig Intelligens har siden blitt utviklet for å automatisere denne prosessen, men for å prestere bra er de avhengig av god treningsdata. God merkede data kan være vanskelig og dyrt å anskaffe, og i noen tilfeller kan det være umulig. Vi utforsker om Kunstig Intelligens kan bli benyttet for å produsere kunstig data som kan forbedre prestasjonen til EM modeller. Ved å bruke GPT-2 språkmodellen, CTGAN metoden og en data augmenteringsmetode vi selv har utarbeidet, vi genererer data som blir brukt til å supplere treningsdataen til modellene. Vi utforsker også om den genererte dataen kan alene bli brukt til å trene EM modellene. Våre resultater viser at EM modellene kan prestere bedre når deres treningsdata er supplementert med kunstig data. EM modellene presterte derimot ikke like bra når de var kun trent på kunstig data. Vi foreslår at ved å raffinere metodene for datagenerering kan resultatene bli enda forbedret. |
---|