Teezir Crawler en Contentherkenning HBH
Openbare samenvatting: Elk jaar publiceert een groot deel van de organisaties in Nederland en wereldwijd hun jaarverslagen. Voor kleine ondernemingen zijn dit enkele pagina’s, maar voor grote organisaties zijn dit lijvige boekwerken. Voor organisaties die bemiddelen in bedrijfsinformatie zou het van onschatbare waarde zijn om deze jaarverslagen automatisch te kunnen aggregeren, en met behulp van contentherkenning te kunnen interpreteren en inzichtelijk te kunnen maken. Daarnaast heeft inmiddels bijna elke onderneming een website waar waardevolle informatie over de organisatie te vinden is. Het automatisch kunnen scrapen en interpreteren van de informatie op deze websites zou voor organisaties die bemiddelen in bedrijfsinformatie een waardevolle verrijking van hun gegevens betekenen. Veel websites en jaarverslagen hebben een vaste structuur met dezelfde onderwerpen. Teezir wil onderzoeken of het technisch en economisch haalbaar is om tekst mine software te ontwikkelen waarmee de informatiebronnen kunnen worden gescraped, content kan worden herkend en in de juiste categorie geplaats kan worden. Dit is vooral lastig bij formats die hier niet voor bedoeld zijn zoals PDF of andere formaten die tekst niet als tekst. De geïnterpreteerde data moet in een website template en in een jaarverslag template verwerkt kunnen worden, geëxporteerd kunnen worden naar een database en van daaruit moet de originele content op te roepen zijn. Met behulp van deze software moet het dan ook mogelijk worden om immense BigData-sets inzichtelijk te maken. Bij succesvolle afronding van de haalbaarheid zal een R&D samenwerkingsproject opgestart worden met een projectgrootte van circa € 300.000,- en een duur van ongeveer 1.5 jaar.