Wednesday, September 28, 2016

Extendaquin 1






+

I dati dump I dati RDF viene serializzato utilizzando il formato N-triple, codificato come UTF-8 testo e compressi con gzip. Se siete a scrivere il proprio codice per analizzare il RDF discariche sua spesso più efficace di leggere direttamente dal file GZip piuttosto che l'estrazione dei dati e poi l'elaborazione dei dati non compressi. Nota: In Freebase, gli oggetti hanno MID che assomigliano a / m / 012rkqx. In RDF quei MID diventano m.012rkqx. Allo stesso modo, lo schema Freebase come / common / argomento sono scritti come common. topic. Il soggetto è l'ID di un oggetto Freebase. Può essere un MID Freebase (es. M.012rkqx) per argomenti e CVT o un ID leggibile (es. Common. topic) per lo schema. Il predicato è sempre un ID leggibile per una proprietà Freebase o una proprietà da un vocabolario standard RDF come FTR. Freebase spazi dei nomi chiave esterna sono utilizzati anche come predicati per rendere più facile per cercare le chiavi dal namespace. Il campo oggetto può contenere un Freebase MID per un oggetto o un ID leggibile per lo schema da Freebase o altri vocabolari RDF. Essa può anche includere valori letterali come stringhe, booleani e valori numerici. descrizioni Topic contengono spesso a capo. Al fine di rendere ogni forma tripla su una riga, siamo sfuggiti a capo con. Freebase eliminati Triple Forniamo inoltre una discarica di triple che sono stati cancellati dal Freebase nel corso del tempo. Si tratta di una discarica di una volta a marzo 2013. In futuro, potremmo considerare che fornisce aggiornamenti periodici del triple eliminati di recente, ma al momento non abbiamo determinato periodo di tempo per farlo, e stanno fornendo solo che questa discarica di una volta. La discarica è distribuito come un file. tar. gz (2.1GB compresso, 7,7 GB non compressi). Esso contiene 63,036,271 triple eliminati in 20 file (non vi è alcun significato particolare per i singoli file, è solo più facile da manipolare diversi file più piccoli di un file enorme). Grazie a Chun Come Tan e John Giannandrea per aver reso possibile questo rilascio dei dati. Il formato dei dati è essenzialmente CSV con un avvertimento importante. Il campo oggetto può contenere qualsiasi carattere, tra cui le virgole (così come tutti gli altri delimitatori ragionevoli si potrebbe pensare). Tuttavia, tutti gli altri campi sono garantite di non contenere virgole, quindi i dati possono ancora essere analizzati in modo inequivocabile. Le colonne del set di dati sono definite come: creationtimestamp (tempo di epoca Unix in millisecondi) creatore deletiontimestamp (Unix epoch time in millisecondi) Deletor soggetto (MID) predicato (MID) oggetto (MID / letterale) LanguageCode CSVFreebase / Wikidata Mapping I dati sono stati creati sulla base del Wikidata-Dump del 28 ottobre 2013, e contiene solo i collegamenti che hanno almeno due comuni Wikipedia-link e non un singolo disaccordo Wikipedia-link. Inoltre, le linee sono ordinati per numero di comuni Wikipedia-Link (anche se in Turtle questo non ha molta importanza). I dati RDF viene serializzato utilizzando il formato N-triple, codificato come UTF-8 testo e compressi con gzip. Licenza Freebase dati discariche sono forniti gratuitamente per qualsiasi scopo, con aggiornamenti regolari da parte di Google. Essi sono distribuiti, come Freebase per sé, sotto la Creative Commons Attribution (aka CC-BY) e l'uso è soggetto ai Termini di servizio. Le mappature ID Freebase / Wikidata sono forniti sotto CC0 e può essere utilizzato senza restrizioni. Citando Se youd piace citare questi dati discariche in una pubblicazione, è possibile utilizzare: Salvo diversamente specificato, i contenuti di questa pagina è sotto licenza 3.0 Licenza Creative Commons Attribution. e esempi di codice sono rilasciate sotto la licenza Apache 2.0. Per i dettagli, vedere le nostre politiche del sito. 2, 2016




No comments:

Post a Comment