Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

W przypadku wgrania do AnnotationHelper zbioru danych w formacie CSV obligatoryjny jest nagłówek, a w nim przynajmniej jedna z nazw kolumn text, img_url, music_url, video_url, przy czym wielkość znaków nie gra roli. Wszystkie inne nazwy kolumn zostaną zignorowane!

Kolumny te jest traktowana jako źródło danych, które mogą być poddane adnotacji.

Domyślnym separatorem jest średnik „;”, inne możliwe to: przecinek, znak tabulacji tablulacji (TAB), spacja. Teksty, które w swojej treści posiadają znaki będące również separatorem (np. średnik) muszą być objęte cudzysłowami. Najlepiej, aby każdy tekst był objęty cudzysłowami.

...

  • Zawartość zbioru nie jest kompatybilnym plikiem CSV
    • Brak nagłówka,
    • Różna liczba kolumn w poszczególnych wierszach
    • Teksty zawierające znak będący separatorem nie oznaczone dodatkowymi cudzysłowami.
    • Nazwy kolumn inne niż: text, img_url, music_url, video_url
    • Zawartość pól img_url, music_url, video_url  niebędąca Zawartość pola img_url niebędąca popranym URI
    • Zbiór danych zawiera więcej niż 10000 porcji danych
    • Zbiór zawiera znaki, które uniemożliwiają wczytanie go do natywnych bibliotek języka ruby. Pliki powinny być zgodne z kodowaniem UTF-8.

Przykładowy zbiór CSV:

Attr1;text;Atr3;video_url

cokolwiek;”Krótki tekst objęty cudzysłowiem ; średnik tu nic nie psuje”;cokolwiek2;http://dai.ly/x4mliz

cokolwiek3;Dwa słowa;cokolwiek4;https://vimeo.com/6864303

więcej o csv na: https://pl.wikipedia.org/wiki/CSV_%28format_pliku%29

...

W przypadku zbioru danych w formacie JSON zakłada się, że zbiór to tablica zawierająca obiekty, z których każdy zawiera atrybut co najmniej jeden z atrybutów: text, img_url, music_url, video_url, (Wszystkie inne zostaną zignorowane), przy czym ostatnie trzy mogą wystąpić w jednym z dwóch miejsc w obiekcie:

...

  • Zawartość zbioru nie jest kompatybilnym plikiem JSON
    • Złe formatowanie
    • Zbiór danych zawiera więcej niż 10000 obiektów danych
    • Nazwy kolumn inne niż: text, img_url, music_url, video_url
    • Zbiór zawiera znaki, które uniemożliwiają wczytanie go do natywnych bibliotek języka ruby. Pliki powinny być zgodne z kodowaniem UTF-8.

Przykładowy zbiór w formacie JSON:

[{"text": "To jest przykładowy tekst", "video_url":"", "inny_atrybut": "wartość atrybutu"},

{"inny_atrybut": "wartość", "text": "To jest drugi tekst”, "video_url": "", "inny_atrybut”: "wartość atrybutu"}

]

Więcej o json na: https://pl.wikipedia.org/wiki/JSON

 

Zdefiniowanie nowego projektu

...