隨着AudioSet發佈和提供的研究爲那些誰的研究做聲音分析一個全新的領域,我一直都試圖挖掘有關如何分析和解碼這些數據深這幾天。AudioSet和Tensorflow瞭解
數據在.tfrecord文件,繼承人一個小片斷給出。
�^E^@^@^@^@^@^@C�bd
u
^[
^Hvideo_id^R^O
^KZZcwENgmOL0
^^
^Rstart_time_seconds^R^H^R^F
^D^@^@�C
^X
^Flabels^R^N^Z^L
�^B�^B�^B�^B�^B
^\
^Pend_time_seconds^R^H^R^F
^D^@^@�C^R�
�
^Oaudio_embedding^R�
�^A
�^A
�^A3�^] q^@�Z�r�����w���Q����.���^@�b�{m�^@P^@^S����,^]�x�����:^@����^@^@^Z0��^@]^Gr?v(^@^U^@��^EZ6�$
�^A
給出的例子proto是:
context: {
feature: {
key : "video_id"
value: {
bytes_list: {
value: [YouTube video id string]
}
}
}
feature: {
key : "start_time_seconds"
value: {
float_list: {
value: 6.0
}
}
}
feature: {
key : "end_time_seconds"
value: {
float_list: {
value: 16.0
}
}
}
feature: {
key : "labels"
value: {
int64_list: {
value: [1, 522, 11, 172] # The meaning of the labels can be found here.
}
}
}
}
feature_lists: {
feature_list: {
key : "audio_embedding"
value: {
feature: {
bytes_list: {
value: [128 8bit quantized features]
}
}
feature: {
bytes_list: {
value: [128 8bit quantized features]
}
}
}
... # Repeated for every second of the segment
}
}
我很直接的問題在這裏 - 這是我似乎無法找到很好的信息 - 我該如何轉換乾淨兩者之間?
如果我有一臺機器可讀的文件,如何使人類可讀的,以及周圍的其他方法。
我發現this其拍照的tfrecord並將其轉換爲可讀的格式...但我似乎無法得到它與AudioSet
謝謝你 - 這讓我很遠,但是現在「功能」返回一個指針,並試圖把它打印出來給:類型錯誤:預期二進制或Unicode字符串,得到{「標籤」:, 'start_time_seconds':, 'VIDEO_ID':, 'end_time_seconds':} –
Zach
,將返回張量的字典。您現在可以在您的計算圖表中使用它們,例如'one_video_id = sess.run(features ['video_id'])'。或者開始用'tf.train.shuffle_batch'對它們進行批處理。更多關於圖表執行的細節請看這裏:https://www.tensorflow.org/programmers_guide/faq#building_a_tensorflow_graph –